Related projects
Discover more projects across a range of sectors and discipline — from AI to cleantech to social innovation.
Ce projet de recherche vise à relever le défi posé par la Loi 25, qui exige une gestion plus efficace des bases de données (BDD) pour éliminer les doublons. Pour les entreprises et organisations, cela signifie un besoin crucial d’unifier leurs bases de données pour éviter les redondances, telles que des noms, adresses, et numéros de téléphone répétitifs. Le but de cette recherche est de développer des méthodes innovantes pour identifier et gérer ces doublons en créant des algorithmes capables de détecter les entrées similaires malgré les erreurs courantes comme les fautes d’orthographe ou les formats différents.
La méthode traditionnelle de comparaison, connue sous le nom de distance de Levenstein, est souvent trop lente. Par conséquent, ce projet explore l’utilisation des n-grammes de lettres, une technique plus rapide et potentiellement plus précise pour comparer les données. L’objectif est de tester cette technique afin de fournir un score de correspondance fiable pour chaque paire d’entrées de données, améliorant ainsi l’efficacité et la précision de la fusion des bases de données.
Gilles Caporossi
Codex Conseil Inc.
Computer science
Professional, scientific and technical services
HEC Montréal
Accelerate
Discover more projects across a range of sectors and discipline — from AI to cleantech to social innovation.
Find the perfect opportunity to put your academic skills and knowledge into practice!
Find ProjectsThe strong support from governments across Canada, international partners, universities, colleges, companies, and community organizations has enabled Mitacs to focus on the core idea that talent and partnerships power innovation — and innovation creates a better future.