Développement d’un Modèle Avancé de Similarité pour la Fusion de Bases de Données en Conformité avec la Loi 25 sur la Protection des Renseignements Personnels

Ce projet de recherche vise à relever le défi posé par la Loi 25, qui exige une gestion plus efficace des bases de données (BDD) pour éliminer les doublons. Pour les entreprises et organisations, cela signifie un besoin crucial d’unifier leurs bases de données pour éviter les redondances, telles que des noms, adresses, et numéros de téléphone répétitifs. Le but de cette recherche est de développer des méthodes innovantes pour identifier et gérer ces doublons en créant des algorithmes capables de détecter les entrées similaires malgré les erreurs courantes comme les fautes d’orthographe ou les formats différents.

La méthode traditionnelle de comparaison, connue sous le nom de distance de Levenstein, est souvent trop lente. Par conséquent, ce projet explore l’utilisation des n-grammes de lettres, une technique plus rapide et potentiellement plus précise pour comparer les données. L’objectif est de tester cette technique afin de fournir un score de correspondance fiable pour chaque paire d’entrées de données, améliorant ainsi l’efficacité et la précision de la fusion des bases de données.

Faculty Supervisor:

Gilles Caporossi

Student:

Partner:

Codex Conseil Inc.

Discipline:

Computer science

Sector:

Professional, scientific and technical services

University:

HEC Montréal

Program: