Bonjour les Data Scientist ! Dans cet article, j’ai envie de vous exposer la notion de qualité des données qui est très importantes. Il faut absolument connaitre tous les critères de la qualité des données avant même de penser aux modèles de Machine Learning.
Souvent, vous entendrez que la clé d’un bon modèle de Machine Learning est la qualité des données utilisées pour l’entrainer. Donc, aujourd’hui je vais vous aider a déterminer la qualité de ces données en vous donnons les critères clés à vérifier.
Donc, allons directement voir les critères de qualité des donnes.
Validité
Le premier critère est le degré de conformité des données aux règles ou contraintes définies. Ces contraintes concernent :
- Les types de données: les valeurs d’une colonne doivent être d’un type de données particulier, par exemple, numérique, date, etc.
- Contraintes de plage: par exemple, les nombres doivent être compris dans une plage donnée.
- Contraintes obligatoires : par exemple certaines colonnes ne peuvent pas être vide.
- Unicité: un champ ou plusieurs champs combinés doit être unique dans un dataset.
- Clé étrangère : comme pour les bases de données relationnelles, la colonne de clé étrangère ne peut pas avoir une valeur qui n’existe pas dans la clé primaire référencée.
- Motifs d’expression régulière: concernent des champs de textes doivent respecte un format précis. Exemple les numéros de téléphone qui doivent respecte le format (+33) 6 66 66 66 66.
- Validation entre champs: concernent des conditions qui doivent être remplies. Par exemple, un date de décès ne pas être avant une date de naissance de la même personne.
Précision
Ici la première des choses à avoir en tête est la différence entre exactitude et validité. Par exemple, dire que vous vivez en Europe est, certes, vrai. Cependant, cette réponse n’est pas précise.
Donc, ce qu’on doit vérifier est la précision des données et non seulement leurs exactitudes.
Cette tache n’est clairement pas simple. Car définir toutes les valeurs valides possibles permet de repérer facilement les valeurs non valides, cela ne signifie pas pour autant qu’elles sont exactes et encore moins qu’elles sont précis.
Complétude
On est souvent confrontes à cette problématique des valeurs manquantes qui rend nos données incomplets.
On peut atténuer cette problématique en nous assurant d’utiliser une bonne source de données. Il est possible de résoudre ce problème en discutant directement avec les propriétaires des données. Par exemple, dans une société d’assurance on peut avoir des contrats d’assurance manquants dans la base de donnes mais le service commercial a ses propres systèmes ce qui permettra de retrouver toutes les données manquantes.
Cohérence
Ici, on parle du degré de cohérence des données, dans le même dataset ou entre plusieurs datasets.
Une incohérence est le fruit a deux ou plusieurs données contradictoire dans le même dataset.
Par exemple, dans une base de donnes, on ne peut pas avoir un enfant de 8 ans dont le statut marital est divorce. Incohérence !!
Uniformité
Dans un dataset les donnes doivent utiliser les mêmes normes. Par exemple les mêmes unités de mesure.
Le poids peut être entré en livres ou en kilos. La date peut suivre le format européen ou le format américain.
Evitez de mélanger plusieurs unités de mesures dans le mêmes dataset.