Dirty_Cat

Un outil pour le machine learning sur données non nettoyées

Le problème numéro un des spécialistes des données est de nettoyer les données pour les analyser. Dirty_cat est un logiciel libre capable d’effectuer un apprentissage statistique directement sur des entrées textuelles non normalisées.

L’outil évite d’avoir à manipuler des catégories encodées dans des vecteurs de très grandes dimensions et de passer par une longue étape fastidieuse de déduplication des catégories qui renvoient vers la même entité (ex : chat, felis catus, félin domestique,…).

En encodant les similarités morphologiques des catégories, dirty_cat permet d’effectuer directement des analyses sur les données brutes et apporte une amélioration significative des prédictions des algorithmes d’apprentissage, en comparaison avec les méthodes d’encodage connues pour les catégories ou les chaînes de caractères.

Dirty_cat s’adresse à tous les experts de sciences de la donnée qui souhaitent minimiser les étapes indispensables de préparation et de nettoyage des données, notamment en apprentissage statistique. Son développement s’appuie sur l’engagement et la participation d’une communauté internationale de data-scientistes.

Points forts du logiciel Dirty_Cat :

Encodage morphologique des variables catégorielles
Méthodes adaptées à de larges volumes de données
Intégration simple à scikit-learn
Interprétation simple des catégories encodées

Fiche technique

Equipe-Projet : Soda
Licence : BSD-3
Langage : Python

Domaines d'applications :

Santé

Défense & sécurité

Industrie

Outils multidomaines

Suivre l'actualité du logiciel :

Site web

Démonstration du logiciel Dirty_Cat

Paroles de partenaires

Comme les données de la vie réelle sont très souvent désordonnées et en constante évolution, il est crucial de disposer d’outils tels que dirty–cat pour analyser et traiter des variables catégorielles de haute dimension. Et grâce à son enracinement statistique, il est interprétable par conception. Dirty–cat s’inscrit parfaitement dans la mission de Dataiku, qui est d’aider tout le monde à construire des pipelines de données robustes.

Léo Dreyfus-Schmidt, VP Research

Devenez partenaire du centre Inria de Saclay

Contactez-nous pour échanger sur votre besoin

L'équipe SODA

Soda est une équipe Inria qui mène des recherches à l’intersection entre l’apprentissage automatique, les bases de données et les sciences sociales quantitatives (économie empirique, épidémiologie…).

Les chercheurs se consacrent à différents axes de recherche comme l’apprentissage de représentation pour les bases de données hétérogènes et la science des données avec l’apprentissage statistique. L’équipe de Soda a un fort intérêt pour la santé et les sciences sociales et s’investit beaucoup dans l’utilisation d’outils d’apprentissage automatique clés pour l’impact socio-économique, en aidant à maintenir et à développer des outils tels que scikit-learn, joblib…

Pour aller plus loin

Articles scientifiques :

Cerda, P., Varoquaux, G. & Kégl, B. Similarity encoding for learning with dirty categorical variables. Mach Learn 107, 1477–1494 (2018)
Patricio Cerda, Gaël Varoquaux. Encoding high-cardinality string categorical variables. 2020. IEEE Transactions on Knowledge & Data Engineering