Dirty_Cat

Un outil pour le machine learning sur données non nettoyées

Le problème numéro un des spécialistes des données est de nettoyer les données pour les analyser. Dirty_cat est un logiciel libre capable d’effectuer un apprentissage statistique directement sur des entrées textuelles non normalisées.

L’outil évite d’avoir à manipuler des catégories encodées dans des vecteurs de très grandes dimensions et de passer par une longue étape fastidieuse de déduplication des catégories qui renvoient vers la même entité (ex : chat, felis catus, félin domestique,…).

En encodant les similarités morphologiques des catégories, dirty_cat permet d’effectuer directement des analyses sur les données brutes et apporte une amélioration significative des prédictions des algorithmes d’apprentissage, en comparaison avec les méthodes d’encodage connues pour les catégories ou les chaînes de caractères.

Dirty_cat s’adresse à tous les experts de sciences de la donnée qui souhaitent minimiser les étapes indispensables de préparation et de nettoyage des données, notamment en apprentissage statistique. Son développement s’appuie sur l’engagement et la participation d’une communauté internationale de data-scientistes.

Points forts du logiciel Dirty_Cat :

  • Encodage morphologique des variables catégorielles
  • Méthodes adaptées à de larges volumes de données
  • Intégration simple à scikit-learn
  • Interprétation simple des catégories encodées

Fiche technique

  • Equipe-Projet : Soda
  • Licence : BSD-3
  • Langage : Python
Domaines d'applications :

Démonstration du logiciel Dirty_Cat

Paroles de partenaires

Comme les données de la vie réelle sont très souvent désordonnées et en constante évolution, il est crucial de disposer d’outils tels que dirtycat pour analyser et traiter des variables catégorielles de haute dimension. Et grâce à son enracinement statistique, il est interprétable par conception. Dirtycat s’inscrit parfaitement dans la mission de Dataiku, qui est d’aider tout le monde à construire des pipelines de données robustes.

Léo Dreyfus-Schmidt, VP Research

Devenez partenaire du centre Inria de Saclay

Contactez-nous pour échanger sur votre besoin

L'équipe SODA

Pour aller plus loin

Articles scientifiques :