Dirty_Cat
Un outil pour le machine learning sur données non nettoyées
Le problème numéro un des spécialistes des données est de nettoyer les données pour les analyser. Dirty_cat est un logiciel libre capable d’effectuer un apprentissage statistique directement sur des entrées textuelles non normalisées.
L’outil évite d’avoir à manipuler des catégories encodées dans des vecteurs de très grandes dimensions et de passer par une longue étape fastidieuse de déduplication des catégories qui renvoient vers la même entité (ex : chat, felis catus, félin domestique,…).
En encodant les similarités morphologiques des catégories, dirty_cat permet d’effectuer directement des analyses sur les données brutes et apporte une amélioration significative des prédictions des algorithmes d’apprentissage, en comparaison avec les méthodes d’encodage connues pour les catégories ou les chaînes de caractères.
Dirty_cat s’adresse à tous les experts de sciences de la donnée qui souhaitent minimiser les étapes indispensables de préparation et de nettoyage des données, notamment en apprentissage statistique. Son développement s’appuie sur l’engagement et la participation d’une communauté internationale de data-scientistes.
Points forts du logiciel Dirty_Cat :
- Encodage morphologique des variables catégorielles
- Méthodes adaptées à de larges volumes de données
- Intégration simple à scikit-learn
- Interprétation simple des catégories encodées
Fiche technique
- Equipe-Projet : Soda
- Licence : BSD-3
- Langage : Python
-
Suivre l'actualité du logiciel :