scikit-learn
Une librairie de référence du machine learning
Scikit-learn est une bibliothèque logicielle écrite en Python qui fournit les briques de bases de l’apprentissage statistique, ou machine learning. Scikit-learn est utilisé régulièrement par plus d’1 million de personnes par mois*. Il est dans le top 3 des logiciels de machine learning les plus utilisés sur Github. Ses modèles prédictifs simples mais puissants permettent d’extraire de la compréhension de données, du modèle linéaire efficace sur dles textes jusqu’aux forêts aléatoires, bien adaptées aux bases de données hétérogènes. Dans des contextes industriels, la détection d’anomalie ou les réductions de données apportent facilement de la valeur.
La documentation de scikit-learn est reconnue comme une référence, qui permet de saisir rapidement de nouveaux concepts. Scikit-learn est beaucoup utilisé par les équipes de R&D des entreprises pour comprendre les problématiques et prototyper des solutions, même dans le cas de problèmes très difficiles qui peuvent nécessiter des solutions à façon.
Les domaines d’applications de scikit-learn :
- Neurosciences, diagnostic médical et traitement de données de la crise COVID
- E-commerce : prévision des comportements des utilisateurs, prédiction des comportements d’achat, ciblage marketing etc.
- Optimisation des processus industriels et logistiques
- Amélioration des produits et maintenance prédictive
- Détection des tendances
- Détection des comportements abusifs : fraudes, spams, etc.
* Plus d’1 million de visiteurs uniques par mois sur la documentation technique en 2021
Fiche technique
- Equipe-Projet : Soda
- Licence : BSD-3
- Ecosystème compatible : Jupyter, Matplotlib, Pandas, Pydata
- Bibliothèques compatibles : Numpy, Scipy et Cython
- Langage : Python
-
Suivre l'actualité du logiciel :
Différentes fonctions d’apprentissage
L’apprentissage supervisé :
- Classification : pour identifier à quelle catégorie appartient un objet.
- Régression : pour prédire et identifier un attribut à valeur continue associé à un objet.
- Sélection de modèles : pour comparer, valider et choisir les paramètres et les modèles.
L’apprentissage non-supervisé :
- Réduction de dimension : pour réduire le nombre de variables aléatoires à prendre en compte.
- Prétraitement : pour faire de l’extraction d’entités et de la normalisation.