Scikit-learn
Scikit-learn
Une librairie de référence du machine learning
Scikit-learn est une bibliothèque logicielle écrite en Python qui fournit les briques de bases de l’apprentissage statistique, ou machine learning. Scikit-learn est utilisé régulièrement par plus d’1 million de personnes par mois*. Il est dans le top 3 des logiciels de machine learning les plus utilisés sur Github. Ses modèles prédictifs simples mais puissants permettent d’extraire de la compréhension de données, du modèle linéaire efficace sur dles textes jusqu’aux forêts aléatoires, bien adaptées aux bases de données hétérogènes. Dans des contextes industriels, la détection d’anomalie ou les réductions de données apportent facilement de la valeur.
La documentation de scikit-learn est reconnue comme une référence, qui permet de saisir rapidement de nouveaux concepts. Scikit-learn est beaucoup utilisé par les équipes de R&D des entreprises pour comprendre les problématiques et prototyper des solutions, même dans le cas de problèmes très difficiles qui peuvent nécessiter des solutions à façon.
Pour accompagner et stimuler l’écosystème scikit-learn, un consortium a été constitué au sein de la Fondation Inria Inria pour maintenir à l’avenir la qualité du logiciel et l’intégration des contributions de la communauté (plus de 1000 contributeurs dans le monde) ainsi que l’ajout de nouvelles fonctionnalités ambitieuses.
* Plus d’1 million de visiteurs uniques par mois sur la documentation technique en 2021
Fiche technique
- Licence : BSD-3
- Ecosystème compatible : Jupyter, Matplotlib et Pandas
- Bibliothèques compatibles : Numpy, Scipy et Cython
- Langage : Python
- Site web de scikit-learn





Différentes fonctions d’apprentissage
L’apprentissage supervisé
- Classification : pour identifier à quelle catégorie appartient un objet.
- Régression : pour prédire et identifier un attribut à valeur continue associé à un objet.
- Sélection de modèles : pour comparer, valider et choisir les paramètres et les modèles.
L’apprentissage non-supervisé
- Réduction de dimension : pour réduire le nombre de variables aléatoires à prendre en compte.
- Prétraitement : pour faire de l’extraction d’entités et de la normalisation.
Nombreux domaines d'applications
- Neurosciences, diagnostic médical et traitement de données de la crise COVID
- E-commerce : prévision des comportements des utilisateurs, prédiction des comportements d’achat, ciblage marketing etc.
- Optimisation des processus industriels et logistiques
- Amélioration des produits et maintenance prédictive
- Détection des tendances
- Détection des comportements abusifs : fraudes, spams, etc.
Scikit-learn en images
L'équipe SODA
Soda is an INRIA team doing research at the intersection between machine-learning, databases and quantitative social sciences (empirical economy, epidemiology…).
We are dedicated to various research axes like representation learning for heterogeneous databases and data science with statistical learning. The Soda team has a strong interest for health and social sciences and invest a lot in turning key machine learning tools for socio economic impact helping to maintain and grow tools like such as scikit-learn, joblib…
En savoir plus sur l'équipeIls nous font confiance










La presse en parle
ActuIA
15 février 2022
« Le MOOC scikit-learn débute ».
MESRI
4 février 2022
« Remise des prix science ouverte du logiciel libre de la recherche ».
HackerNoon
6 février 2021
« Scikit-learn 1.0 : New Features in Python Machine Learning Library ».
Inria
9 janvier 2020
« Prix de l’innovation Inria-Académie ‘des sciences-Dassault Systèmes 2019 : scikit-learn ».
Journal du net
21 décembre 2019
« Scikit-learn, l’IA open source française qui s’impose dans le monde. ».
Analytics Insight
5 mai 2018
Top Artificial Intelligence Technologies-Past, Present & Future
IT World
4 mai 2018
Python developers profiled: What you use, what you do
Jaxenter
25 avril 2018
Top 10 Python tools for machine learning and data science
Analytics India Magazine
17 avril 2018
Machine Learning Enhances Brain Image Data Quality in MRI : A Brief Overview
Mediapart
8 avril 2018
Intelligence artificielle : Comprendre le Deep et le Machine Learning