scikit-learn

Une librairie de référence du machine learning

Scikit-learn est une bibliothèque logicielle écrite en Python qui fournit les briques de bases de l’apprentissage statistique, ou machine learning. Scikit-learn est utilisé régulièrement par plus d’1 million de personnes par mois*. Il est dans le top 3 des logiciels de machine learning les plus utilisés sur Github. Ses modèles prédictifs simples mais puissants permettent d’extraire de la compréhension de données, du modèle linéaire efficace sur dles textes jusqu’aux forêts aléatoires, bien adaptées aux bases de données hétérogènes. Dans des contextes industriels, la détection d’anomalie ou les réductions de données apportent facilement de la valeur.

La documentation de scikit-learn est reconnue comme une référence, qui permet de saisir rapidement de nouveaux concepts. Scikit-learn est beaucoup utilisé par les équipes de R&D des entreprises pour comprendre les problématiques et prototyper des solutions, même dans le cas de problèmes très difficiles qui peuvent nécessiter des solutions à façon.

Pour accompagner et stimuler l’écosystème scikit-learn, un consortium a été constitué au sein de la Fondation Inria Inria pour maintenir à l’avenir la qualité du logiciel et l’intégration des contributions de la communauté (plus de 1000 contributeurs dans le monde) ainsi que l’ajout de nouvelles fonctionnalités ambitieuses.

Les domaines d’applications de scikit-learn :

  • Neurosciences, diagnostic médical et traitement de données de la crise COVID
  • E-commerce : prévision des comportements des utilisateurs, prédiction des comportements d’achat, ciblage marketing etc.
  • Optimisation des processus industriels et logistiques
  • Amélioration des produits et maintenance prédictive
  • Détection des tendances
  • Détection des comportements abusifs : fraudes, spams, etc.

* Plus d’1 million de visiteurs uniques par mois sur la documentation technique en 2021

Fiche technique

  • Equipe-Projet : Soda
  • Licence : BSD-3
  • Ecosystème compatible : Jupyter, Matplotlib, Pandas, Pydata
  • Bibliothèques compatibles : Numpy, Scipy et Cython
  • Langage : Python
Domaines d'applications :

Différentes fonctions d’apprentissage

L’apprentissage supervisé :

  • Classification : pour identifier à quelle catégorie appartient un objet.
  • Régression : pour prédire et identifier un attribut à valeur continue associé à un objet.
  • Sélection de modèles : pour comparer, valider et choisir les paramètres et les modèles.

L’apprentissage non-supervisé :

  • Réduction de dimension : pour réduire le nombre de variables aléatoires à prendre en compte.
  • Prétraitement : pour faire de l’extraction d’entités et de la normalisation.

Paroles de partenaires

Scikit-learn fournit une boîte à outils avec des implémentations solides d’un ensemble de modèles de pointe et permet de les connecter facilement aux applications existantes. Nous l’utilisons beaucoup pour nos recommandations musicales sur Spotify et je pense que c’est le package machine learning le mieux conçu que j’ai vu jusqu’à présent.

Erik Bernhardsson,
Engineering Manager Music Discovery & Machine Learning, Spotify

Scikit-learn est l’un des outils que nous utilisons lorsque nous intégrons des algorithmes standard pour les tâches de prédiction. Son API et ses documentations sont excellentes et le rendent facile à utiliser. Les développeurs de scikit-learn font un excellent travail en incorporant des développements de pointe et de nouveaux algorithmes dans l’outil. Ainsi, scikit-learn offre un accès pratique à un large éventail d’algorithmes et nous permet de trouver facilement le bon outil pour le bon travail.

Melanie Mueller, Data Scientist

Axa compte environ 300 data scientists mais sans doute plusieurs milliers d’utilisateurs internes de scikit-learn. Cet outil unique ouvre à nos actuaires des techniques supplémentaires de prédiction du risque, nous sert à accélérer les remboursements de sinistres automobiles ou à détecter les fraudes à l’assurance. C’est le couteau suisse du machine learning ! De plus, il est open source et issu d’un organisme scientifique public. Ainsi, nous ne sommes pas soumis au bon vouloir d’un éditeur et nous bénéficions d’une totale impartialité. Dans un tel contexte, notre participation au consortium s’imposait. Nous ne pouvions pas utiliser scikit-learn sans jamais contribuer à son développement.

Marcin Detyniecki , Directeur de la R&D d’Axa

 

Notre startup a vu le jour en 2013 avec une offre de plate-forme collaborative de data science qui va de l’acquisition des données au déploiement des modèles prédictifs en production. Pour la partie machine learning, nous avons préféré scikit-learn au développement de notre propre solution. En effet, nous faisions déjà partie de sa communauté d’utilisateurs et cela garantissait aussi une certaine transparence des algorithmes, très appréciée de nos clients, car ils peuvent comprendre la logique des outils qu’ils manipulent. Autre atout du logiciel, sa documentation est si bien faite qu’elle permet à un novice de se former au machine learning mieux et plus vite qu’avec un cours classique.

Léo Dreyfus-Schmidt, Directeur de la recherche de Dataiku

Ils nous font confiance

L'équipe SODA

La presse en parle

ActuIA
15 février 2022
« Le MOOC scikit-learn débute ».

MESRI
4 février 2022
« Remise des prix science ouverte du logiciel libre de la recherche ».

HackerNoon
6 février 2021
« Scikit-learn 1.0 : New Features in Python Machine Learning Library ».

Inria
9 janvier 2020
« Prix de l’innovation Inria-Académie ‘des sciences-Dassault Systèmes 2019 : scikit-learn ».

Journal du net
21 décembre 2019
« Scikit-learn, l’IA open source française qui s’impose dans le monde. ».

Analytics Insight
5 mai 2018
Top Artificial Intelligence Technologies-Past, Present & Future

IT World
4 mai 2018
Python developers profiled: What you use, what you do

Jaxenter
25 avril 2018
Top 10 Python tools for machine learning and data science

Analytics India Magazine
17 avril 2018
Machine Learning Enhances Brain Image Data Quality in MRI : A Brief Overview

Mediapart
8 avril 2018
Intelligence artificielle : Comprendre le Deep et le Machine Learning