Data Science
La Data Science et encore plus la Big Data sont devenues des termes très à la mode en ce moment. Cela peut aller de la récupération de données, le traitement, la visualization, l’apprentissage automatique ou machine learning tout cela sur des jeux de données conséquents et parfois extrêmement gros. C’est pour cela qu’aujourd’hui des infrastructures sont développées pour répondre à ses problématiques de plus en plus courrentes dans les entreprises.
Introduction
En quelques mots le machine learning, c’est le fait d’aider une machine par différentes façon à prendre une décision. Ces décisions peuvent être très variées et de natures différentes :
- Classification : définir une catégorie (malade ou non)
- Régression : prédire une valeur numérique (le prix d’un appartement)
- Clustering : on encore de ranger de manière automatique des élements dans des classes que l’on appelle cluster (groupes de personnes).
Comment la machine fait elle pour faire ca ?
Comme pour tout humain qui doit apprendre les maths, la géographie ou l’histoire dans des livres scolaires, la machine doit aussi apprendre un ensemble de données, c’est l’ensemble d’apprentissage. La machine extrait des règles (par toujours évidentes à dércypter pour un humain), permettant de généraliser la décision sur des données qu’elle n’a jamais rencontrées.
Mais comment dire si un modèle fonctionne ou pas ?
Dans certain cas, cela est plus facile que d’autres, mais en règles générales on utilise des données que la machine n’a encore jamais vu. Pour déterminer les performances, on compare les résultats prédits et les valeurs réelles. Les méthodes d’évaluation de performances sont très différentes en fonction des types d’algorithmes utilisés.
Machine learning et Architecture
Comment utiliser un modèle via une API REST ?
Pour mettre en production des modèles vous pouvez utilisez ce package python https://github.com/rcourivaud/predictors_api
Comment déployer une API REST avec Docker ?
Etudes de cas
Hand Written Recognition Digits
Mise en place de modèles de type Deep Learning pour la reconnaissance d’image, appliqués à la détections de chiffres manuscrits.
Cancer du Sein
Analyses Cancer du Poumon
Analyse de jeux de données sur traitement du cancer du poumon
IMDB
Quelques annalyses de bases sur une dataset de 5000 films de la base d’IMDB.
Homicide aux USA
[Analyses Kyste Ovarien]
Analyses sur les hormones de la femmes et corrélations avec les kystes ovariens.