Meetup passé

Datageeks at Vente Privée

Ce Meetup est passé

174 y sont allés

Détails

Hello Datageeks,

Nous revenons avec un nouveau meetup ce mois ci chez Vente Privée qui nous accueille et sponsorise la soirée.
Et nous avons l'honneur d'accueillir Marc Shapiro pour un talk sur un de ces nouveaux projets.

Au programme donc, une soirée variée avec du GPU et du deep learning et des CRDTs.

Marc Shapiro ( UPMC & INRIA) : AntidoteDB, une base de données nuage pour la juste cohérence.
Le théorème CAP montre que, quand le réseau peut se partionner, toute base de données répartie doit choisir entre cohérence et disponibilité. Le choix affecte la performance et le coût du système.
Les systèmes de base de données nuage existants forcent le développeur à faire ce choix très tôt dans le cycle de conception, et une fois pour toutes. Le choix de la cohérence forte (comme dans Spanner ou CockroachDB) nécessite une coordination globale à chaque opération ; ceci simplifie le developpement d'application en évitant la concurrence, mais du même coup réduit la disponibilité et augmente la latence. À l'inverse, les systèmes tels que Riak ou Cassandra n'assurent la cohérence qu'à terme : ils ne sacrifient jamais la disponibilité, mais le développeur doit se prémunir, dans son code, contre toutes sortes d'anomalies, afin d'éviter que les invariants de l'application ne soient violés.
Remarquons cependant que l'application a juste besoin du niveau de cohérence qui assure qu'elle reste correcte. Nous proposons donc un modèle intermédiaire, la « juste cohérence » (Just-Right Consistency, JRC). Elle s'appuie sur des techniques qui ne sacrifient pas la disponibilité ; elle n'introduit de la coordination que s'il est prouvé que cela est nécessaire pour l'application qui nous concerne.
Cet exposé examinera les principes de la juste cohérence, et présentera une base de données en logiciel libre basée sur ces principes, AntidoteDB. AntidoteDB gère des données à mise à jour sans conflit (Conflict-Free Replicated Data Types, CRDT) sous un modèle de cohérence transactionnel et causal (Transactional Causal Consistency, TCC), le modèle le plus fort qui ne sacrifie pas la disponibilité. La coordination nécessaire à certains invariants numériques est encapsulée de façon efficace dans un type de données spécialisé (« Bounded Counter »). Enfin, nous présentons un outil de vérification statique, qui permet au développeur d'exécuter certaines transactions en mode ACID à bon escient, uniquement lorsque c'est nécessaire selon la sémantique de l'application.

- Antoine Deblonde, Data Scientiste chez Vente Privée : Gérer un cluster de GPU cloud pour la reconnaissance d’image.

L’utilisation des réseaux de neurones est une martingale efficace pour la grande majorité des problèmes de machine learning, mais peut nécessiter des ressources conséquentes, surtout en GPU, ainsi qu’une gestion pointue de ces ressources, en plus d’une maîtrise des flux de données. Nous présentons ici un retour d’expérience sur un cas d’usage type de ces problématiques chez vente-privée : comment l’équipe datascience a monté des clusters de GPU sur AWS et Azure afin de réaliser une classification automatique des produits vendus par vente-privée à partir de leur photo, via le framework de Deep Learning Tensorflow.

- Pierre Fillard - CTO/CSO chez Therapixel : Apprentissage profond pour la radiologie

Les radiologues sont confrontés à des masses de données de plus en plus importantes (plus d'images, plus de détails dans chaque image) tout en devant consacrer le même temps (voire moins !) pour analyser chaque image. La multitude d'outils à leur disposition (outils de CAD pour Computer-Aided Diagnosis) sont en passe d'être remplacés par des algorithmes à base d'apprentissage profond. Ceux-ci non-seulement surpassent les outils actuels, mais également se rapprochent (voir dépassent !) la performance des radiologues.

Au cours de cette présentation, nous nous arrêterons sur deux applications majeures en terme de santé publique - la prédiction de cancer du poumon à partir des scanners abdominaux (CT) et la prédiction de cancer du sein à partir des mammographies. Ces deux applications ont récemment fait l'objet de challenges internationaux où Therapixel s'est hissé respectivement à la 5ème et 1ère place.

Ressources :

- Kaggle's Data Science Bowl 2017 (https://www.kaggle.com/c/data-science-bowl-2017/leaderboard)

- The Digital Mammography DREAM Challenge (https://www.synapse.org/#!Synapse:syn[masked]/wiki/[masked]