addressalign-toparrow-leftarrow-rightbackbellblockcalendarcameraccwcheckchevron-downchevron-leftchevron-rightchevron-small-downchevron-small-leftchevron-small-rightchevron-small-upchevron-upcircle-with-checkcircle-with-crosscircle-with-pluscrossdots-three-verticaleditemptyheartexporteye-with-lineeyefacebookfolderfullheartglobegmailgooglegroupshelp-with-circleimageimagesinstagramFill 1linklocation-pinm-swarmSearchmailmessagesminusmoremuplabelShape 3 + Rectangle 1ShapeoutlookpersonJoin Group on CardStartprice-ribbonShapeShapeShapeShapeImported LayersImported LayersImported Layersshieldstartickettrashtriangle-downtriangle-uptwitteruserwarningyahoo

ParisDataGeeks April Second Time @Criteo

  • Apr 4, 2014 · 7:00 PM

The next edition of ParisDataGeeks is almost upon us. We would like to thank Criteo for welcoming us again!

This time we are going for a slower pace with only three presentations.

TL;DR

Ted Dunning - MapR :  Anomaly Detection (English)

Guillaume Pitel - Exensa :  Apache Spark : a practical feedback after implementing a data analysis workflow (French)

Sofian Djamaa and Rémy Pecqueur - Criteo :  Parquet format de stockage Hadoop orienté colonnes: Théorie et application (French)







Complete Abstracts :

1- Ted Dunning - MapR : Anomaly Detection

Ted Dunning has been involved with a number of startups with the latest being MapR Technologies where he is Chief Application Architect working on advanced Hadoop-related technologies. He is also a PMC member for the Apache Zookeeper and Mahout projects. Opinionated about software and data-mining and passionate about open source, he is an active participant of Hadoop and related communities and loves helping projects get going with new technologies.

The basic ideas of anomaly detection are simple. You build a model and you look for data points that don’t match that model. Building a practical anomaly detection system requires deal with practical details starting with algorithm selection, data flow architecture, anomaly alerting, user interfaces and visualizations. We will describe the major classes of anomaly detection systems and show how to build anomaly detection systems for:

a) rate shifts to determine when events such as web traffic, purchases or process progress beacons shift rate

b) topic spotting to determine when new topics appear in a content stream such as Twitter

c) network flow anomalies to determine when systems with defined inputs and outputs act strangely.

While describing how to solve these problems, we will describe how clustering, dimensionality reduction, and density estimation can be used in systems that adapt and learn about their environment and how these systems can tell you when something has changed.

This talk will reprise the content of my Strata presentation, but will include extra material that shows how compression equals truth and how anomaly detection can make databases faster among other sundry philosophical truths.





2 - Guillaume Pitel - Exensa :  Apache Spark : a practical feedback after implementing a data analysis workflow

Within a few months, we have rewritten the complete workflow for a data analysis engine: eXenGine. We'll give our feedback about using Apache Spark for implementing a proprietary matrix factorization method and analyzing Wikipedia for textual content, links and meta-data. Focus will be on the nice things we have found about Spark, and the little quirks and flaws we have been facing when dealing with 50GB of raw text on a small cluster.

 

3 - Sofian Djamaa and Rémy Pecqueur - Criteo : will tell us about their recent contribution to the Parquet storage format for Hadoop.

Parquet format de stockage Hadoop orienté colonnes: Théorie et application

Criteo possède des Pétaoctets de données stockées dans son cluster Hadoop, analysées quotidiennement par le business et les opérationnels au travers d'outils comme Cascading ou Hive. Le requêtage des Pétaoctets pouvant prendre plusieurs minutes, nous souhaitions améliorer ces performances afin de fournir des réponses plus rapide au métier. Jusqu'à récemment, le format de stockage utilisé était à 100% du RCFile. Nous allons discuter des détails de la migration vers Parquet avec à l'appui des comparatifs sur la mémoire et le temps cpu consommés.

Parquet est un format de fichier orienté colonnes pour Hadoop développé par Cloudera et Twitter avec la contribution de Criteo.

Les performances et les bénéfices de la compression liés à l'utilisation d'un format de stockage par colonnes pour le stockage et le traitement d'un large volume de données sont largement bien documentés dans la littérature académique ainsi que dans plusieurs solutions open-sources et commerciales telles que les HBase ou Vertica.

Parquet applique ces principes au stockage Hadoop : structures de données à plusieurs niveaux (schéma), encodage et compression des colonnes efficaces et compatible avec un panel d'applications (MapReduce, Hive, Cascading...).

We know it is frustating for a lot of you who can not come due to the limited place we have... so we have listened to you and we are proud and happy to announce we have partnered with InfoQ to bring you the integral videos from the sessions + exclusive interviews on the web!

Our partner dot Scale - The Tech Conference to supersize your apps ! a world class event held in Paris in the incredible "Théâtre de Paris" are offering DataGeeks participants a special 15% off reduction! Among others you can listen to  Paul Mockapetris (of DNS fame), Jeremy Edberg (Netflix), Matthew Ahrens (ZFS, OpenZFS), Thomas S. Hatch (SaltStack) and Mitchell Hashimoto (Vagrant, Packer, & Serf). Go to http://dotscale.eu to register and use DATAGEEKS as your promotion code!





Join or login to comment.

  • Ori P.

    Thank you all for coming and mostly incredible thanks to the speakers Ted, Guillaume, Sofiane & Rémy for great quality talks! Special thanks to InfoQ for filming the event so people that couldn't come could still enjoy this... lastly thnx Criteo. And see you all next time @Devoxx and @Google

    April 5, 2014

    • Guillaume P.

      Anyone has found the videos on InfoQ ?

      April 11, 2014

    • Jérémie G.

      Still no luck with InfoQ. However Ted Dunning said that his slides were similar to the slides he made for the Strata Conference. Found them here : http://strataconf.com...­

      April 29, 2014

  • Guillaume P.

    For those who are wondering if I have some "real " numbers about the performance of my algorithm NCISC on collaborative filtering data, here are a few recent results on NetFlix Prize dataset (comparison with a recsys 2012 paper) :
    https://www.linkedin.com/nhome/updates?topic=5864303688327143424

    https://twitter.com/PitZeGlide/status/458524898353098752

    Also, still no video on InfoQ ? :-(

    April 22, 2014

  • Sebastien T.

    Pour eviter les Pizzas avec leur lots de produits generateurs d'intolerances (gluten, caseine et consors) mais aussi un soucis pour tous en terme de glycemie, cholesterol, circulation et inflammmations diverses... j'apporte mes pommes pour survivre, mais il est vrai qu'il doit etre possible d'envisager quelques alternatives.

    1 · April 8, 2014

  • Ori P.

    Yup complètrement Pizza Overflow de mon côté aussi. Et on a quelques intolérants à la lactose. Faudra trouver moyen de faire mieux....

    2 · April 7, 2014

    • Bruno S.

      Chez criteo, d'autres meetup se terminent avec des sushis à volonté !! Quelqu'un doit sûrement connaître la filière :-))

      April 7, 2014

  • Ronan A.

    Super meetup. J'ai particulièrement apprécié la présentation de Ted Dunning, je me suis senti plus intelligent pendant 20 minutes. Merci aussi à Criteo pour l'accueil. Par contre, pizza overflow... :(

    April 7, 2014

  • Guillaume P.

    Top quality :)

    April 7, 2014

  • Sam B.

    Nos amis de Quantmetry qui ont organisé le Data Job à Paris en novembre, organisent un after dans un bar ce Lundi 07 Avril, afin d'aider les startups et les data scientists/engineers/passionates/etudiants/etc ... à se rencontrer et évaluer des opportunités. Le tout autour d'un verre.
    Les details, ainsi que l'inscription : http://lafter.datajob2013.fr

    3 · April 5, 2014

  • Anne-Marie

    It was interesting, I learnt things. I particularly liked Ted's Talk. I am sorry I had to leave before the last talk.

    April 5, 2014

  • Jérémie G.

    Are the videos already up on InfoQ ? Can't seem to find them.

    April 5, 2014

  • Sacha O.

    Always a pleasure !

    April 5, 2014

  • Stuart

    great speakers, I learnt things

    April 5, 2014

  • Jean-Noël K.

    Awesome meetup ! Some statistical stuff has been raised, love it :)

    April 5, 2014

  • Koby K.

    Excellent Meetup! Looking forward for the next one :)

    April 5, 2014

  • Philippe R.

    I had never heard a presentation from Ted Dunning until yesterday, he's a really great speaker. Excellent meetup overall!

    April 5, 2014

  • Gaelle G.

    Very interesting talks

    April 5, 2014

  • Alexandre S.

    Very good session with brilliant and very interesting talks. Thanks to the speakers, the organizers, and Criteo :-)

    April 5, 2014

  • Viet Anh T.

    Excellent!

    April 5, 2014

  • Dialekti V.

    I absolutely loved the presentations today. The first two were closest to my interests, and I really appreciated their quality. Thanks Criteo for another great DataGeeks event!

    April 5, 2014

    • Dialekti V.

      and of course, thank you Ori, Olivier and Sam :)

      April 5, 2014

  • Rui Teixeira G.

    Excellent talk by Ted Dunning on the meaning and math of detecting anomalies. Has given me insights on methods of stripping noise from signal.

    April 4, 2014

  • Ioannis P.

    Thank you Criteo for hosting!

    April 4, 2014

  • Bruno S.

    Top

    April 4, 2014

  • Sy A.

    il y'a de la place libre ???

    April 4, 2014

  • loic k.

    Trop de boulot ce soir, je libère ma place et fait un heureux !!!

    April 4, 2014

    • Romain

      Bonsoir, comment pouvons puis je récupérer votre place ? Bien cordialement Romain C.

      April 4, 2014

    • loic k.

      il y a une liste d'attente...

      April 4, 2014

  • Jérémie G.

    Pareil, une place libérée !

    April 4, 2014

  • Vincent H.

    Malheureusement je ne pourrai pas être là ce soir. Je libère ma place, il y a donc appel d'air dans la waiting list...

    April 4, 2014

  • Yann S.

    Désolé pour ce soir, je ne pourrais pas être là. La bonne nouvelle est que je libère ma place

    April 4, 2014

  • Hichame El K.

    Aaaarghhh, je viens de recevoir la confirmation qu'une place est libre (comme j'étais en liste d'attente), mais j'avais prévus autre chose.
    Damn, Damn.

    Je libère ma place au suivant :)

    April 4, 2014

  • Jean Baptiste F.

    Je suis preneur du coup :)

    April 4, 2014

  • Briac

    Est-ce que la conférence sera filmée & postée sur internet pour ceux qui sont sur liste d'attente?

    April 4, 2014

    • Ori P.

      Oui par notre partenaire InfoQ!

      2 · April 4, 2014

  • FranckBardol

    je libère ma place.
    J'attends les slides avec impatience !!

    April 4, 2014

  • David G.

    Très motivé pour venir. Je serais à 20 min de la rue Blanche, donc je suis preneur jusqu'à la toute dernière minute.
    Merci d'avance

    April 4, 2014

  • Andres B.

    One free place I cant go!

    April 3, 2014

  • Ahmat

    Idem, je suis preneur d'une place, même si ça se libère à 18h30 ;-)

    April 3, 2014

  • Superclojure

    Si une place se libère, je suis preneur aussi :)

    April 3, 2014

  • Hugues Le B.

    Au #hadoopsummit , @ted_dunning en promoteur de Scala cherche à faire croître et renforcer la communauté Mahout.

    1 · April 3, 2014

  • Frédéric

    Bonjour, désolé mais un événement imprévu m' oblige a ne pas venir : ma place se libère !!!

    April 3, 2014

  • Fabien V.

    Si 1 place se libère, je suis preneur :)

    March 29, 2014

    • Ori P.

      Voilà, préférence aux motivés!

      April 3, 2014

    • Fabien V.

      Merci!

      April 3, 2014

  • Mario M

    Même vendredi à 18h, si vous me prévenez de la disponibilité d'une place, je viendrai.

    April 3, 2014

  • ben

    S'il n'y a plus de place (je suis sur liste d'attente), je peux venir avec ma chaise ? :)

    1 · April 3, 2014

  • Olivier G.

    Bonjour a tous,

    Si vous êtes déjà inscrit mais vous ne pouvez finalement pas venir demain soir, merci de changer votre RSVP sur "non" pour libérer la place au prochain sur la waitlist (150 personnes actuellement).

    April 3, 2014

  • Hichame El K.

    Java/Scala dev :-)

    March 11, 2014

  • Jean-Noël K.

    Data Scientist

    February 26, 2014

  • Dialekti V.

    À votre disposition si le texte intéresse

    January 15, 2014

Our Sponsors

Sign up

Meetup members, Log in

By clicking "Sign up" or "Sign up using Facebook", you confirm that you accept our Terms of Service & Privacy Policy