Data NoBlaBla : Séparez le Ham du Spam avec le langage R

This is a past event

20 people went

Etincelle Coworking

2 rue d'Austerlitz · Toulouse

How to find us

Place Wilson, Métro A et B

Location image of event venue

Details

Inutile de vous dire que les spams restent un vrai fléau sur notre messagerie : des e-mails commerciaux non sollicités, des messages frauduleux et surtout des annonces vantant les bienfaits d’une pilule bleue !

A l’origine le spam était juste une marque de jambon (Ham) précuit en boîte au goût peu appétissant. Dans les années 1970, les Monty Python mettent à l'honneur cette boîte peu goûteuse dans un sketch intitulé spam. La légende dit que les premiers geeks des années 1990, fans des Monty Python, qualifièrent de spam ces messages indésirables.

Aujourd’hui, selon une étude publiée par Symantec, le spam a franchi la barre symbolique des 90% du volume de courriel mondial !!!

Voilà un défi pour un data héros (et héroïne bien sûr).

Mister Enron est un utilisateur peu averti qui échange des dizaines de mails par jour. Malheureusement il est démuni d’une messagerie avec un filtre anti-spam et sa boîte de réception est inondée tous les jours par des centaines de spam. Pour améliorer la vie de notre cher ami Enron et le délivrer des data-vilains, nous comptons sur vous !

Vous allez déployer vos data-pouvoirs et mettre au point un système automatique permettant de trier les milliers de messages de notre utilisateur en “ham” (du bon message) et en “spam” (du message pourri).

Pour ce faire, vous allez devoir ménager votre monture ! Géraud Dugé de Bernonville (http://www.meetup.com/Tlse-Data-Science/members/143160542/), membre du TDS et data scientist en devenir, vous apprendra comment utiliser le langage de programmation R et les bases des outil d'analyse statistique. Avec vos bases en R, vous allez appliquer des techniques de machine learning aux messages de Mister Enron et construire un filtre anti-spam efficace.

Vous allez devoir prendre des décisions pour mieux ajuster votre filtre en tenant compte des préférences de notre utilisateur - est-ce qu’il est plus grave de manquer un e-mail légitime - classé accidentellement dans les spams - que de recevoir un spam de plus ?

Et en deuxième partie d’atelier, vous découvrirez comment les mêmes techniques apprises plus tôt ont permis à un cabinet d’avocats spécialisé dans l’analyse des pièces à conviction textuelles d’économiser quelques milliers de dollars grâce au machine learning !

A la fin de cet atelier vous serez capable :

• D’utiliser les bases du langages R

• De charger et manipuler des jeux de données avec R Studio

• De comprendre et d’appliquer des algorithmes de Machine Learning (Régression Logistique et Arbre de décisions simple)

• D’interpréter et d’évaluer la performance des vos modèle prédictifs

• D’ajuster au mieux votre modèle selon des critères métiers (les préférences de l’utilisateur, réduction des coûts opérationnels, etc) et prendre des décisions “data-driven”.

Quels sont les pré-requis ?

Au TDS, notre objectif c’est de rendre la data science accessible à tous ceux qui sont intéressés par ce domaine. Si vous avez déjà suivi le premier atelier (avec RapidMiner) ou êtes venu au meetup machine learning vous serez à l’aise dans cet atelier. Si vous êtes tout nouveau dans le domaine, vous devez avoir les bases des mathématiques et de programmation. Une petite lecture de la page Wikipedia (https://en.wikipedia.org/?title=Machine_learning) vous permettra déjà d’être au courant de certaines terminologies et concepts du machine learning..

Mais n’oubliez pas, la meilleure façon d'apprendre c’est de vous y mettre. Posez des questions à vos collègues et à l’animateur de l’atelier.

Comment me préparer pour cet atelier ?

① Vous devez avoir installé les outils suivants:

R 3.2:

• Windows (http://cran.rstudio.com/bin/windows/base/)

• MacOS (http://cran.rstudio.com/bin/macosx/)

• Linux (http://cran.rstudio.com/bin/linux/)

RStudio Desktop: http://www.rstudio.com/products/rstudio/download/

② Nous allons utiliser deux packages R qui ne sont pas compris dans la version de base que vous venez d’installer. Les packages R sont des librairies qui couvrent un très large champ et vont de la statistique multivariée aux algorithmes de machine learning. Afin d’utiliser les arbres de décision, vous devez installer les packages “rpart” et “rpart.plot’. Pour ce faire, lancer Rstudio puis menu Tools -> Install packages… Dans le champ “Packages” il suffit de saisir la chaîne “rpart rpart.plot” et cliquer “Install.

③ Les jeux de données doivent être téléchargés depuis les liens suivants (clique droit sur le lien puis “Enregistrez le lien en tant que...“):

Données d'entraînement (https://raw.githubusercontent.com/geraudster/spamdata/master/emails_train.csv)

Données de test (https://raw.githubusercontent.com/geraudster/spamdata/master/emails_test.csv)

Un grand merci à notre sponsor pour le soutien apporté !

Empower your biopharmaceutical R&D with translational science software

-------------------------------------------------------------------------

Les meetups peuvent être filmés et le public photographié au long de l'événement. En participant à ces rencontres vous autorisez la publication des photos sur notre site Toulouse Data Science Meetup. Cette autorisation n'inclut pas une utilisation publicitaire d'image.

------------------------------------------------------------------------