Data NoBlaBla : Séparez le Ham du Spam avec le langage R (Bis)


Details
Suite aux retours très encourageants lors du premier atelier, nous allons proposer une version de rattrapage pour ceux qui n’ont pas pu venir à la première édition du Data NoBlaBla "Séparez le Ham du Spam avec le langage R"
Pour ceux qui ne connaissent pas encore le concept, le "Data NoBlaBla" est un atelier pratique pour apprendre à faire de la data science (et mettre les mains dans le cambouis !).
Voici la description du prochain sujet :
Inutile de vous dire que les spams restent un vrai fléau sur notre messagerie : des e-mails commerciaux non sollicités, des messages frauduleux et surtout des annonces vantant les bienfaits d’une pilule bleue !
A l’origine le spam était juste une marque de jambon (Ham) précuit en boîte au goût peu appétissant. Dans les années 1970, les Monty Python mettent à l'honneur cette boîte peu goûteuse dans un sketch intitulé spam. La légende dit que les premiers geeks des années 1990, fans des Monty Python, qualifièrent de spam ces messages indésirables.
https://farm3.staticflickr.com/2232/2037630524_bd32366bc8.jpg
Aujourd’hui, selon une étude publiée par Symantec, le spam a franchi la barre symbolique des 90% du volume de courriel mondial !!!
Voilà un défi pour un data héros (et héroïne bien sûr).
Mister Enron est un utilisateur peu averti qui échange des dizaines de mails par jour. Malheureusement il est démuni d’une messagerie avec un filtre anti-spam et sa boîte de réception est inondée tous les jours par des centaines de spam. Pour améliorer la vie de notre cher ami Enron et le délivrer des data-vilains, nous comptons sur vous !
Vous allez déployer vos data-pouvoirs et mettre au point un système automatique permettant de trier les milliers de messages de notre utilisateur en “ham” (du bon message) et en “spam” (du message pourri).
Pour ce faire, vous allez devoir ménager votre monture ! Géraud Dugé de Bernonville (https://www.meetup.com/Tlse-Data-Science/members/143160542/), membre du TDS et data scientist en devenir, vous apprendra comment utiliser le langage de programmation R et les bases des outil d'analyse statistique. Avec vos bases en R, vous allez appliquer des techniques de machine learning aux messages de Mister Enron et construire un filtre anti-spam efficace.
Vous allez devoir prendre des décisions pour mieux ajuster votre filtre en tenant compte des préférences de notre utilisateur - est-ce qu’il est plus grave de manquer un e-mail légitime - classé accidentellement dans les spams - que de recevoir un spam de plus ?
A la fin de cet atelier vous serez capable :
• D’utiliser les bases du langages R
• De charger et manipuler des jeux de données avec R Studio
• De comprendre et d’appliquer des algorithmes de Machine Learning (Régression Logistique et Arbre de décisions simple)
• D’interpréter et d’évaluer la performance des vos modèle prédictifs
• D’ajuster au mieux votre modèle selon des critères métiers (les préférences de l’utilisateur, réduction des coûts opérationnels, etc) et prendre des décisions “data-driven”.
Quels sont les pré-requis ?
Au TDS, notre objectif c’est de rendre la data science accessible à tous ceux qui sont intéressés par ce domaine. Si vous avez déjà suivi l'atelier avec RapidMiner ou êtes venu au meetup machine learning vous serez à l’aise dans cet atelier. Si vous êtes tout nouveau dans le domaine, vous devez avoir les bases des mathématiques et de programmation. Une petite lecture de la page Wikipedia (https://en.wikipedia.org/?title=Machine_learning) vous permettra déjà d’être au courant de certaines terminologies et concepts du machine learning..
Mais n’oubliez pas, la meilleure façon d'apprendre c’est de vous y mettre. Posez des questions à vos collègues et à l’animateur de l’atelier.
Comment me préparer pour cet atelier ?
① Vous devez avoir installé les outils suivants:
R 3.2:
• Windows (http://cran.rstudio.com/bin/windows/base/)
• MacOS (http://cran.rstudio.com/bin/macosx/)
• Linux (http://cran.rstudio.com/bin/linux/)
RStudio Desktop: http://www.rstudio.com/products/rstudio/download/
② Nous allons utiliser deux packages R qui ne sont pas compris dans la version de base que vous venez d’installer. Les packages R sont des librairies qui couvrent un très large champ et vont de la statistique multivariée aux algorithmes de machine learning. Afin d’utiliser les arbres de décision, vous devez installer les packages “rpart” et “rpart.plot’. Pour ce faire, lancer Rstudio puis menu Tools -> Install packages… Dans le champ “Packages” il suffit de saisir la chaîne “rpart rpart.plot” et cliquer “Install.
③ Les jeux de données doivent être téléchargés depuis les liens suivants (clique droit sur le lien puis “Enregistrez le lien en tant que...“):
Données d'entraînement (https://raw.githubusercontent.com/geraudster/spamdata/master/emails_train.csv)
Données de test (https://raw.githubusercontent.com/geraudster/spamdata/master/emails_test.csv)
Un grand merci à notre sponsor Dexstr (http://www.dexstr.io/) qui nous aider à diffuser la data science auprès de tous les data passionnés !
http://photos3.meetupstatic.com/photos/event/3/a/3/9/600_434714905.jpeg
Empower your biopharmaceutical R&D with translational science software
Un merci aussi à :
O'Reilly Media (http://www.oreilly.com/pub/cpc/1161), qui offre des e-books et remises pour les conférences data science aux membres du TDS ;-)
Etincelle Coworking (http://www.coworking-toulouse.com/) qui nous accueille aimablement dans leur locaux !
-------------------------------------------------------------------------
Les meetups peuvent être filmés et le public photographié au long de l'événement. En participant à ces rencontres vous autorisez la publication des photos sur notre site Toulouse Data Science Meetup. Cette autorisation n'inclut pas une utilisation publicitaire d'image.
------------------------------------------------------------------------

Data NoBlaBla : Séparez le Ham du Spam avec le langage R (Bis)