• Survival analysis + Unleashing the power of biodiversity data with R

    Let's welcome Ciera Martinez, data scientist, biologist, and co-organizer for the R-ladies SF, and Mathilde Chen, PhD Student, for our next meetup. Warning: please complete this form for registration (in addition to registration on meetup website): https://docs.google.com/forms/d/e/1FAIpQLSdzRsFf8EMnWnznh4Od69KMZI-hgAFM3PdNqlOxUNFVtDP0Vw/viewform?usp=pp_url Unleashing the power of biodiversity data with R (Ciera): Biodiversity data can take many forms, from photographs of bird feathers from museums to 3D CT-scans of extinct animals. Natural History Museums and Botanical Gardens have been digitizing their collections for over ten years yielding billions of data points culminating in one of the most exciting data resources the world has to offer. Evolutionary Biologist, Ciera Martinez, will be speaking about biodiversity data and her work as a current Mozilla Science Fellow. Her and her team have been working at the Berkeley Institute of Data Science exploring what the world of biodiversity data has to offer. You learn more about this project at curiositydata.org. In addition to talking about her biodiversity data project, she will speak about data science in academia and will host a brief workshop on how to use R to map fossils of extinct animals. Survival analysis (Mathilde): Data where value of a measurement or of an observation is partially known is defined as censored data. This type of data is very common in biomedical sciences, social sciences, engineering and ecology and particular care is required in their analysis. To deal with such data, survival analysis can be used. One of the main purposes of survival analysis is to estimate survival functions, i.e. the expected duration of time until one or more events happen, and their dependence on explanatory variables. In this presentation, we will see the caracteristics of this collection of statistical methods and their implementation in R, through the survival R package. Let's do survival analyses without suffering!

    1
  • Fluctuat nec mergitur - How to be a resilient R user ?

    Le prochain meetup Rladies accueillera Maëlle Salmon, software engineer pour rOpenSci et Locke Data. Nous aborderons la question de comment trouver de l'aide dans les océans R. Les diapos seront en anglais mais ce sont les participant.e.s présents qui choisiront si Maëlle présente en anglais ou en français. Nous serons hébergé par Malt, proche de Gare de l'Est : Maëlle s'en retournera à Nancy assez tôt :'-( c'est la raison pour laquelle nous débuterons à 18h15 Let's welcome Maëlle Salmon, software engineer at rOpenSci and Locke Data for our next meetup. We will deal with seeking for assistance on R's oceans. Slides will be in english but attendees will choose if the presentation is in french or in english.

    4
  • Tidyverse and puzzles

    Ecole Estiam (42 Consulting Groupe)

    En guise de meetup de rentrée, nous vous proposons d'accueillir Irene Steve, de passage à Paris. Elle nous fera un retour d'expérience de son été chez RStudio à travailler avec Jenny Bryan sur les puzzle Advent of code (https://adventofcode.com/2017/about). La présentation sera en anglais mais vous pourrez poser vos questions en français et nous vous aiderons à les traduire. Presentation : The Tidies of March is a series of data science challenges, inspired by the Advent of Code. The challenges give both aspiring and practicing data scientists a chance to learn and sharpen their data/tidyverse skills. Join Irene for some tidyverse function highlights and a short testing session of puzzles that will be released next March. Be sure to bring a laptop with you! Irene's short bio: Irene is currently interning at RStudio, where she's working with Jenny Bryan on the Tidies of March. She was previously a Data Science Fellow at the National Center for Ecological Analysis and Synthesis (NCEAS) in Santa Barbara, California, where she reviewed submissions to a data repository for completion, clarity, and data management best practices. Her next stop is Tel Aviv, Israel. A bientôt ! Stéphanie et Diane

    3
  • Mixed effects regression models

    Ecole Normale Superieure

    For this meetup, we will have the pleasure of listening to Naomi Havron and Nura Sidarus. They will provide an overview and guide for using R to analyse your data using mixed effects regression models. They will provide a conceptual introduction to what mixed effects regression models are and why you should use them, and then we will analyse some data together, making sure to mention subjects such as interactions, random effects structure and logistic regressions. The meetup will be in english. https://ensdeclife.wixsite.com/declife/rladies

    5
  • Données géographiques et cartographie sous R

    Ubicación visible para los miembros

    Un meetup à propos du package COGugaison, animée par notre membre Kim ANTUNEZ. L’objectif sera d’apprendre à manipuler des données géographiques et à créer de jolies cartes, le tout avec le logiciel R ! Toutes les étapes nécessaires à la création d’une carte vous seront présentées, depuis la récupération de la base de données sur le site de l’Insee en passant par la constitution d’une base de données communales en historique. Le code officiel géographique (appelé plus simplement COG) rassemble chaque année les codes et libellés des communes, des cantons, des départements, … Chaque année, des communes fusionnent ou se séparent et il leur arrive même parfois de changer de département. Le package COGugaison permet de manipuler des données communales produites à différents millésimes et de les agréger à différents niveaux supra-communaux et d’ainsi créer des bases de données harmonisées. Une fois ces bases constituées, il est alors possible de réaliser des cartes directement sur R avec divers packages sans passer par un logiciel de cartographie. Les fonctions du package ggplot2 et cartography vous seront présentées et vous irez même plus loin en apprenant à réaliser des cartes interactives et des gifs animés grâce aux package ggiraph et magick. Ce meetup sera en français. Liens COGugaison : https://antuki.github.io/COGugaison/articles/COGugaison.html cartes avec ggplot2 : http://eriqande.github.io/rep-res-web/lectures/making-maps-with-R.html cartography : https://cran.r-project.org/web/packages/cartography/vignettes/cartography.html ggiraph : https://davidgohel.github.io/ggiraph/articles/offcran/using_ggiraph.html magick : https://cran.r-project.org/web/packages/magick/vignettes/intro.html

    6
  • Analyse sentimentale de tweets + Introduction au web scraping avec rvest

    Ubicación visible para los miembros

    ANALYSE SENTIMENTALE DE TWEETS par Ahès Roulier Twitter, un des réseaux sociaux les plus répandus, peut aussi être une incroyable mine d'information pour des analyses sémantiques et sociales. R offre pour cela une grande variété d'options. Parmi ces options, l'analyse de sentiments vise à comprendre et suivre les émotions dans un texte. Dans le cadre d'un "hackathon" réalisé en 2 jours chez Estia, différentes méthodes d'analyse sémantique de tweets et de leur réponses ont été mises en œuvre avec R. Grâce à une interface R Shiny, l'utilisateur peut ainsi rechercher en direct des tweets et visualiser les résultats des différents algorithmes proposés par l'outil. WEB SCRAPING par Stéphanie Terrasse Le web scraping est un ensemble de techniques utilisées pour extraire le contenu de sites web. Avec plusieurs packages, R fait partie des logiciels qui permettent d'utiliser ces techniques. Cette présentation se concentrera sur l'utilisation du package rvest à travers le déroulement d'un exemple complet. Ce meetup sera en français.

    12
  • Retour d'expérience : compétition Kaggle avec R

    Ecole Normale Superieure

    Mercedes Sgobba, une de nos membres, nous a gentiment proposé de nous présenter son expérience d'utilisation de R dans le cadre d'une compétition Kaggle. Il y a environ un an, le Groupe Bimbo a lancé une compétition Kaggle pour améliorer son activité. Le Groupe Bimbo est la plus grande boulangerie au monde. Description de la compétition : Le Groupe Bimbo voudrait comprendre la consommation journalière de pain/produits de boulangerie au Mexique où les produits sont vendus dans les rayons de plus d’1 million de points de ventes. A date, les commandes quotidiennes sont calculées à la main par le personnel de livraison. Certains de ces produits ont une ‘shelf life’ d’une semaine au max. Il s’agira développer un modèle de prévision de la demande. Points clés : 74 millions d’observations, long travail de traitement de la donnée et jonction de plusieurs fichiers, élimination de duplicata, transformation en facteurs, ACP & Corrélation de variables, plusieurs exemples de visualisations avec R, découverte de fraude et construction d’un modèle de prévisions de la demande via un algorithme, comparaison de modèles (régression linaire, random forest..). https://www.kaggle.com/c/grupo-bimbo-inventory-demand

    12
  • Data Visualization in R: from exploration to presentation

    Ubicación visible para los miembros

    [Update: added agenda] Welcome to the first R-Ladies Paris meetup of fall 2017. The theme is Data Vizualiation with presentations on Highcharter & Ggplot2, plus opening words on data viz from our host for the evening, Critéo (https://www.criteo.com/). AGENDA 19h00 Quick welcome to Rladies Paris by Stéphanie Visualization at Critéo by Elena ----------------- 19h15 Essentials of data exploration with Ggplot2 by Sarah Questions 19h30 Interactive Data viz in Highcharter by Maria Paula Questions 20h15 A few closing words from Rladies Paris by Sarah Questions ------------------ 20h25 - ~21h00 Beer, sushi, pizza, mingling (https://www.criteo.com)

    10
  • Manipuler et traiter les données manquantes dans R

    [événement en français animé par Julie Josse - http://juliejosse.com/] Handling missing values in R, The aim of this meetup is to present an overview of the missing values literature and to discuss the potential pitfalls of the popular approaches in use and to show what are the recent tools available to handle, in a practicable way, missing values. We will touch upon the topics of single imputation with a focus on matrix completion methods based on iterative regularized SVD, notions of confidence intervals by giving the fundamentals of multiple imputation strategies, as well as issues of visualization with incomplete data. The approaches will be illustrated with data with continuous, binary and categorical variables using some of the main R packages Amelia, mice, missForest, missMDA, norm, softimpute, VIM. Please download the dataset here : http://juliejosse.com/wp-content/uploads/2016/06/ozoneNA.csv and be sure to have installed the packages below : install.packages(c("VIM", "missMDA", "FactoMineR", "Amelia", "mice"))

    20