• Impacto da LGPD na área de Dados e Estratégias de Anonimização @Lambda3

    Preparem-se para o #20 encontro do PyData São Paulo! Neste encontro traremos um pouco mais de conhecimento sobre LGPD e estratégias de anonimização de dados, dessa vez, estaremos no HQ da Lambda3 com dois especialistas no segmento de dados! ----------------------------------- Agenda ----------------------------------- + 19h00 - 19h15: Recepção e palestras de abertura e de nosso patrocinador do dia :) + 19h15 - 20h00: Palestra 1: Impactos da LGPD na Área de Dados (Andréa Longarini) + 20h00 - 20h15: Networking & Café + 20h15 - 21h00: Estratégias de anonimização para cientistas de dados. (Kadu Vido) + 21h00 - 21h30: Horário livre: lightning talks, networking, sobrou coffee? —————————————————— Impactos da LGPD na Área de Dados —————————————————— - Abstract: Impactos da LGPD na Área de Dados Explicação da Lei Geral de Proteção de Dados, Contexto, Aplicações, Papéis, Sanções e Impactos na Área de Dados - Andréa Longarini (https://br.linkedin.com/in/andrea-longarini) Técnica em Processamento de Dados, Graduada em Licenciatura Plena em Computação, Pós-Graduada em Ciência de Dados Big Data Analytics pelo Mackenzie, aluna especial na USP São Carlos no MECAI - Mestrado Profissional em Matemática, Estatística e Computação aplicada à Indústria com Ênfase em Ciência de Dados, Curadora e Professora Convidada na Pós-Graduação em cursos de Tecnologia no Mackenzie e Cientista de Dados na Lambda3. —————————————————— Estratégias de anonimização para cientistas de dados.—————————————————— - Abstract: Introdução ao tema, seguido de um apanhado rápido com diversas técnicas de anonimização e pseudonimização de dados, explicando as aplicações de cada em diferentes produtos de dados. - Kadu Vido (https://www.linkedin.com/in/carlos-vido/) Engenheiro de dados na Lendico Brasil e co-fundador do PyData São Paulo.

    13
  • Sistemas de recomendação no Elo7 e Apache Marvin AI @Elo7

    PyData São Paulo Setembro de 2019 Observação do local: 1 andar Programação do dia: # Palestra 1: Sistemas de recomendação no Elo7 Nesta palestra, vamos falar sobre o sistema de recomendação de produtos relacionados do Elo7. Descreveremos a concepção de alguns dos nossos modelos de recomendação e os desafios de colocá-los em produção. # Cinthia Tanaka Formada em Ciências Moleculares, tem doutorado em matemática aplicada, na área de modelagem em evolução social. Trabalha atualmente no Elo7 no time de ciência de dados com problemas divertidos (principalmente) de busca e recomendação. —————————————————— # Palestra 2: Apache Marvin AI, uma demonstração pratica! Apresentação de uma demo usando o Apache Marvin AI, da criação do código até servir as predições do modelo através de uma API. #Rafael Novello Especialista em engenharia de software formado pela PUC-SP e líder técnico da equipe de ciência de dados na Lendico. Core dev no projeto Apache Marvin AI (github.com/apache/incubator-marvin), plataforma open source para desenvolvimento e entrega de projetos de ML.

    4
  • Análises de dados com grafos e Intro ao Elasticsearch @ CargoX

    R. Gomes de Carvalho, 1195

    PyData São Paulo Agosto de 2019 Observação do local: piso térreo. Programação do dia: # Palestra 1: Análises de dados utilizando grafos (chega de JOINS!) "- Introdução/O que é um grafo? - Bancos de dados orientados a grafos - Neo4j - Linguagem de consulta Cypher - Demonstração/Aplicação/Mão na massa" # Igor Goldstein Um cientista de dados amante de música, teatro e, sem dúvida, dados. Estudou engenharia de computação e iniciou na área de Web/Digital Analytics, mas se encontrou profissionalmente de fato em meio aos modelos de Machine Learning, métodos estatísticos e análises exploratórias. Na busca de mais aprendizado, sempre. —————————————————— #Palestra 2: Buscas eficientes. Uma introdução ao Elasticsearch. # O Elasticsearch é uma poderosa ferramenta quando se quer agilidade e relevância na hora de realizar um full-text search, muito simples de configurar, flexível, e com uma baixa curva de aprendizado para se começar usar. #Artur Ribeiro Desenvolvedor fullstack com mais de 6 anos de experiência e que ama tecnologia. Atualmente atuando como desenvolvedor pela MJV no projeto do aplicativo safra autônomos.

    8
  • Análise de leads com NLP e Detecção de Anomalias e Arquitetura Transformer @ Zap

    PyData São Paulo Julho de 2019 Detalhes sobre o local: Prédio do grupozap. Ocorrerá no 1 andar, basta dizer o nome na portaria. Programação do dia: #Palestra 1: Análise de leads com NLP e Detecção de Anomalias #Judge Panderson é a solução do grupo zap de processamento e classificação que identifica leads de corretor, suspeitos, permuta e em outros idiomas. Esta solução visa dar maior visibilidade sobre o comportamento dos usuários dos portais Viva Real e Zap Imóveis ao enviar mensagens para os corretores, imobiliárias e proprietários, além de gerar insights interessantes sobre os produtos. Nesta palestra vamos apresentar a abordagem de machine learning e stack utilizada para colocar este modelo em produção. #Patricia Pampanelli Patrícia é Cientista de dados no Grupo ZAP e Instrutora de Data Science na Tera. Ela já trabalhou anteriormente com soluções de inteligência artificial na Metta Innovations e como pesquisadora e desenvolvedora na PUC/Rio. —————————————————— # Palestra 2: Arquitetura Transformer para Séries Temporais A arquitetura do modelo Transformer proposta em 2017 pelo Google foi capaz de bater todos os benchmarks para tarefas relacionadas a NLP. Esse é mais um exemplo da efetividade de arquiteturas de AutoEncoders em problemas de processamento de sequências. Tendo em vista a similaridade entre os problemas de NLP e o processamento de séries temporais, faz sentido analisar a aplicação da mesma arquitetura em problemas de previsão de séries. A palestra busca explorar a arquitetura, propor uma implementação em pytorch e analisar um caso prático de previsão. # Luiz Andrade - TEVEC Engenheiro Civil pela Escola Politécnica de São Paulo, Mestre em Eng de Sistemas Logísticos, MBA em Globlal Supply Chain and Logístics pelo Massachussets Institute of Technology, atualmente doutorando pela Escola Politécnica de São Paulo. Luiz é sócio-fundador e COO da TEVEC Systems, empresa com foco em aplicação de IA para aumento de produtividade em cadeias de suprimento. A TEVEC atua há 6 anos no mercado entregando sistemas e soluções baseadas em IA para empresas do segmento varejista de bens de consumo.

    11
  • papis.io Latam 2019

    Needs a location

    *** INFORMAÇÃO IMPORTANTE*** Este evento é somente para divulgação do PAPIs LATAM 2019. A comunidade PyData Sâo Paulo é Community Partner do PAPIs Latam 2019 e todos os nossos membros tem direito a 30% de desconto na inscrição utilizando o link abaixo: https://papislatam2019.eventbrite.com?discount=CommunityPartner Saiba mais em: www.papis.io/latam-2019

    2
  • Data wrangling e carro autônomo

    Amazon Web Services

    PyData São Paulo Junho de 2019 Detalhes sobre o local: A recepção do evento será no 18º andar. Segue a programação do dia: # Palestra 1: Data wrangling on the cloud Discussão e exposição de estratégias para movimentar e transformar dados de diferentes formatos e tamanhos em um ambiente dinâmico de Cloud. Serão abordadas tecnologias como Apache Spark, Apache Arrow, Amazon EMR, AWS Glue e AWS Data Wrangler. # Igor Tavares - AWS Engenheiro de Computação atuando com Arquitetura de Dados! —————————————————— # Palestra 2: Como construí meu próprio Carro Autônomo (de controle remoto) Como construir um carro de controle remoto autônomo usando raspberry pi + Python + machine learning # Rodrigo Cava - Uber Cientista de Dados e Maker atualmente trabalhando na Uber como Gerente da área de Projetos de Restaurantes no Uber Eats. Formado em Computação, já trabalhou como desenvolvedor, consultor, vendedor e até design em empresas como Accenture e SAP.

    7
  • ML-Ops com Apache Marvin e Data Storytelling

    Dafiti Group

    ## Palestra 1 ### Apache Marvin: Uma ferramenta Open Source de ML-Ops Uma das maiores dificuldades em fornecer soluções usando aprendizado de máquina é disponibilizar o modelo em produção. Além de criar um modelo de qualidade, muitas vezes precisamos realizar previsões em tempo real e em grande escala. Nesta palestra, falaremos sobre o uso do Apache Marvin para criar um classificador de produto e servi-lo em uma API preditiva. ### Zhang Yifei - B2W Digital Engenheiro de dados na B2W Digital, membro PMC(Project Management Committee) do Apache Marvin. Mestre de ciência em Computação pela USP. Atualmente trabalha na área de People Analytics. ------------------------------------------------------------------------------------------- ## Palestra 2 ### Como comunicar seus dados de forma clara e eficiente: Apresentação de boas práticas em visualização de dados e storytelling, com dicas sobre como comunicar dados de forma clara e eficiente, pensando não somente no projeto a ser apresentado, mas, principalmente, no público alvo. ### Mariana Brutschin Pereira - iFood Graduação em Biotecnologia, Mestrado em Biologia Celular e Molecular, atualmente atua como Analista de dados Senior na área de Logística do iFood. Já teve experiência também como Analistade BI na Cadastra, e Lendico.

    2
  • Computação paralela em grande escala e reprodutibilidade em Machine Learning.

    Vamos falar sobre Python e dados em novo local, na In Loco! :D ## Palestra 1: Processamento de dados distribuídos usando Dask Escalando Python para data analysis de milhões à bilhões de rows. Superando as limitações do Pandas para datasets de alto volume usando computação distribuída com a biblioteca Dask. Palestrante: Rafael Moraes Senior SRE/Software Engineer na In Loco, entusiasta sobre sistema distribuídos e escaláveis. ## Palestra 2: Reprodutibilidade em Projetos de ML - O que é e por que queremos reprodutibilidade? - Compartilhando código - Experimentação contínua - Compartilhando dados Palestrante: Victor Villas Bôas Chaves Engenheiro de Dados na Gupy, o ATS líder no Brasil. Contribuidor de ferramentas Open Source voltadas pra ciência e engenharia de dados como Pandas e Apache Airflow.

    18
  • Machine Learning e Séries Temporais - teoria e prática

    Vamos falar sobre séries temporais ## Palestra 1 ### Machine-Translation Aplicada a Previsao de Series de Vendas A palestra explica a intuição dos auto-encoders e auto-encoders-variacionais em diferentes aplicações. Esses tipos de modelos são introduzidos no contexto de machine translation, text completion e speech to text. Em seguida a palestra conecta esse tipo de problema (inicialmente do domínio de NLP) com o problema geral de previsão de séries temporais. Em seguida apresenta-se um snippet de código com um passo a passo de como montar um auto-encoder com redes neurais recorrentes utilizando o pacote Keras. Por fim apresentam-se alguns resultados visuais de previsões. O objetivo da palestra é apresentar os conceitos envolvidos e a aplicação de um tipo de técnica de uma domínio (NLP) em outro (Time Series). ### Luiz Andrade **TEVEC Systems** Engenheiro Civil pela Escola Politécnica de São Paulo, Mestre em Eng de Sistemas Logísticos, MBA em Globlal Supply Chain and Logístics pelo Massachussets Institute of Technology, atualmente doutorando pela Escola Politécnica de São Paulo. Luiz é sócio-fundador e COO da TEVEC Systems, empresa com foco em aplicação de IA para aumento de produtividade em cadeias de suprimento. A TEVEC atua há 8 anos no mercado entregando sistemas e soluções baseadas em IA para empresas do segmento varejista de bens de consumo. ## Palestra 2 ### Deep Troll Detector (Gemidao do Zap) detector Tired of getting caught in difficult situations after playing some Whatsapp content with a troll in it? Let's put deep learning to work for the good! Deep troll uses a deep learning model that identifies whether an audio contains the Gemidao troll (AAAWN OOOWN NHAAA AWWWWN AAAAAH). The model uses a RNN-GRU architecture, using convolutions on audio spectrograms to extract features. https://github.com/andriosr/deeptrolldetector ### Andrios **Pismo** Sou arquiteto na Pismo, uma startup de processamento de pagamentos. Trabalho com dados aqui, além de outras coisas e dedico meu tempo extra à dados e ML.

    20
  • Machine Learning Operations - Machine Learning para produção.

    Vamos falar sobre melhores práticas de uso e avaliação de Machine Learning para projetos que irão para produção. ## Palestra 1 ### Quando Machine Learning encontra DevOps Os cientistas de dados e desenvolvedores de ML precisam de mais do que um notebook Jupyter para criar um modelo ML, testá-lo, colocá-lo em produção e integrá-lo a um portal e / ou a um aplicativo web / móvel básico de maneira confiável e flexível. Existem duas questões básicas que você deve considerar quando começar a desenvolver um modelo ML para um Business Case real: 1) Quanto tempo levaria sua organização para implantar uma alteração que envolvesse uma única linha de código? 2) Você pode fazer isso de forma confiável e repetível? ### Samir Araujo **Amazon Web Services** Samir Araújo é arquiteto de soluções de IA na AWS. Ele ajuda os clientes a criar soluções de inteligência artificial para resolver seus desafios de negócios, usando a plataforma da AWS. Ele tem trabalhado em vários projetos de IA relacionados à Visão Computacional, Processamento de Linguagem Natural, Inferência, etc. Ele gosta de brincar com projetos de hardware / programação em seu tempo livre e tem um interesse particular pela robótica. ## Palestra 2 ### Deep Learning com Reprodutiblidade Com modelos de deep learning, é comum se desprender do rigor científico e não seguir boas práticas, tornando mais difícil determinar quais componentes melhorar, adicionar ou remover; além dos naturais fatores de aleatoriedade envolvidos na modelagem. Nessa talk abordaremos formas de reduzir a aleatoriedade, como melhorar a reprodutibilidade em notebooks e como monitorar performance e resultado de modelos; utilizando PyTorch, MLFlow dentre outros frameworks. ### Guilherme Peixoto **In Loco** Atua como Machine Learning Engineer & Researcher na In Loco. Pesquisa na interseção de processamento de linguagem natural e inteligência artificial, com passagem nos EUA na Stevens Institute of Technology e Arizona State University. Na In Loco, trabalha primariamente com criar modelos de aprendizagem capazes de gerar modelos de inteligência de comportamento baseado em dados contextualizados de geolocalização.

    23