Tendências em Inteligência Artificial e NLP


Details
TENDÊNCIAS EM INTELIGÊNCIA ARTIFICIAL E NLP
Teremos 4 sessões de 25 minutos, seguido por um painel de discussão, discutindo tendências em IA e NLP. O público-alvo são estudantes e profissionais que atuam na área de Machine Learning. Buscamos organizar o conteúdo de forma a trazer uma mistura de implementação, exemplos de aplicações e teoria.
Atualizaremos o link para o evento online um dia antes do evento, por motivo de segurança. Pode também se inscrever antecipadamente no Zoom webinar e receber o link por email:
https://us02web.zoom.us/webinar/register/WN_QiQtS6B0RLqaStEMKzE9Dg
Abaixo a descrição detalhada de cada apresentação.
-----------------------------------
Estado da arte do Processamento de Linguagem Natural (NLP) com as bibliotecas Transformer de Hugging Face e fastai
Pierre Guillou
Desde a publicação do modelo Transformer em 2017 pelo Google, o mundo do PNL vem experimentando seu "ImageNet Moment" com modelos de linguagem natural cada vez mais poderosos desenvolvidos a partir dessa arquitetura, como BERT em 2018, GPT-2 em 2019 e hoje Longformer, T5 ou GPT-3, por exemplo. Diante dessa explosão de modelos capazes de resolver todos os problemas clássicos do PNL (classificação, NER, Q&A, etc.), uma biblioteca que facilita o seu download e uso se tornou essencial: Transformers por Hugging Face. E com o lançamento do fastai v2 em julho de 2020, teremos um framework atualizado para usá-la ainda mais poderosamente com funções pré-instaladas que facilitam o treinamento desses modelos Transformers.
-----------------------------------
Inteligência Artificial faz triagem de solicitações legislativas no Senado Federal (Deep Learning - NLP - classificação de textos)
Fernando Melo
Processamento de Linguagem Natural é a maior demanda de Inteligência Artificial (IA) no Setor Público Brasileiro. A equipe do projeto escolheu a abordagem Universal Language Model Fine-tuning (ULMFiT), proposta por Howard e Ruder (2018), investigando variações na criação do Language Model, utilizando o corpus da Wikipédia e a base de discursos de parlamentares, bem como variações de ajuste fino desse modelo, com datasets de solicitações enriquecidos de metadados. Dessa forma, foi possível investigar se a utilização de textos específicos do domínio legislativo para o treinamento do Language Model é mais eficiente que o uso dos textos da Wikipédia, e se vale a pena enriquecer os dados de treinamento com metadados na etapa de fine tuning.
-----------------------------------
Pontuação automática de textos em português usando mecanismos de atenção e Conditional Random Fields
Christian Miranda
Fábio Sena
Com a ampliação e escala de serviços de speech to text, providos por Google, Amazon, Microsoft, IBM e outras grandes empresas, hoje é mais vantajoso para empresas de pequeno porte ou startups consumirem esses serviços prontos ao invés de desenvolver um speech to text próprio.
As saídas desses serviços ainda não possuem pontuação, ou possuem pontuação de qualidade baixa para português, sendo necessário uma revisão humana, antes dos próximos estágios do pipeline de dados.
Como em larga escala isso é inviável, desenvolvemos uma alternativa automatizada, utilizando técnicas atuais de machine learning.
-----------------------------------
O futuro das redes neurais é esparso
Lucas Souza
A ciência de redes neurais progride em uma velocidade impressionante, e os recentes avanços em visão, linguagem e robótica estão saindo do laboratório e entrando em empresas e projetos comerciais. No entanto, o foco dos benchmarks tem sido acurácia sem preocupação com o custo computacional associado. Os modelos GPT da OpenAI têm sido um exemplo de como escala é o suficiente para resolver problemas abertos na área, mas treinar um único modelo custa 12 milhões de dólares e tem o custo energético associado a vida útil de centenas de carros. Será possível manter os avanços de escala, mas sem comprometer eficiência?

Tendências em Inteligência Artificial e NLP