Nesta edição, apresentaremos os desafios do fine-tuning de LLMs (Large Language Models) com uma quantidade extremamente limitada de dados. Para isso, exploraremos as experiências do projeto PROLIND, uma iniciativa da IBM Research em parceria com a USP que busca apoiar comunidades indígenas na documentação, preservação e revitalização de suas línguas. Desde 2022, o projeto tem trabalhado com comunidades indígenas no Brasil, incluindo povos Guarani e Baré.
Falaremos sobre os esforços para a construção de ferramentas como tradutores e corretores ortográficos, utilizando grandes modelos de linguagem adaptados através de fine-tuning em um contexto de extrema escassez de dados disponíveis. Essas experiências e conhecimentos podem ser úteis em contextos similares em que organizações precisam fazer o fine-tuning de modelos para uso interno, mas dispõem somente de pequenas quantidades de dados.