On an inefficiency in the linear attention projections, and how to fix it

Name: On an inefficiency in the linear attention projections, and how to fix it
Start: 2026-05-20T18:00:00+02:00
End: 2026-05-20T20:00:00+02:00
Location: Base42

Hosted by Pavlina B.

PyData Skopje

Details

Со големо задоволство ве покануваме на новиот PyData собир, кој ќе се одржи во среда, на 20 мај 2026 година, со почеток во 18:00 часот во Base42.

Овој пат ќе имаме можност да проследиме предавање на тема „On an Inefficiency in the Linear Attention Projections, and How to Fix It“, кое ќе го одржи м-р Марко Карбевски.

Предавањето ќе понуди интересен спој на длабоки теориски увиди во Transformer архитектурите и лично искуство од независно ML истражување. Во рамки на презентацијата ќе биде претставено истражување кое покажува дека Query тежините во standard self-attention механизмот можат целосно да се елиминираат без нарушување на функционалноста на моделот. Со ова се намалуваат параметрите и пресметковната комплексност за повеќе од 8%, а наместо редундантен линеарен слој се користи мал и ефикасен нелинеарен модул кој овозможува постабилен тренинг и подобри резултати кај GPT-стил модели.

Дополнително, ќе стане збор и за математичките основи зад истражувањето, вклучително и нови сознанија за улогата на skip connections кај MLP мрежите и нивното влијание врз функциите што моделите можат да ги репрезентираат.

Покрај техничкиот дел, Марко ќе зборува и за предизвиците на независното ML истражување — од експерименти и hyperparameter пребарувања, до искуството од учество на DeLTa и GRaM работилниците на овогодинешниот ICLR во Рио де Жанеиро 🇧🇷. ICLR е широко признаена како една од трите најпрестижни научни конференции во светот во областа на машинското учење.

Марко Карбевски е магистер по теориска математика со осумгодишно искуство како Data Scientist. Дипломирал во областа на теориската математика, а магистерските студии ги завршил на Сорбона во Франција. Неговите интереси се насочени кон теориските аспекти на машинското учење и фундаменталните ML архитектури.

PyData Skopje

On an inefficiency in the linear attention projections, and how to fix it

PyData Skopje

Details

Related topics

You may also like