Past Meetup

Przegląd nowych metod poprawiających skuteczność trenowanych sieci neuronowych

This Meetup is past

35 people went

ShelfWise

ul. Berka Joselewicza 21c · Kraków

How to find us

Wejście od tyłu budynku, wjazd na parking od ulicy Joselewicza (mijając Biedronkę po lewej stronie, na końcu ulicy po prawej jest brama, należy w nią wjechać), wejście ostatnimi drzwiami, piętro II.

Location image of event venue

Details

# Abstrakt:

Prezentacja będzie przeglądem różnych metod poprawiania skuteczności trenowanych sieci neuronowych, opublikowanych w ciągu ostatnich dwóch lat. Większość z tych metod nie wymaga ingerencji w architekturę sieci i jest łatwa do zaimplementowania. W trakcie prezentacji będę chciał przedstawić motywacje jakimi kierowali się autorzy omawianych metod oraz jak zaimplementować dany algorytm w praktyce. Poruszę m.in. następujące tematy (przepraszam za brzydkie spolszczenia):

* dobór wartość kroku uczenia (learning rate) w zależności od rozmiaru `batcha`,
* jak dobrać początkową wartość kroku uczenia,
* czym jest AdamW i dlaczego ma on sens,
* czym jest ZeroInit i czy można trenować duże sieci neuronowe bez normalizacji aktywacji za pomocą np. BatchNorm,
* opowiem o cyklicznych `schedulerach` kroku uczącego,
* czym jest Mixup, Label Smoothing czy Shake-Shake regularizer,
* i wiele innych ...

Wszystkie wymienione metody są bardzo proste w koncepcji i, przede wszystkim, łatwe do przetestowania na własnych problemach.

# Poziom trudności

Poziom trudności prezentacji oceniam na łatwy. Prezentacja będzie miała charakter przeglądowy i nie będziemy wchodzić w skomplikowane detale techniczne. W trakcie prezentacji będę zakładał jednak, że słuchacz wie czym są sieci neuronowe i zejście gradientowe tj. zna i rozumie podstawy metod Deep Learning i uczenia sieci neuronowych.

# Czego się nauczysz?

* czym są wymienione wyżej techniki i jak ich użyć w praktyce,
* postaram się też opowiedzieć kiedy z takich technik warto korzystać a kiedy nie.

# Przykładowe referencje:

[1] Cyclical Learning Rate: https://arxiv.org/abs/1506.01186
[2] AdamW: https://arxiv.org/pdf/1711.05101.pdf
[3] Mixup: https://arxiv.org/pdf/1710.09412.pdf
[4] Label Smoothing: https://arxiv.org/pdf/1701.06548.pdf (praca na temat innej metody ale porównuje się z LS)

# Moje poprzednie prezentacje:

https://github.com/kmkolasinski/deep-learning-notes/tree/master/seminars