Normalizare după greutate arhivată O reparametrizare simplă pentru a accelera antrenamentul adâncurilor

Jae Duk Seo

9 februarie 2019 · 4 min de citire

Vă rugăm să rețineți că această postare are scopul meu educațional.

Acum → normalizăm greutatea rețelei → accelerează convergența → nu are dependență de dimensiunea lotului → poate fi aplicat în RNN sau GAN. (Metodă simplă, dar puternică de accelerare a convergenței). → aplicat și în RL.

NN → se poate antrena mai repede atunci când este implicat factorul de normalizare → metodele de optimizare a gradientului de prim ordin → depinde de curbura peisajului de pierdere → punctele de șa sunt problema. (pe curbura patologică → progresul greu în acele peisaje). → există o metodă mai ușoară de optimizare. (găsirea unor modalități bune de optimizare este un domeniu cheie de cercetare).

Arhitectura rețelei diferă de la sarcină la sarcină → Îmbunătățirea proprietății de optimizare este un alt domeniu cheie de cercetare → îmbunătățirea metodelor de optimizare ar fi foarte utilă. (folosind metode de gradient natural, ar putea fi pe cale.). → se referă la matricea Fisher și operația de scriere. Sau schimbați face gradientul să arate ca un gradient natural → albirea gradientului → ghiciți că decorelația îmbunătățește optimizarea. (normalizarea lotului este o altă metodă). → reduceți schimbul de covarianță. (inspirat de normalizarea lotului) → dar nu există zgomot la gradient.

NN standard → multiplicarea matricii și neliniaritatea → abordare generică. (reparameterizați greutatea prin normalizare → introducând V și G.).