Rețele neuronale - Cum funcționează normalizarea greutății Schimbul de stive de inteligență artificială

Citeam lucrarea Normalizarea greutății: o reparameterizare simplă pentru a accelera instruirea rețelelor neuronale profunde despre îmbunătățirea învățării unei ANN folosind normalizarea greutății.

Ei consideră rețelele neuronale artificiale standard în care calculul fiecărui neuron constă în luarea unei sume ponderate a caracteristicilor de intrare, urmată de o neliniaritate elementară

$$ y = \ phi (\ mathbf \ cdot \ mathbf + b) $$

unde $ \ mathbf $ este un vector de greutate $ k $ -dimensional, $ b $ este un termen de polarizare scalară, $ \ mathbf $ este un vector $ k $ -dimensional de caracteristici de intrare, $ \ phi (\ cdot) $ denotă un neliniaritate elementară și $ y $ denotă ieșirea scalară a neuronului.

Apoi, ei propun să reparameterizeze fiecare vector de greutate $ \ mathbf $ în termeni de vector de parametru $ \ mathbf $ și un parametru scalar $ g $ și să efectueze în schimb descindere de gradient stocastic în raport cu acei parametri.

unde $ \ mathbf $ este un vector $ k $ -dimensional, $ g $ este un scalar, iar $ \ | \ mathbf \ | $ denotă norma euclidiană de $ \ mathbf $. Ei numesc acest lucru reparameterizaton normalizarea greutății.

Pentru ce este folosit acest scalar $ g $ și de unde provine? Este $ \ mathbf $ greutatea normalizată? În general, cum funcționează normalizarea greutății? Care este intuiția din spatele ei?

1 Răspuns 1

Interpretarea ta este destul de corectă. Nu puteam înțelege cum ar accelera convergența. Ceea ce fac ei este, în esență, reatribuirea magnitudinii vectorului de greutate (numită și normă a vectorului de greutate).