Zbritja stokastike e gradientit

Zbritja stokastike e gradientit (shpesh e shkurtuar SGD/ZSG ) është një metodë iterative për optimizimin e një funksioni të humbjes me vetitë e përshtatshme të lëmueshmërisë (p.sh. i diferencueshëm ose i nëndiferencueshëm ). Mund të konsiderohet si një përafrim stokastik i optimizimit të zbritjes së gradientit, pasi zëvendëson gradientin e tanishëm (të llogaritur nga i gjithë grupi i të dhënave ) nga një vlerësim i tij (i llogaritur nga një nëngrup i të dhënave i zgjedhur rastësisht).

Sidomos në problemet e optimizimit me dimensione të larta, kjo zvogëlon ngarkesën shumë të lartë llogaritëse, duke arritur përsëritje më të shpejta në këmbim të një norme më të ulët konvergjence. ^[1]

Metoda përsëritëse

Luhatjet në funksionin total objektiv janë marrë si hapa gradienti në lidhje me mini-grumbujt.

Në zbritjen stokastike të gradientit (ose "on-line"), gradienti i vërtetë i $Q(w)$ përafrohet me një gradient në një kampion të vetëm:

w:=w-\eta \nabla Q_{i}(w).

Shembull

Supozoni se duam të përshtasim një vijë të drejtë ${\hat {y}}=w_{1}+w_{2}x$ në një grup trajnimi me vëzhgime $(x_{1},x_{2},\ldots ,x_{n})$ dhe përgjigjet përkatëse të vlerësuara $({\hat {y}}_{1},{\hat {y}}_{2},\ldots ,{\hat {y}}_{n})$ duke përdorur katrorët më të vegjël . Funksioni objektiv që duhet minimizuar është

Q(w)=\sum _{i=1}^{n}Q_{i}(w)=\sum _{i=1}^{n}({\hat {y}}_{i}-y_{i})^{2}=\sum _{i=1}^{n}(w_{1}+w_{2}x_{i}-y_{i})^{2}.

Rreshti i fundit në pseudokodin e mësipërm për këtë problem specifik do të bëhet:

{\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}:={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}{\frac {\partial }{\partial w_{1}}}(w_{1}+w_{2}x_{i}-y_{i})^{2}\\{\frac {\partial }{\partial w_{2}}}(w_{1}+w_{2}x_{i}-y_{i})^{2}\end{bmatrix}}={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}2(w_{1}+w_{2}x_{i}-y_{i})\\2x_{i}(w_{1}+w_{2}x_{i}-y_{i})\end{bmatrix}}.

Vini re se në çdo hap të përsëritjes ose përditësimit, gradienti vlerësohet vetëm në një $x_{i}$ të vetme. Ky është ndryshimi kryesor midis zbritjes stokastike të gradientit dhe zbritjes së gradientit me grumbuj.

^ Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". përmbledhur nga Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (red.). Optimization for Machine Learning. Cambridge: MIT Press. fq. 351–368. ISBN 978-0-262-01646-9. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1] Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". përmbledhur nga Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (red.). Optimization for Machine Learning. Cambridge: MIT Press. fq. 351–368. ISBN 978-0-262-01646-9. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1]