Perceptroni shumështresor
Një perceptron shumështresor (anglisht Multi Layer Percepton ose shkurt MLP ) është një emër që i referohet një rrjeti nervor artificial parabartës, i përbërë nga neurone plotësisht të lidhur me një funksion aktivizimi jolinear, të organizuar në të paktën tre shtresa dhe i aftë për të dalluar të dhënat që nuk janë të ndashme në mënyrë lineare.[1]
Rrjetet moderne parabartëse stërviten duke përdorur metodën e përhapjes së kthyer [2] dhe në gjuhën zhargon quhen rrjetet nervore "vanilje".[3]
MLP-të erdhën si rrjedhojë e një përpjekje për të përmirësuar perceptronet me një shtresë, të cilat mund të dallonin vetëm të dhënat e ndashme në mënyrë lineare. Një perceptron përdorte tradicionalisht një funksion hapi Heaviside si funksion të aktivizimit jolinear. Sidoqoftë, algoritmi i përhapjes së kthyer kërkon që MLP-të moderne të përdorin funksione të aktivizimit të vazhdueshëm si sigmoid ose ReLU. [4]
Perceptronet shumështresorë mbeten një arkitekturë popullore për të mësuarit e thellë, [5][6] gjerësisht i zbatueshëm në fusha të ndryshme. [7]
Historia
[Redakto | Redakto nëpërmjet kodit]- Në vitin 1943, Warren McCulloch dhe Walter Pitts propozuan neuronin artificial binar si një model logjik të rrjeteve nervore biologjike. [8]
- Në vitin 1958, Frank Rosenblatt propozoi modelin e perceptronit me shumë shtresa, i përbërë nga një shtresë hyrëse, një shtresë e fshehur me pesha të rastësishme që nuk mësohen dhe një shtresë dalëse me lidhje të mësuara. [9]
- Përhapja e kthyer u zhvillua në mënyrë të pavarur disa herë në fillim të viteve 1970. Shembulli më i hershëm i botuar ishte teza master e Seppo Linnainmaa (1970). [10] Paul Werbos e zhvilloi atë në mënyrë të pavarur në 1971, por pati vështirësi për ta botuar atë deri në vitin 1982. [11]
- Në vitin 1986, David E. Rumelhart dhe kolegët i sollën popullaritet përhapjes së kthyer. [12]
- Në vitin 2003, interesi për rrjetet e përhapjes së kthyer u rindez për shkak të sukseseve të të mësuarit të thellë që u aplikua në modelimin e gjuhës nga Yoshua Bengio me bashkëautorë. [13]
- Në vitin 2021, u dizejnua dhe u quajt MLP-Mixer, një arkitekturë shumë e thjeshtë rrjetesh nervore që kombinonte dy MLP të thella me lidhje me kapërcim dhe normalizime të shtresave; këto modele të krijuara të cilat përmbanin 19 deri në 431 milion parametra u dëshmuan të krahasueshme me arkitektura vision transformers të madhësisë së ngjashme në ImageNet dhe detyra të ngjashme të klasifikimit të imazheve. [14]
Bazat matematikore
[Redakto | Redakto nëpërmjet kodit]Funksioni i aktivizimit
[Redakto | Redakto nëpërmjet kodit]Nëse një perceptron me shumë shtresa ka një funksion aktivizimi linear në të gjithë neuronet, domethënë një funksion linear që lidh hyrjet e peshuara me daljen e secilit neuron, atëherë algjebra lineare tregon se çfarëdo numër shtresash mund të reduktohet në një model hyrës-dalës dyshtresor. Në MLP, disa neurone përdorin një funksion aktivizimi jolinear që u zhvillua për të përngjasuar frekuencën e potencialeve të veprimit, ose ndezjes së neuroneve biologjike.[6]
Dy funksionet e aktivizimit historikisht të zakonshëm janë të dy sigmoide dhe përshkruhen nga
- .
E para është një tangjente hiperbolike që varion nga -1 në 1, ndërsa tjetra është funksioni logjistik, i cili është i ngjashëm në formë, por varion nga 0 në 1. Këtu është prodhimi nyjes (neuronit) dhe është shuma e peshuar e lidhjeve hyrëse. Janë propozuar funksione alternative të aktivizimit, duke përfshirë funksionet ndreqës dhe softplus . Funksione të tjerë të posaçëm të aktivizimit mund të përfshijmë funksionet e bazës radiale (të përdorura në rrjetet me bazë radiale, një klasë tjetër e modeleve të rrjeteve nervore të mbikëqyrura).
Në zhvillimet e fundit të mësimit të thelluar, njësia lineare e korrigjuar (ReLU) përdoret më shpesh si një nga mënyrat e mundshme për të kapërcyer problemet numerike që lidhen me sigmoidet.
Shtresat
[Redakto | Redakto nëpërmjet kodit]MLP përbëhet nga tre ose më shumë shtresa (një shtresë hyrëse dhe një dalëse me një ose më shumë shtresa të fshehura) nyjesh që aktivizohen në mënyrë jolineare. Meqenëse MLP-të janë të lidhura plotësisht, çdo nyje në një shtresë lidhet me një peshë të caktuar për çdo nyje në shtresën vijuese.
Të mësuarit
[Redakto | Redakto nëpërmjet kodit]Mësimi ndodh në perceptron duke ndryshuar peshat e lidhjes pasi të përçohet nëpër rrjet çdo pjesë e të dhënave, kjo bazuar në sasinë e gabimit në dalje në krahasim me rezultatin e pritur. Ky është një shembull i të mësuarit të mbikëqyrur dhe kryhet përmes përhapjes së kthyer, një përgjithësim i algoritmit të katrorëve mesatarë më të vegjël në perceptronin linear.
Ne mund të paraqesim shkallën e gabimit në një nyje dalëse në pika e të dhënave (shembull trajnimi) nga , ku është vlera e synuar për pika e të dhënave në nyje , dhe është vlera e prodhuar nga perceptroni në nyjë kur të pika e të dhënave jepet si hyrje.
Peshat e nyjeve më pas mund të rregullohen bazuar në korrigjimet që minimizojnë gabimin në të gjithë daljen për pika e të dhënave, e dhënë nga
- .
Duke përdorur gradientin zbritës, ndryshimi në çdo peshë është
ku është prodhimi i neuronit të mëparshëm , dhe është shkalla e të mësuarit, e cila zgjidhet për të siguruar që peshat të konvergjojnë shpejt në një përgjigje, pa lëkundje. Në shprehjen e mëparshme, tregon derivatin e pjesshëm të gabimit sipas shumës së peshuar të lidhjeve hyrëse të neuronit .
Referime
[Redakto | Redakto nëpërmjet kodit]- ^ Cybenko, G. (1989). "Approximation by superpositions of a sigmoidal function". Mathematics of Control, Signals, and Systems (në anglisht). 2 (4): 303–314. doi:10.1007/bf02551274. ISSN 0932-4194.
- ^ Linnainmaa, Seppo. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Tezë) (në finlandisht). University of Helsinki.
- ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008-12-24), "Model Inference and Averaging", Springer Series in Statistics (në anglisht), New York, NY: Springer New York, fq. 1–34, ISBN 978-0-387-84857-0, marrë më 2024-11-04
- ^ "Why is the ReLU function not differentiable at x=0?" (në anglisht).
- ^ Almeida, Luis B (2020) [1996]. "Multilayer perceptrons". përmbledhur nga Fiesler, Emile; Beale, Russell (red.). Handbook of Neural Computation (në anglisht). CRC Press. fq. C1-2. doi:10.1201/9780429142772. ISBN 978-0-429-14277-2.
- ^ a b "Inteligjenca Artificiale - Mësimi i thelluar". Foti Kerkeshi. 2024-08-05. Marrë më 2024-11-04.
- ^ Gardner, Matt W; Dorling, Stephen R (1998). "Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences". Atmospheric Environment (në anglisht). Elsevier. 32 (14–15): 2627–2636. Bibcode:1998AtmEn..32.2627G. doi:10.1016/S1352-2310(97)00447-0.
- ^ McCulloch, Warren S.; Pitts, Walter (1943-12-01). "A logical calculus of the ideas immanent in nervous activity". The Bulletin of Mathematical Biophysics (në anglisht). 5 (4): 115–133. doi:10.1007/BF02478259. ISSN 1522-9602.
- ^ Rosenblatt, Frank (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review (në anglisht). 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
- ^ Linnainmaa, Seppo. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Tezë) (në finlandisht). University of Helsinki.
- ^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization (në anglisht). Springer. fq. 762–770. Arkivuar (PDF) nga origjinali më 14 prill 2016. Marrë më 2 korrik 2017.
- ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (tetor 1986). "Learning representations by back-propagating errors". Nature (në anglisht). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. ISSN 1476-4687.
- ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (mars 2003). "A neural probabilistic language model". The Journal of Machine Learning Research (në anglisht). 3: 1137–1155.
- ^ "Papers with Code – MLP-Mixer: An all-MLP Architecture for Vision" (në anglisht).