Jump to content

Modeli i gjuhës

Nga Wikipedia, enciklopedia e lirë

Një model gjuhësor (ang. Language Model) është një model probabilistik i një gjuhe natyrore.[1]Në vitin 1980, u propozua modeli i parë i rëndësishëm statistikor i gjuhës dhe gjatë dekadës IBM kreu eksperimente të stilit Shannon, në të cilat burimet e mundshme për përmirësimin e modelimit të gjuhës u identifikuan duke vëzhguar dhe analizuar performancën e subjekteve njerëzore në parashikimin ose korrigjimin e tekstit.[2]

Modelet gjuhësore janë të dobishme për një sërë detyrash, duke përfshirë njohjen e të folurit (duke ndihmuar në parandalimin e parashikimeve të sekuencave me probabilitet të ulët (p.sh. të pakuptimta), përkthimin makinerik, gjenerimin e gjuhës natyrore (duke gjeneruar më shumë tekst të ngjashëm me njeriun), optik njohja e karaktereve, optimizimi i rrugës,[3] njohja e shkrimit të dorës, induksioni gramatikor dhe rikthimi i informacionit .

Modelet e mëdha të gjuhëve, aktualisht forma e tyre më e avancuar, janë një kombinim i grupeve më të mëdha të të dhënave (shpesh duke përdorur fjalë të fshira nga interneti publik), rrjete nervore të përshpejtuara dhe transformatorë. Ata kanë zëvendësuar modelet e bazuara në rrjete nervore të përsëritura, të cilat më parë kishin zëvendësuar modelet e pastra statistikore, siç është modeli i gjuhës së fjalës n- gram.

Modele të pastra statistikore

[Redakto | Redakto nëpërmjet kodit]

Modele të bazuara në fjalën n-gram

[Redakto | Redakto nëpërmjet kodit]

Modeli i gjuhës së fjalës n-gram është një model statistikor i gjuhës. Ai është zëvendësuar nga modelet e përsëritura të bazuara në rrjetet nervore, të cilat janë zëvendësuar nga modelet e mëdha të gjuhëve. Ai bazohet në një supozim se probabiliteti i fjalës tjetër në një sekuencë varet vetëm nga një dritare me madhësi fikse të fjalëve të mëparshme. Nëse merret parasysh vetëm një fjalë e mëparshme, ajo quhet model bigram; nëse dy fjalë, një model trigram; nëse n − 1 fjalë, një model n-gram. Prezantohen shenja të veçanta për të treguar fillimin dhe fundin e një fjalie ⟨s⟩ dhe ⟨/s⟩.

Për të parandaluar caktimin e një probabiliteti zero për fjalët e padukshme, probabiliteti i secilës fjalë është pak më i ulët se numri i frekuencës së saj në një korpus. Për ta llogaritur atë, u përdorën metoda të ndryshme, nga metoda e thjeshtë "shto një" deri te modelet më të sofistikuara, të tilla si modelet e zbritjes Good–Turing discounting ose modelet e back-off.

Modelet e gjuhës së entropisë maksimale kodojnë marrëdhënien midis një fjale dhe historisë n -gram duke përdorur funksionet e veçorive. Ekuacioni është:

ku është funksioni i ndarjes, është vektori i parametrit, dhe është funksioni i veçorisë. Në rastin më të thjeshtë, funksioni i veçorisë është vetëm një tregues i pranisë së një n -grami të caktuar. Është e dobishme të përdorni paraprakisht ose ndonjë formë rregullimi.

Modeli log-bilinear është një shembull tjetër i një modeli gjuhësor eksponencial që është më i mirë se çdo model tjetër.

Modeli i gjuhës Skip-gram është një përpjekje për të kapërcyer problemin e pakësimit të të dhënave me të cilin u përball modeli i mëparshëm (d.m.th. modeli i gjuhës së fjalës n-gram). Fjalët e përfaqësuara në një vektor ngulitjeje nuk ishin domosdoshmërisht më të njëpasnjëshme, por mund të lënë boshllëqe që kapërcehen.

Formalisht, një k-skip-n-gram është një nënsekuencë me gjatësi-n ku komponentët ndodhen në distancë më së shumti k nga njëri-tjetri.

Për shembull, në tekstin hyrës:

shiu në Spanjë bie kryesisht në fushë

grupi i 1-skip-2-gram përfshin të gjitha bigramet (2-gram), dhe përveç kësaj edhe pasardhësit

në, shi Spanjë, në bie, Spanja kryesisht, bie në, kryesisht, dhe në fushë.

Në modelin skip-gram, marrëdhëniet semantike ndërmjet fjalëve përfaqësohen nga kombinime lineare, duke kapur një formë kompozicioni. Për shembull, në disa modele të tilla, nëse v është funksioni që harton një fjalë w në paraqitjen e saj vektoriale n-d, atëherë

𝓋(king) – 𝓋(male) + 𝓋(female) ≈ 𝓋(queen)

ku ≈ bëhet i saktë duke përcaktuar se ana e djathtë e saj duhet të jetë fqinji më i afërt i vlerës së anës së majtë.

Rrjeti nervor i përsëritur

[Redakto | Redakto nëpërmjet kodit]

Paraqitjet e vazhdueshme ose futjet e fjalëve prodhohen në modele gjuhësore të bazuara në rrjet nervor periodik (të njohur edhe si modele gjuhësore të hapësirës së vazhdueshme ).[4] Të tilla ngulitje të vazhdueshme hapësinore ndihmojnë në zbutjen e mallkimit të dimensionalitetit, që është pasojë e rritjes së numrit të sekuencave të mundshme të fjalëve në mënyrë eksponenciale me madhësinë e fjalorit, duke shkaktuar më tej një problem të pakësimit të të dhënave. Rrjetet nervore e shmangin këtë problem duke paraqitur fjalët si kombinime jolineare të peshave në një rrjet nervor.

Modele të mëdha gjuhësore

[Redakto | Redakto nëpërmjet kodit]

Një model i madh gjuhësor ( LLM ) është një lloj modeli llogaritës i projektuar për detyra të përpunimit të gjuhës natyrore si gjenerimi i gjuhës. Si modele gjuhësore, LLM-të i fitojnë këto aftësi duke mësuar marrëdhëniet statistikore nga sasi të mëdha teksti gjatë një procesi trajnimi të vetë-mbikëqyrur dhe gjysmë të mbikëqyrur.

LLM-të më të fuqishme dhe më të avancuara, që nga gushti 2024, janë rrjete nervore artificiale me një arkitekturë të bazuar kryesisht në dekoderë, duke ofruar përpunim efikas dhe gjenerim të gjuhës në shkallë të gjerë. Këto modele mund të përshtaten për detyra specifike ose të përdorin inxhinierinë e shpejtë. Ato ofrojnë parashikime në lidhje me sintaksën dhe semantikën, por gjithashtu trashëgojnë pasaktësitë dhe paragjykimet nga të dhënat mbi të cilat janë trajnuar.

Edhe pse ndonjëherë përputhen me performancën njerëzore, nuk është e qartë nëse ato janë modele të besueshme njohëse. Të paktën për rrjetet nervore të përsëritura, është treguar se ato ndonjëherë mësojnë modele që njerëzit nuk i bëjnë, por nuk arrijnë të mësojnë modele që njerëzit zakonisht i bëjnë.[5]

Vlerësimi dhe standardet

[Redakto | Redakto nëpërmjet kodit]

Vlerësimi i cilësisë së modeleve gjuhësore bëhet kryesisht duke krahasuar me standardet e mostrave të krijuara nga njeriu të krijuar nga detyra tipike të orientuara nga gjuha. Teste të tjera cilësore, më pak të vendosura, shqyrtojnë karakterin e brendshëm të një modeli gjuhësor ose krahasojnë dy modele të tilla. Meqenëse modelet e gjuhës zakonisht synohen të jenë dinamike dhe të mësojnë nga të dhënat që shohin, disa modele të propozuara hetojnë shkallën e të mësuarit, p.sh., nëpërmjet inspektimit të kurbave të të mësuarit.[6]

Janë zhvilluar grupe të ndryshme të dhënash për t'u përdorur në vlerësimin e sistemeve të përpunimit të gjuhës.[7] Këto përfshijnë:

  • Korpusi i pranueshmërisë gjuhësore[8]
  • Standardi GLUE[9]
  • Korpusi i parafrazës së kërkimit të Microsoft[10]
  • Konkluzioni i Gjuhës Natyrore për shumë gjini
  • Pyetje Konkluzioni i Gjuhës Natyrore
  • Çiftet e pyetjeve Quora[11]
  • Njohja e ndikimit tekstual[12]
  • Standardi i ngjashmërisë tekstuale semantike
  • Testi i përgjigjes së pyetjes SQuAD[13]
  • Stanford Sentiment Treebank[14]
  • Winograd NLI
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGenders, Crows-Pair.S.[15] ( LlaMa Standardi )
  1. ^ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (në anglisht) (bot. 3rd). Arkivuar nga origjinali më 22 maj 2022. Marrë më 24 maj 2022.
  2. ^ Rosenfeld, Ronald (2000). "Two decades of statistical language modeling: Where do we go from here?". Proceedings of the IEEE (në anglisht). 88 (8): 1270–1278. doi:10.1109/5.880083.
  3. ^ Liu, Yang; Wu, Fanyou; Liu, Zhiyuan; Wang, Kai; Wang, Feiyue; Qu, Xiaobo (2023). "Can language models be used for real-world urban-delivery route optimization?". The Innovation (në anglisht). 4 (6): 100520. doi:10.1016/j.xinn.2023.100520. PMC 10587631.
  4. ^ Karpathy, Andrej. "The Unreasonable Effectiveness of Recurrent Neural Networks" (në anglisht). Arkivuar nga origjinali më 1 nëntor 2020. Marrë më 27 janar 2019.
  5. ^ Hornstein, Norbert; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (2018-01-09). Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics (në anglisht). Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5. Arkivuar nga origjinali më 16 prill 2023. Marrë më 11 dhjetor 2021.
  6. ^ Karlgren, Jussi; Schutze, Hinrich (2015), "Evaluating Learning Language Representations", International Conference of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science (në anglisht), Springer International Publishing, fq. 254–260, doi:10.1007/978-3-319-64206-2_8, ISBN 978-3-319-64205-5
  7. ^ Devlin. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" (në anglisht). arXiv:1810.04805.
  8. ^ "The Corpus of Linguistic Acceptability (CoLA)". nyu-mll.github.io (në anglisht). Arkivuar nga origjinali më 7 dhjetor 2020. Marrë më 2019-02-25.
  9. ^ "GLUE Benchmark". gluebenchmark.com (në anglisht). Arkivuar nga origjinali më 4 nëntor 2020. Marrë më 2019-02-25.
  10. ^ "Microsoft Research Paraphrase Corpus". Microsoft Download Center (në anglishte amerikane). Arkivuar nga origjinali më 25 tetor 2020. Marrë më 2019-02-25.
  11. ^ Aghaebrahimian, Ahmad (2017), "Quora Question Answer Dataset", Text, Speech, and Dialogue, Lecture Notes in Computer Science (në anglisht), vëll. 10415, Springer International Publishing, fq. 66–73, doi:10.1007/978-3-319-64206-2_8, ISBN 978-3-319-64205-5
  12. ^ Sammons, V.G.Vinod Vydiswaran, Dan Roth, Mark; Vydiswaran, V.G.; Roth, Dan. "Recognizing Textual Entailment" (PDF) (në anglisht). Arkivuar nga origjinali (PDF) më 9 gusht 2017. Marrë më 24 shkurt 2019.{{cite web}}: Mirëmbajtja CS1: Emra të shumëfishtë: lista e autorëve (lidhja)
  13. ^ "The Stanford Question Answering Dataset". rajpurkar.github.io (në anglisht). Arkivuar nga origjinali më 30 tetor 2020. Marrë më 2019-02-25.
  14. ^ "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank". nlp.stanford.edu (në anglisht). Arkivuar nga origjinali më 27 tetor 2020. Marrë më 2019-02-25.
  15. ^ Hendrycks, Dan (2023-03-14), Measuring Massive Multitask Language Understanding (në anglisht), arkivuar nga origjinali më 15 mars 2023, marrë më 2023-03-15