Etiketimi i pjesëve të ligjëratës

Në gjuhësinë e korpusit, etiketimi i pjesëve të ligjëratës, i quajtur edhe etiketimi gramatikor është procesi i shënimit të një fjale në një tekst (korpus) që korrespondon me një pjesë të veçantë të fjalës, bazuar në përkufizimin dhe kontekstin e tij. Një formë e thjeshtuar e kësaj mësohet zakonisht për fëmijët e moshës shkollore, në identifikimin e fjalëve si emra, folje, mbiemra, ndajfolje, etj.

I kryer më herët me dorë, etiketimi PTL tani bëhet në kontekstin e gjuhësisë kompjuterike, duke përdorur algoritme që shoqërojnë terma diskrete, si dhe pjesë të fshehura të fjalës, nga një grup etiketash përshkruese. Algoritmet e etiketimit PTL ndahen në dy grupe dalluese: të bazuara në rregulla dhe stokastike. Etiketuesi i E. Brill, një nga etiketuesit e parë dhe më të përdorur në gjuhën angleze PTL, përdor algoritme të bazuara në rregulla.

Parimi

Etiketimi i pjesëve të ligjëratës është më i vështirë sesa thjesht të kesh një listë fjalësh dhe pjesët e tyre të ligjëratës, sepse disa fjalë mund të përfaqësojnë më shumë se një pjesë të ligjëratës në periudha të ndryshme, dhe sepse disa pjesë të ligjëratës janë komplekse ose të pashprehura. Kjo nuk është e rrallë-në gjuhët natyrore (në krahasim me shumë gjuhë artificiale), një përqindje e madhe e formave të fjalëve janë të paqarta. Për shembull, edhe "kyç", i cili zakonisht mendohet vetëm si një emër, mund të jetë gjithashtu një folje:

Roja kyç derën.

Etiketimi i saktë gramatikor do të reflektojë se "kyç" këtu përdoret si folje, jo si emër i zakonshëm. Konteksti gramatikor është një mënyrë për ta përcaktuar këtë; analiza semantike mund të përdoret gjithashtu për të konkluduar se "Roja" dhe "derën" përfshijnë "kyç" si 1) në kontekstin ruajtës dhe 2) një veprim i zbatuar për objektin "derë" (në këtë kontekst, "kyç" është një term që do të thotë "mbyllet në mënyrë të sigurt").

Grupe etiketash

Shkollat zakonisht mësojnë se ka 9 pjesë të ligjëratës në shqip: emër, folje, nyjë, mbiemër, parafjalë, përemër, ndajfolje, lidhëz dhe pasthirrmë. Sidoqoftë, ka qartësisht shumë më tepër kategori dhe nënkategori. Për emrat, mund të dallohen format shumës dhe njëjës. Në shumë gjuhë fjalët shënohen edhe për "rasën" e tyre (roli si subjekt, objekt, etj.), Gjinia gramatikore, e kështu me radhë; ndërsa foljet shënohen për kohën, aspektin dhe gjëra të tjera. Në disa sisteme etiketimi, lakime të ndryshme të së njëjtës fjalë rrënjë do të marrin pjesë të ndryshme të ligjëratës, duke rezultuar në një numër të madh etiketash. Për shembull, NN për emrat e zakonshëm njëjës, NNS për emrat e zakonshëm shumës, NP për emrat e përveçëm njëjës. Sistemet e tjera të etiketimit përdorin një numër më të vogël etiketash dhe injorojnë dallimet e imëta ose i modelojnë ato si veçori disi të pavarura nga pjesa e ligjëratës.^[1]

Referime

^ Universal POS tags

Charniak, Eugene. 1997 " Teknikat statistikore për analizimin e gjuhës natyrore Arkivuar 14 shtator 2008 tek Wayback Machine ". Revista AI 18 (4): 33 – 44.
Hans van Halteren, Jakub Zavrel, Walter Daelemans . 2001 Përmirësimi i Saktësisë në NLP përmes Kombinimit të Sistemeve të Mësimit të Makinerisë. Gjuhësia llogaritëse . 27 (2): 199 – 229. PDF
DeRose, Steven J. 1990. "Metodat stokastike për zgjidhjen e paqartësisë së kategorisë gramatikore në gjuhët e lakuara dhe të pasqyruara". Doktoraturë Disertacion. Providence, RI: Departamenti i Shkencave Kognitive dhe Gjuhësore i Universitetit Brown. Botimi elektronik i disponueshëm në [1] Arkivuar 19 gusht 2018 tek Wayback Machine
DQ Nguyen, DQ Nguyen, DD Pham dhe SB Pham (2016). "Një qasje e fortë e të mësuarit e bazuar në transformim duke përdorur rregullat e Ripple Down për etiketimin e pjesës së të folurit." Komunikimet AI, vëll. 29, nr. 3, faqe 409-422. [.pdf ]

[universal-1] Universal POS tags

[1]