Jump to content

Korpusi gjuhësor

Nga Wikipedia, enciklopedia e lirë

Korpusi gjuhësor është studimi i një gjuhe si gjuha që është shprehur në korpusin e saj tekstor, trupi i saj i tekstit të "botës reale". Korpusi gjuhësor propozon që një analizë e besueshme e një gjuhe është më e realizueshme me një korpus të mbledhur në terren - konteksti natyror ("realia") i asaj gjuhe - me ndërhyrje eksperimentale minimale.

Metoda tekst-korpus përdor trupin e teksteve të shkruara në çdo gjuhë natyrore për të nxjerrë grupin e rregullave abstrakte që qeverisin atë gjuhë. Ato rezultate mund të përdoren për të eksploruar marrëdhëniet midis asaj gjuhe lëndore dhe gjuhëve të tjera të cilat i janë nënshtruar një analize të ngjashme. Korpuset e para të tilla rrjedhin manualisht nga tekstet burimore, por tani ajo punë është automatizuar.

Korpuset nuk janë përdorur vetëm për kërkime gjuhësore, ato janë përdorur edhe për të përpiluar fjalorë (duke filluar me Fjalorin e Trashëgimisë Amerikane të Gjuhës Angleze në 1969) dhe udhëzues gramatikorë, të tillë si Një Gramatikë Gjithëpërfshirëse e Gjuhës Angleze, botuar në 1985.

Ekspertët në këtë fushë kanë pikëpamje të ndryshme rreth shënimit të një korpusi. Këto pikëpamje shkojnë nga John McHardy Sinclair, i cili mbron shënimet minimale në mënyrë që tekstet të flasin vetë,[1] te ekipi i Anketës së Përdorimit të Anglishtes (University College, London), të cilët mbrojnë shënimin pasi lejon të kuptuarit më të madh gjuhësor përmes regjistrimit rigoroz.[2]

Disa nga përpjekjet më të hershme në përshkrimin gramatikor u bazuan të paktën pjesërisht në korpuse me rëndësi të veçantë fetare ose kulturore. Për shembull, letërsia Prātiśākhya përshkroi modelet e tingullit të Sanskritishtes si gjenden në Vedat, dhe gramatika e Pāṇini -t e Sanskritishtes klasike u bazua të paktën pjesërisht në analizën e të njëjtit korpus. Në mënyrë të ngjashme, gramatikanët e hershëm arabë i kushtuan vëmendje të veçantë gjuhës së Kuranit. Në traditën e Evropës Perëndimore, studiuesit përgatitën pajtueshmëri për të lejuar studimin e hollësishëm të gjuhës së Biblës dhe teksteve të tjera kanonike.

Korpuset shumëgjuhëshe

[Redakto | Redakto nëpërmjet kodit]

Në vitet 1990, shumë nga sukseset e hershme të dukshme në metodat statistikore në programimin në gjuhën natyrore (NLP) ndodhën në fushën e përkthimit makinerik, për shkak të punës veçanërisht në IBM Research. Këto sisteme ishin në gjendje të përfitonin nga korpuset tekstuale shumëgjuhëshe që ishin prodhuar nga Parlamenti i Kanadasë dhe Bashkimi Evropian si rezultat i ligjeve që bënin thirrje për përkthimin e të gjitha procedurave qeveritare në të gjitha gjuhët zyrtare të sistemeve përkatëse të qeverisjes.

Ka korpuse edhe në gjuhët jo-evropiane. Për shembull, Instituti Kombëtar për Gjuhën dhe Gjuhësinë Japoneze në Japoni ka ndërtuar një numër të korpuseve të gjuhës japoneze të folur dhe të shkruar.

Korpusi gjuhësor ka krijuar një numër metodash kërkimore, të cilat përpiqen të gjurmojnë një rrugë nga të dhënat në teori. Wallis dhe Nelson (2001)[3] fillimisht prezantuan atë që ata e quanin perspektiva 3A: Annotation, Abstraction and Analysis.

  • Annotation (Shënimi) konsiston në aplikimin e një skeme në tekste. Shënimet mund të përfshijnë shënjimin strukturor, etiketimin e pjesës së ligjëratës, analizimin dhe përfaqësime të tjera të shumta.
  • Abstraction (Abstraksioni) konsiston në përkthimin (hartëzimin) e termave në skemë në terma në një model ose grup të dhënash të motivuar teorikisht. Abstraksioni zakonisht përfshin kërkimin e drejtuar nga gjuhëtarët, por mund të përfshijë p.sh., mësimin e rregullave për analizuesit.
  • Analysis (Analiza) konsiston në hetimin, manipulimin dhe përgjithësimin statistikor nga grupi i të dhënave. Analiza mund të përfshijë vlerësime statistikore, optimizim të bazave të rregullave ose metoda të zbulimit të njohurive.
  1. ^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
  2. ^ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
  3. ^ Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
  • Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use, Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
  • McCarthy, D., dhe Sampson G. Corpus Linguistics: Readings in a Widening Disipline, Continuum, 2005. ISBN 0-8264-8803-X
  • Facchinetti, R. Përshkrimi teorik dhe aplikimet praktike të Korporatave Linguistike . Verona: QuiEdit, 2007 
  • Facchinetti, R. (red. ) Linguistika e Korpusit 25 vjet më vonë . Nju Jork/Amsterdam: Rodopi, 2007 
  • Facchinetti, R. dhe Rissanen M. (eds. ) Studime të bazuara në Korpus të Anglishtes Diakronike . Bern: Peter Lang, 2006 
  • Lenders, W. Leksikografia kompjuterike dhe gjuhësia e korpusit deri në afërsisht 1970/1980, në: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (eds. ) Fjalorë - Një Enciklopedi Ndërkombëtare e Leksikografisë. Vëllimi Plotësues: Zhvillimet e fundit me Fokus në Leksikografinë Elektronike dhe Llogaritëse . Berlin: De Gruyter Mouton, 2013 
  • Fuß, Eric et al. (Eds ): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi:10.17885/heiup.361.509 ( akses i hapur dixhital ).
  • Stefanowitsch A. 2020. Linguistika e Korpusit: Një udhëzues për metodologjinë . Berlin: Press Science Science. ISBN 978-3-96110-225-9, doi:10.5281/zenodo.3735822 Hyrje e Hapur https://langsci-press.org/catalog/book/148 .

Seritë e librave në këtë fushë përfshijnë:

Ekzistojnë disa revista ndërkombëtare të rishikuara nga kolegët, kushtuar gjuhësisë së korpusit, për shembull:

Lidhje të jashtme

[Redakto | Redakto nëpërmjet kodit]