SpaCy

spaCy është një librari softuerësh me burim të hapur për përpunim të avancuar të gjuhës natyrore, e shkruar në gjuhët e programimit Python dhe Cython . ^[1] ^[2] Libraria është botuar nën licencën MIT dhe zhvilluesit kryesorë të saj janë Matthew Honnibal dhe Ines Montani, themeluesit e kompanisë së softuerit Explosion.

Ndryshe nga NLTK, e cila përdoret gjerësisht për mësimdhënie dhe kërkime akademike, spaCy fokusohet në ofrimin e softuerit për përdorim në prodhim. ^[3] ^[4] spaCy gjithashtu mbështet rrjedhat e punës të mësimit të thellë që lejojnë lidhjen e modeleve statistikore të trajnuara nga libraritë e njohura të mësimit të makinerive si TensorFlow, PyTorch ose MXNet përmes librarisë së saj të mësimit të makinës, Thinc. ^[5] ^[6] Duke përdorur Thinc për backend-in e tij, spaCy përmban modele të rrjetit nervor të thurur për etiketimin e pjesës së të folurit, shkoqitjen e varësisë, kategorizimin e tekstit dhe njohjen e entitetit të emërtuar (NER) . Modelet e parandërtuara të rrjetave nervore statistikore për të kryer këto detyra janë të gatshme në 23 gjuhë mes të tjerave anglisht, portugalisht, spanjisht, rusisht dhe kinezisht, dhe ekziston gjithashtu një model NER shumë-gjuhësh. Mbështetja shtesë për tokenizimin për më shumë se 65 gjuhë i lejon përdoruesit të trajnojnë modelet e personalizuara edhe në grupet e tyre të të dhënave. ^[7]

Karakteristikat kryesore

Tokenizimi jo shkatërrues
Mbështetje për "Alpha tokenization" në mbi 65 gjuhë ^[8]
Mbështetje e integruar për përbërësit e pipave të trajnueshme si njohja e entitetit me emër, etiketimi i pjesës së të folurit, analizimi i varësisë, klasifikimi i tekstit, Lidhja e entitetit dhe më shumë
Modele statistikore për 19 gjuhë ^[9]
Mësimi me shumë detyra me transformatorë të paratrajnuar si BERT
Mbështetje për modelet me porosi në PyTorch, TensorFlow dhe korniza të tjera
Shpejtësia dhe saktësia e kohës së fundit ^[10]
Sistemi i trajnimit gati për prodhimin
Vizualizues të integruar për sintaksën dhe entitetet e emërtuara
Paketim i lehtë i modelit, vendosje dhe menaxhim i rrjedhës së punës

Zgjatime dhe vizualizues

Dependency parse tree visualization generated with the displaCy visualizer — Vizualizimi i pemës së analizës së varësisë i krijuar me vizualizuesin displaCy

spaCy vjen me disa shtesa dhe vizualizime që janë të gatshme si librari falas, me burim të hapur :

Thinc: Një librari mësimi makinerik e optimizuar për përdorimin e CPU-së dhe mësimin e thellë me input teksti .
sense2vec: Një librari për të llogaritur ngjashmëritë mes fjalëve bazuar në teknikën Word2vec.^[11]
displaCy: Një vizualizues i pemëve të varësisë open-source i ndërtuar me JavaScript, CSS dhe SVG.
displaCyENT: Një vizualizues open-source i njohjes së entitetit të emërtuar i ndërtuar me JavaScript dhe CSS.

^ Choi et al. (2015).
^ "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Marrë më 2016-12-18. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "Facts & Figures - spaCy". spacy.io (në anglisht). Marrë më 2020-04-04.
^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "PyTorch, TensorFlow & MXNet". thinc.ai. Marrë më 2020-04-04. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "explosion/thinc". GitHub. Marrë më 2016-12-30. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "Models & Languages | spaCy Usage Documentation". spacy.io. Marrë më 2020-03-10. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "Models & Languages - spaCy". spacy.io (në anglisht). Marrë më 2021-02-08.
^ "Models & Languages | spaCy Usage Documentation". spacy.io (në anglisht). Marrë më 2021-02-08.
^ "Benchmarks | spaCy Usage Documentation". spacy.io (në anglisht). Marrë më 2021-02-08.
^ Trask et al. (2015). sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings.

[1] Choi et al. (2015).

[2] "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Marrë më 2016-12-18. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[3] "Facts & Figures - spaCy". spacy.io (në anglisht). Marrë më 2020-04-04.

[Bird-Klein-Loper-Baldridge-4] Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[5] "PyTorch, TensorFlow & MXNet". thinc.ai. Marrë më 2020-04-04. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[6] "explosion/thinc". GitHub. Marrë më 2016-12-30. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[7] "Models & Languages | spaCy Usage Documentation". spacy.io. Marrë më 2020-03-10. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[8] "Models & Languages - spaCy". spacy.io (në anglisht). Marrë më 2021-02-08.

[9] "Models & Languages | spaCy Usage Documentation". spacy.io (në anglisht). Marrë më 2021-02-08.

[10] "Benchmarks | spaCy Usage Documentation". spacy.io (në anglisht). Marrë më 2021-02-08.

[11] Trask et al. (2015). sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]