Vizioni kompjuterik
Detyrat e vizionit kompjuterik përfshijnë metoda për marrjen, përpunimin, analizimin dhe kuptimin e imazheve digjitale, si dhe nxjerrjen e të dhënave me dimension të lartë nga bota reale, me qëllim prodhimin e informacionit numerik ose simbolik, p.sh. në formë vendimesh[1][2][3][4]“Kuptimi” në këtë kontekst nënkupton transformimin e imazheve pamore (hyrja në retinë) në përshkrime të botës që kanë kuptim për proceset e të menduarit dhe që mund të nxisin veprim të përshtatshëm. Ky kuptim i imazhit mund të shihet si ndarja e informacionit simbolik nga të dhënat e imazhit duke përdorur modele të ndërtuara me ndihmën e gjeometrisë, fizikës, statistikës dhe teorisë së të mësuarit.
Disiplina shkencore e vizionit kompjuterik merret me teorinë pas sistemeve artificiale që nxjerrin informacion nga imazhet. Të dhënat e imazhit mund të marrin shumë forma, si sekuenca video, pamje nga shumë kamera, të dhëna shumëdimensionale nga një skaner 3D, re pikash 3D nga sensorë LiDAR, ose pajisje të skanimit mjekësor. Disiplina teknologjike e vizionit kompjuterik synon të zbatojë teoritë dhe modelet e saj në ndërtimin e sistemeve të vizionit kompjuterik.
Nendisiplinat e vizionit kompjuterik përfshijnë rindërtimin e skenës, zbulimin e objekteve, zbulimit të ngjarjeve, njohjen e aktiviteteve, ndjekjen e videove, njohjen të objekteve, vlerësimin e pozës 3D, mësimin, indeksimin, vlerësimin të lëvizjes, servoimin vizual, modelimin e skenës 3D dhe restaurimi i imazhit.
Përkufizim
[Redakto | Redakto nëpërmjet kodit]Vizion kompjuterik është një fushë ndërdisiplinore që merret me mënyrën se si kompjuterët mund të bëhen për të fituar kuptim të nivelit të lartë nga imazhet ose videot dixhitale. Nga perspektiva e inxhinierisë, ajo synon të automatizojë detyrat që sistemi vizual njerëzor mund të kryejë.[5][6][7] "Vizioni kompjuterik merret me nxjerrjen automatike, analizën dhe kuptimin e informacionit të dobishëm nga një imazh i vetëm apo një sekuencë imazhesh. Ajo përfshin zhvillimin e një baze teorike dhe algoritmike për të arritur kuptimin automatik vizual.[8] Si një disiplinë shkencore, vizioni kompjuterik merret me teorinë pas sistemeve artificiale që nxjerrin informacion nga imazhet. Si një disiplinë shkencore, vizioni kompjuterik merret me teorinë pas sistemeve artificiale që nxjerrin informacion nga imazhet. Të dhënat e imazhit mund të marrin forma të ndryshme, si sekuenca video, pamje nga kamera të shumta, ose të dhëna shumë-dimensionale nga një skaner mjekësor.[9] Si një disiplinë teknologjike, vizioni kompjuterik synon të aplikojë teoritë dhe modelet e tij për ndërtimin e sistemeve të vizionit kompjuterik. Vizioni i makinës i referohet një disipline inxhinierike të sistemeve, veçanërisht në kontekstin e automatizimit të fabrikave. Kohët e fundit, termat vizioni kompjuterik dhe vizioni i makinës janë bashkuar në një shkallë më të madhe.[10]: 13 Vizion kompjuterik është një fushë ndërdisiplinore që merret me mënyrën se si kompjuterët mund të bëhen për të fituar kuptim të nivelit të lartë nga imazhet ose videot dixhitale. Nga perspektiva e inxhinierisë, ajo synon të automatizojë detyrat që sistemi vizual njerëzor mund të kryejë.[5][6][7] "Vizioni kompjuterik merret me nxjerrjen automatike, analizën dhe kuptimin e informacionit të dobishëm nga një imazh i vetëm apo një sekuencë imazhesh. Ajo përfshin zhvillimin e një baze teorike dhe algoritmike për të arritur kuptimin automatik vizual.[8] Si një disiplinë shkencore, vizioni kompjuterik merret me teorinë pas sistemeve artificiale që nxjerrin informacion nga imazhet. Si një disiplinë shkencore, vizioni kompjuterik merret me teorinë pas sistemeve artificiale që nxjerrin informacion nga imazhet. Të dhënat e imazhit mund të marrin forma të ndryshme, si sekuenca video, pamje nga kamera të shumta, ose të dhëna shumë-dimensionale nga një skaner mjekësor.[11] Si një disiplinë teknologjike, vizioni kompjuterik synon të aplikojë teoritë dhe modelet e tij për ndërtimin e sistemeve të vizionit kompjuterik. Vizioni i makinës i referohet një disipline inxhinierike të sistemeve, veçanërisht në kontekstin e automatizimit të fabrikave. Kohët e fundit, termat vizioni kompjuterik dhe vizioni i makinës janë bashkuar në një shkallë më të madhe.[10]: 13
Histori
[Redakto | Redakto nëpërmjet kodit]Në fund të viteve 1960, vizioni kompjuterik nisi të zhvillohej në universitete që ishin pioniere të inteligjencës artificiale. Qëllimi i tij ishte të imitonte sistemin vizual të njeriut, si një hap drejt pajisjes së robotëve me sjellje inteligjente.[12] In 1966, it was believed that this could be achieved through an undergraduate summer project,[13] by attaching a camera to a computer and having it "describe what it saw".[14][15] Ajo që e veçonte vizionin kompjuterik nga fusha dominante e përpunimit digjital të imazheve në atë periudhë ishte synimi për të rikuperuar strukturën tredimensionale nga pamjet, me qëllim arritjen e një interpretimi të plotë të skenës. Kërkimet e viteve 1970 hodhën bazat fillestare për shumë prej algoritmeve të vizionit kompjuterik që përdoren sot, duke përfshirë identifikimin e skajeve në imazhe, kategorizimin e vijave, modelimin poliedrik dhe jo-poliedrik, përfaqësimin e objekteve si kombinime të strukturave më të vogla, analizën e rrjedhës optike dhe vlerësimin e lëvizjes.[12] Dekada pasuese solli studime të mbështetura në analiza matematikore më të rrepta dhe aspekte numerike të vizionit kompjuterik. Këto përfshinin konceptin e hapësirës në shkallë, rikuperimin e formës nga sinjale të ndryshme si hija, tekstura dhe fokusi, si dhe modelet e kontureve të njohura si gjarpërinj. Studiuesit kuptuan gjithashtu se shumë prej këtyre ideve matematikore mund të trajtoheshin brenda të njëjtit kuadër optimizimi si rregullimi dhe fushat e rastësishme Markov.[16] Deri në vitet ’90, disa nga temat e mëparshme të kërkimit u bënë më aktive se të tjerat. Studimet mbi rindërtimet projektive 3D çuan në një kuptim më të mirë të kalibrimit të kamerës. Me shfaqjen e metodave të optimizimit për kalibrimin e kamerës, u kuptua se shumë ide ishin eksploruar më parë në teorinë e rregullimit të tufave në fotogrametri. Kjo solli metoda për rindërtime të rralla 3D të skenave nga imazhe të shumta.U arrit progres në problemin e korrespondencës stereo të dendur dhe në teknikat stereo me shumë pamje. Në të njëjtën kohë, variacionet e prerjes së grafikut u përdorën për segmentimin e imazhit. Kjo dekadë shënoi gjithashtu herën e parë që teknikat e të mësuarit statistikor u aplikuan në praktikë për njohjen e fytyrave në imazhe (Eigenface). Drejt fundit të viteve ’90, ndodhi një ndryshim i rëndësishëm me rritjen e ndërveprimit mes grafikës kompjuterike dhe vizionit kompjuterik. Ky bashkëpunim përfshinte renderimin e bazuar në imazhe, morfimin e pamjeve, interpolimin e këndvështrimeve, bashkimin panoramik të imazheve dhe format e hershme të renderimit të fushës së dritës.[12] Studimet e fundit kanë sjellë një ringjallje të metodave të bazuara në tipare, të përdorura së bashku me teknikat e të mësuarit automatik dhe kornizat e ndërlikuara të optimizimit.[17][18] Përparimi i teknikave i ka dhënë jetë të mëtejshme fushës së vizionit kompjuterik. Saktësia e algoritmeve të mësimit të thellë në disa grupe të dhënash të vizionit kompjuterik për detyra që variojnë nga klasifikimi,[19] segmentimi dhe rrjedha optike i kanë tejkaluar metodat e mëparshme.[20][21]
Fushat e lidhura
[Redakto | Redakto nëpërmjet kodit]
Fizika e gjendjes së ngurtë
[Redakto | Redakto nëpërmjet kodit]Fizika e gjendjes së ngurtë është një disiplinë tjetër e lidhur ngushtë me vizionin kompjuterik. Shumica e sistemeve të vizionit kompjuterik mbështeten në sensorë imazhi, të cilët detektojnë rrezatimin elektromagnetik, zakonisht në formën e dritës së dukshme, infra të kuqe ose ultravjollcë. Sensorët ndërtohen duke u bazuar në parimet e fizikës kuantike. Procesi i ndërveprimit të dritës me sipërfaqet shpjegohet përmes fizikës. Fizika sqaron sjelljen e optikës, e cila është pjesë thelbësore e shumicës së sistemeve të imazhit. Sensorët e avancuar të imazhit madje kërkojnë mekanikën kuantike për të dhënë një kuptim të plotë të procesit të formimit të imazhit.[12] Po ashtu, probleme të ndryshme matjeje në fizikë mund të zgjidhen duke përdorur vizionin kompjuterik, si për shembull analiza e lëvizjes në lëngje.
Neurobiologji
[Redakto | Redakto nëpërmjet kodit]Neurobiologjia ka ushtruar ndikim të madh në zhvillimin e algoritmeve të vizionit kompjuterik. Gjatë shekullit të kaluar, është kryer një studim i gjerë mbi sytë, neuronet dhe strukturat e trurit të përkushtuar për përpunimin e stimujve vizualë si tek njerëzit ashtu edhe tek kafshët. Kjo ka sjellë një përshkrim të përgjithshëm, por kompleks, mbi mënyrën se si funksionojnë sistemet natyrore të shikimit për të zgjidhur detyra të caktuara të lidhura me vizionin. Këto gjetje kanë hapur një nënfushë brenda vizionit kompjuterik, ku sistemet artificiale janë ndërtuar për të imituar përpunimin dhe sjelljen e sistemeve biologjike në nivele të ndryshme të kompleksitetit. Po ashtu, disa nga metodat e bazuara në të nxënë të zhvilluara në vizionin kompjuterik (si rrjetat nervore dhe analiza e imazheve me klasifikimin e karakteristikave të bazuara në të nxënë të thellë) e kanë origjinën në neurobiologji. Neocognitron, një rrjet nervor i krijuar në vitet 1970 nga Kunihiko Fukushima, është një shembull i hershëm i vizionit kompjuterik që merr frymëzim të drejtpërdrejtë nga neurobiologjia, veçanërisht nga korteksi vizual primar.
Disa fusha kërkimore në vizionin kompjuterik lidhen ngushtë me studimin e shikimit biologjik – njësoj si shumë fusha të inteligjencës artificiale që kanë lidhje të ngushta me kërkimin mbi inteligjencën njerëzore dhe përdorimin e njohurive të ruajtura për interpretimin, integrimin dhe shfrytëzimin e informacionit vizual. Shikimi biologjik analizon dhe modelon proceset fiziologjike që qëndrojnë pas perceptimit vizual tek njerëzit dhe kafshët. Ndërkohë, vizioni kompjuterik zhvillon dhe përshkruan algoritmet e zbatuara në softuer dhe harduer për sistemet e shikimit artificial. Një bashkëpunim ndërdisiplinor mes shikimit biologjik dhe atij kompjuterik ka rezultuar i dobishëm për të dyja fushat.[22]
Përpunimi i sinjalit
[Redakto | Redakto nëpërmjet kodit]Një disiplinë tjetër e lidhur me vizionin kompjuterik është përpunimi i sinjaleve. Shumë teknika për përpunimin e sinjaleve me një variabël, zakonisht sinjale kohore, mund të shtrihen në mënyrë të natyrshme në përpunimin e sinjaleve me dy variabla ose sinjaleve shumëdimensionale në vizionin kompjuterik. Megjithatë, për shkak të natyrës specifike të imazheve, ekzistojnë metoda të zhvilluara brenda vizionit kompjuterik që nuk kanë ekuivalent në përpunimin e sinjaleve me një variabël. Së bashku me shumëdimensionalitetin e sinjalit, kjo përcakton një nënfushë të përpunimit të sinjaleve si pjesë e vizionit kompjuterik.
Navigim robotik
[Redakto | Redakto nëpërmjet kodit]Navigimi i robotëve shpesh përfshin planifikimin ose shqyrtimin autonom të rrugës për sistemet robotike që lëvizin nëpër një mjedis.[23] Për të lundruar në këto mjedise kërkohet një kuptim i hollësishëm i tyre. Të dhënat mbi mjedisin mund të sigurohen nga një sistem vizioni kompjuterik, i cili funksionon si një sensor vizual dhe jep informacion të nivelit të lartë mbi mjedisin dhe robotin.
Informatikë vizuale
[Redakto | Redakto nëpërmjet kodit]Llogaritja vizuale është një term i përgjithshëm për të gjitha disiplinat e informatikës që merren me imazhet dhe modelet 3D, si grafika kompjuterike, përpunimi i imazheve, vizualizimi, vizioni kompjuterik, realiteti virtual dhe i shtuar, përpunimi i videos dhe vizualistika kompjuterike. Llogaritja vizuale përfshin gjithashtu aspekte të njohjes së modeleve, ndërveprimit njeri-kompjuter, mësimit të makinerive dhe bibliotekave digjitale. Sfida kryesore janë marrja, përpunimi, analiza dhe paraqitja e informacionit vizual (kryesisht imazhe dhe video). Fushat e aplikimit përfshijnë kontrollin e cilësisë industriale, përpunimin dhe vizualizimin e imazheve mjekësore, matjen, robotikën, sistemet multimediale, trashëgiminë virtuale, efektet speciale në filma dhe televizion, si dhe ludologjinë. Llogaritja vizuale përfshin gjithashtu artin digjital dhe studimet mbi median digjitale.
Fusha të tjera
[Redakto | Redakto nëpërmjet kodit]Përveç perspektivave të përmendura më sipër mbi vizionin kompjuterik, shumë nga temat kërkimore përkatëse mund të shqyrtohen edhe nga një këndvështrim thjesht matematikor. Për shembull, një numër i madh metodash në vizionin kompjuterik mbështeten në statistikë, optimizim ose gjeometri. Së fundmi, një pjesë e madhe e fushës i është kushtuar aspektit praktik të vizionit kompjuterik; si mund të implementohen metodat ekzistuese në kombinime të ndryshme të softuerit dhe harduerit, ose si mund të përshtaten këto metoda në mënyrë që të arrihet shpejtësi përpunimi pa humbur ndjeshëm performancë. Vizioni kompjuterik gjen përdorim gjithashtu në tregtinë elektronike të modës, administrimin e inventarit, kërkimin e patentave, mobiljet dhe industrinë e kozmetikës.[24]
Dallimet
[Redakto | Redakto nëpërmjet kodit]Fushat që lidhen më ngushtë me vizionin kompjuterik janë përpunimi i imazheve, analiza e imazheve dhe vizioni automatik . Ekziston një mbivendosje e konsiderueshme në gamën e teknikave dhe aplikimeve që këto mbulojnë. Kjo nënkupton që teknikat themelore që përdoren dhe zhvillohen në këto fusha janë të ngjashme, diçka që mund të interpretohet sikur ekziston vetëm një fushë me emra të ndryshëm. Nga ana tjetër, duket se është e nevojshme që grupet kërkimore, revistat shkencore, konferencat dhe kompanitë të paraqesin ose të tregtojnë veten si pjesë të njërës prej këtyre fushave dhe, për këtë arsye, janë paraqitur karakterizime të ndryshme që dallojnë secilën prej fushave nga të tjerat. Në përpunimin e imazheve, hyrja dhe dalja janë të dyja imazhe, ndërsa në vizionin kompjuterik, hyrja është një imazh ose video, dhe dalja mund të jetë një imazh i përmirësuar, një analizë e përmbajtjes së imazhit, apo edhe sjellja e një sistemi bazuar në atë analizë. Grafika kompjuterike prodhon të dhëna imazhi nga modelet 3D, dhe vizioni kompjuterik shpesh prodhon modele 3D nga të dhënat e imazhit.[25] Karakterizimet e mëposhtme duken të rëndësishme, por nuk duhen marrë si të pranuara universalisht:
- Përpunimi dhe interpretimi i imazhit zakonisht fokusohen në imazhet 2D, si transformimi i një imazhi në një tjetër, p.sh., përmes operacioneve sipas pikselëve, si përmirësimi i kontrastit, operacioneve lokale, si nxjerrja e skajeve ose reduktimi i zhurmës, apo transformimeve gjeometrike, si rrotullimi i imazhit. Ky përshkrim nënkupton se përpunimi/interpretimi i imazhit nuk kërkon supozime dhe nuk prodhon interpretime mbi përmbajtjen e tij.
- Vizioni kompjuterik përfshin analizën 3D duke u bazuar në imazhe 2D. Ai shqyrton skenën tredimensionale të projektuar në një ose disa imazhe, p.sh., si të rindërtohet struktura ose të nxirren informacione të tjera mbi skenën 3D nga një ose disa imazhe. Vizioni kompjuterik shpesh mbështetet në supozime më të thjeshta ose më komplekse rreth skenës së paraqitur në një imazh.
- Vizioni automatik është procesi i përdorimit të një game teknologjish dhe metodash për të mundësuar inspektim automatik të bazuar në imazhe, kontroll të proceseve dhe udhëzim nga robotët. Vizioni automatik ka prirje të fokusohet në aplikime, kryesisht në prodhim, p.sh., robotë të bazuar në vizion dhe sisteme për inspektim, matje ose mbledhje të bazuar në vizion (si mbledhja e mbeturinave[26] in industrial applications.[22][27]). Kjo nënkupton se teknologjitë e sensorëve të imazhit dhe teoria e kontrollit shpesh kombinohen me përpunimin e të dhënave të imazhit për të komanduar një robot, dhe se përpunimi në kohë reale theksohet përmes zbatimeve efikase në harduer dhe softuer. Gjithashtu nënkupton se kushtet e jashtme si ndriçimi mund të jenë dhe shpesh janë më të kontrolluara në vizionin automatik sesa në vizionin e përgjithshëm kompjuterik, gjë që mundëson përdorimin e algoritmeve të ndryshme.
- Ekziston gjithashtu një fushë e quajtur imazheri, e cila merret kryesisht me procesin e krijimit të imazheve, por ndonjëherë përfshin edhe përpunimin dhe interpretimin e tyre. Për shembull, imazheria mjekësore përfshin punë të konsiderueshme në analizën e të dhënave të imazhit për aplikime mjekësore. Përparimi në rrjetet nervore konvolucionale (CNN) ka përmirësuar ndjeshëm zbulimin e saktë të sëmundjeve në imazhet mjekësore, veçanërisht në kardiologji, patologji, dermatologji dhe radiologji.[28]
- Së fundmi, njohja e modeleve është një fushë që përdor metoda të ndryshme për të nxjerrë informacion nga sinjalet në përgjithësi, kryesisht të bazuara në qasje statistikore dhe rrjete nervore artificiale.[29] Një pjesë e rëndësishme e kësaj fushe i kushtohet aplikimit të këtyre metodave në të dhënat e imazhit.
Fotogrametria gjithashtu mbivendoset me shikimin kompjuterik, p.sh.,stereofotogrametria kundrejt shikimit stereo kompjuterik .
Aplikacionet
[Redakto | Redakto nëpërmjet kodit]Zbatimet shtrihen nga detyra të tilla si sistemet industriale të vizionit automatik, të cilat, për shembull, kontrollojnë shishet që kalojnë me shpejtësi në një linjë prodhimi, deri te kërkimet mbi inteligjencën artificiale dhe kompjuterët ose robotët që mund të interpretojnë botën përreth tyre. Fushat e vizionit kompjuterik dhe vizionit automatik kanë mbivendosje të madhe. Vizioni kompjuterik mbulon teknologjinë bazë të analizës së automatizuar të imazhit, e cila përdoret në shumë fusha. Vizioni automatik zakonisht i referohet një procesi që kombinon analizën e automatizuar të imazhit me metoda dhe teknologji të tjera për të ofruar inspektim automatik dhe udhëzim nga robotët në aplikime industriale. Në shumë përdorime të vizionit kompjuterik, kompjuterët janë të programuar paraprakisht për të zgjidhur një detyrë të caktuar, por metodat e bazuara në të nxënë po bëhen gjithnjë e më të zakonshme. Shembuj të aplikimeve të vizionit kompjuterik përfshijnë sisteme për:

- Inspektim automatik, p.sh., në aplikimet e prodhimit;
- Ndihma ndaj njerëzve në detyrat e identifikimit, p.sh., një sistem identifikimi i specieve ;[30]
- Kontrollimi i proceseve, p.sh., një robot industrial ;
- Zbulimi i ngjarjeve, p.sh., për mbikëqyrje vizuale ose numërim njerëzish, p.sh., në industrinë e restoranteve ;
- Ndërveprimi, p.sh., si të dhëna hyrëse në një pajisje për ndërveprimin kompjuter-njeri ;
- monitorimi i kulturave bujqësore, p.sh. një model transformatorësh shikimi me burim të hapur[31] është zhvilluar për të ndihmuar fermerët të zbulojnë automatikisht sëmundjet e luleshtrydheve me saktësi 98.4%.[32]
- Modelimi i objekteve ose mjediseve, p.sh., analiza e imazheve mjekësore ose modelimi topografik ;
- Navigimi, p.sh., nga një automjet autonom ose robot celular ;
- Organizimi i informacionit, p.sh., për indeksimin e bazave të të dhënave të imazheve dhe sekuencave të imazheve.
- Gjurmimi i sipërfaqeve ose planeve në koordinata 3D për të lejuar përvojat e Realitetit të Shtuar .
- Analizimi i gjendjes së objekteve në industri ose ndërtim.
- Lexim automatik i buzëve në kohë reale për pajisje dhe aplikacione për të ndihmuar personat me aftësi të kufizuara.[33]
Për vitin 2024, fushat kryesore të vizionit kompjuterik ishin industria (madhësia e tregut 5.22 miliardë dollarë amerikanë),[34] medicine (market size US$2.6 billion),[35] dhe ushtria (madhësia e tregut 996.2 milion dollarë amerikanë).[36]
Mjeksia
[Redakto | Redakto nëpërmjet kodit]Një nga fushat më të spikatura të aplikimit është vizioni mjekësor kompjuterik, ose përpunimi i imazheve mjekësore, i karakterizuar nga nxjerrja e informacionit nga të dhënat e imazhit për të diagnostikuar një pacient.[37] Një shembull i kësaj është zbulimi i tumoreve, arteriosklerozës ose ndryshimeve të tjera malinje, dhe një sërë patologjish dentare; matjet e dimensioneve të organeve, rrjedhjes së gjakut, etj., janë një shembull tjetër. Ai gjithashtu mbështet kërkimin mjekësor duke ofruar informacione të reja: p.sh., rreth strukturës së trurit ose cilësisë së trajtimeve mjekësore. Zbatimet e vizionit kompjuterik në fushën mjekësore përfshijnë gjithashtu përmirësimin e imazheve të interpretuara nga njerëzit - imazhe ultrasonike ose imazhe me rreze X, për shembull – për të zvogëluar ndikimin e zhurmës.
Vizioni i makinës
[Redakto | Redakto nëpërmjet kodit]Një fushë e dytë aplikimi në vizionin kompjuterik është në industri, ndonjëherë e quajtur vizion makinerik, ku informacioni nxirret me qëllim mbështetjen e një procesi prodhimi. Një shembull është kontrolli i cilësisë ku detajet ose produktet përfundimtare inspektohen automatikisht për të gjetur defekte. Një nga fushat më të përhapura për inspektim të tillë është industria e pllakës së ngjitjes (wafer) në të cilën çdo pllakë e vetme matet dhe inspektohet për pasaktësi ose defekte për të parandaluar që një çip kompjuteri të dalë në treg në një mënyrë të papërdorshme. Një shembull tjetër është matja e pozicionit dhe orientimit të detajeve që duhen marrë nga një krah roboti. Vizioni makinerik përdoret gjithashtu gjerësisht në proceset bujqësore për të hequr ushqimet e padëshiruara nga materiali i madh, një proces i quajtur renditje optike.[38]
Ushtria
[Redakto | Redakto nëpërmjet kodit]Shembujt e dukshëm janë zbulimi i ushtarëve ose automjeteve armike dhe udhëzimi i raketave . Sistemet më të përparuara për udhëzimin e raketave e dërgojnë raketën në një zonë dhe jo në një objektiv specifik, dhe përzgjedhja e objektivit bëhet kur raketa arrin zonën bazuar në të dhënat e imazhit të fituara në nivel lokal. Konceptet moderne ushtarake, të tilla si "ndërgjegjësimi për fushën e betejës", nënkuptojnë që sensorë të ndryshëm, duke përfshirë sensorët e imazhit, ofrojnë një sërë të pasur informacionesh rreth një skene luftimi që mund të përdoren për të mbështetur vendimet strategjike. Në këtë rast, përpunimi automatik i të dhënave përdoret për të zvogëluar kompleksitetin dhe për të bashkuar informacionin nga sensorë të shumtë për të rritur besueshmërinë.
Automjete autonome
[Redakto | Redakto nëpërmjet kodit]
Një nga fushat më të reja të aplikimit janë automjetet autonome, të cilat përfshijnë nëndetëse, automjete tokësore (robotë të vegjël me rrota, makina ose kamionë), automjete ajrore dhe automjete ajrore pa pilot ( UAV ). Niveli i autonomisë varion nga automjete plotësisht autonome (pa pilot) deri te automjete ku sistemet e bazuara në vizion kompjuterik mbështesin një shofer ose një pilot në situata të ndryshme. Automjetet plotësisht autonome zakonisht përdorin vizionin kompjuterik për navigim, p.sh., për të ditur se ku ndodhen ose për të hartuar mjedisin e tyre ( SLAM ), për të zbuluar pengesat. Mund të përdoret gjithashtu për të zbuluar ngjarje të caktuara specifike për detyrën, p.sh., një UAV që kërkon zjarre në pyje. Shembuj të sistemeve mbështetëse janë sistemet e paralajmërimit të pengesave në makina, kamerat dhe sensorët LiDAR në automjete, dhe sistemet për ulje autonome të avionëve. Disa prodhues makinash kanë demonstruar sisteme për drejtim autonom të makinave . Ka shembuj të shumtë të automjeteve ushtarake autonome duke filluar nga raketat e përparuara deri te UAV-të për misione zbulimi ose udhëzim raketash. Eksplorimi i hapësirës tashmë po bëhet me automjete autonome duke përdorur vizion kompjuterik, p.sh., Curiosity i NASA -s dhe roveri Yutu-2 i CNSA -s.
Reagime prekëse
[Redakto | Redakto nëpërmjet kodit]

Materiale të tilla si goma dhe silici po përdoren për të krijuar sensorë që lejojnë aplikime të tilla si zbulimi i mikro-undulacioneve dhe kalibrimi i duarve robotike. Goma mund të përdoret për të krijuar një kallëp që mund të vendoset mbi një gisht, brenda këtij kallëpi do të ketë matës të shumtë të tendosjes. Kallëpi i gishtit dhe sensorët mund të vendosen më pas sipër një flete të vogël gome që përmban një sërë kunjash gome. Një përdorues mund ta veshë kallëpin e gishtit dhe të gjurmojë një sipërfaqe. Një kompjuter mund të lexojë të dhënat nga matësit e tendosjes dhe të matë nëse një ose më shumë nga kunjat po shtyhen lart. Nëse një kunj shtyhet lart, atëherë kompjuteri mund ta njohë këtë si një papërsosmëri në sipërfaqe. Ky lloj teknologjie është i dobishëm për të marrë të dhëna të sakta mbi papërsosmëritë në një sipërfaqe shumë të madhe.[39] Një tjetër variant i këtij sensori të kallëpit të gishtit janë sensorët që përmbajnë një kamera të pezulluar në silikon. Siliconi formon një kupolë rreth pjesës së jashtme të kamerës dhe të ngulitur në silikon janë shënues pikash që janë të vendosur në mënyrë të barabartë. Këto kamera mund të vendosen më pas në pajisje të tilla si duart robotike në mënyrë që të lejojnë kompjuterin të marrë të dhëna prekëse shumë të sakta.[40] Fushat e tjera të aplikimit përfshijnë:
- Mbështetje për krijimin e efekteve vizuale për kinema dhe transmetime, p.sh., gjurmimi i kamerave (lëvizja e ndeshjes).
- Mbikëqyrje .
- Zbulimi i përgjumjes së shoferit[41][42][43]
- Tracking and counting organisms in the biological sciences[44]
Detyra tipike
[Redakto | Redakto nëpërmjet kodit]Secila nga fushat e aplikimit të përshkruara më sipër përdor një gamë detyrash të vizionit kompjuterik; probleme matjeje pak a shumë të përcaktuara mirë ose probleme përpunimi, të cilat mund të zgjidhen duke përdorur një sërë metodash. Disa shembuj të detyrave tipike të vizionit kompjuterik janë paraqitur më poshtë. Detyrat e vizionit kompjuterik përfshijnë metoda për marrjen, përpunimin, analizimin dhe kuptimin e imazheve dixhitale, si dhe nxjerrjen e të dhënave me dimensione të larta nga bota reale me qëllim prodhimin e informacionit numerik ose simbolik, p.sh., në formën e vendimeve.[1][2][3][4] Kuptimi në këtë kontekst nënkupton transformimin e imazheve vizuale (të dhënat hyrëse të retinës) në përshkrime të botës që mund të ndërveprojnë me procese të tjera të të menduarit dhe të nxisin veprime të përshtatshme. Ky kuptim i imazhit mund të shihet si shkëputja e informacionit simbolik nga të dhënat e imazhit duke përdorur modele të ndërtuara me ndihmën e gjeometrisë, fizikës, statistikës dhe teorisë së të nxënit.[45]
Njohja
[Redakto | Redakto nëpërmjet kodit]Problemi klasik në shikimin kompjuterik, përpunimin e imazheve dhe shikimin automatik është ai i përcaktimit nëse të dhënat e imazhit përmbajnë apo jo ndonjë objekt, veçori ose aktivitet specifik. Në literaturë përshkruhen lloje të ndryshme të problemeve të njohjes.[46]
- Njohja e objekteve (e quajtur edhe klasifikimi i objekteve ) – Një ose disa objekte ose klasa objektesh të paracaktuara ose të mësuara mund të njihen, zakonisht së bashku me pozicionet e tyre 2D në imazh ose pozat 3D në skenë. Blippar, Google Goggles dhe LikeThat ofrojnë programe të pavarura që ilustrojnë këtë funksionalitet.
- Identifikimi – Një rast individual i një objekti njihet. Shembujt përfshijnë identifikimin e fytyrës ose gjurmës së gishtërinjve të një personi specifik, identifikimin e shifrave të shkruara me dorë ose identifikimin e një automjeti specifik.
- Zbulimi – Të dhënat e imazhit skanohen për objekte specifike së bashku me vendndodhjet e tyre. Shembujt përfshijnë zbulimin e një pengese në fushën e shikimit të makinës dhe qelizat ose indet e mundshme anormale në imazhet mjekësore ose zbulimin e një automjeti në një sistem automatik të pagesës rrugore. Zbulimi i bazuar në llogaritje relativisht të thjeshta dhe të shpejta përdoret ndonjëherë për të gjetur rajone më të vogla të të dhënave interesante të imazhit të cilat mund të analizohen më tej me teknika më të kërkuara në llogaritje për të prodhuar një interpretim të saktë.
Aktualisht, algoritmet më të mira për detyra të tilla bazohen në rrjetet nervore konvolucionale . Një ilustrim i aftësive të tyre jepet nga Sfida e Njohjes Vizuale në Shkallë të Madhe ImageNet ; ky është një pikë referimi në klasifikimin dhe zbulimin e objekteve, me miliona imazhe dhe 1000 klasa objektesh të përdorura në konkurs.[47] Performanca e rrjeteve nervore konvolucionale në testet ImageNet tani është afër asaj të njerëzve.[47]Algoritmet më të mira ende kanë vështirësi me objektet që janë të vogla ose të holla, siç është një milingonë e vogël në kërcellin e një luleje ose një person që mban një pendë në dorë. Ato gjithashtu kanë probleme me imazhet që janë shtrembëruar me filtra (një fenomen gjithnjë e më i zakonshëm me kamerat dixhitale moderne). Në të kundërt, këto lloj imazhesh rrallë i shqetësojnë njerëzit. Njerëzit, megjithatë, kanë tendencë të kenë probleme me çështje të tjera. Për shembull, ata nuk janë të mirë në klasifikimin e objekteve në klasa të imëta, siç është raca e veçantë e qenit ose speciet e shpendëve, ndërsa rrjetet nervore konvolucionale e trajtojnë këtë me lehtësi. [nevojitet citimi]
Ekzistojnë disa detyra të specializuara të bazuara në njohje, të tilla si:
- Rikthimi i imazheve bazuar në përmbajtje – gjetja e të gjitha imazheve në një grup më të madh imazhesh që kanë një përmbajtje specifike. Përmbajtja mund të specifikohet në mënyra të ndryshme, për shembull në aspektin e ngjashmërisë në lidhje me një imazh të synuar (më jepni të gjitha imazhet e ngjashme me imazhin X) duke përdorur teknikat e kërkimit të imazheve të kundërta, ose në aspektin e kritereve të kërkimit të nivelit të lartë të dhëna si futje teksti (më jepni të gjitha imazhet që përmbajnë shumë shtëpi, janë bërë gjatë dimrit dhe nuk kanë makina në to).

- Vlerësimi i pozës – vlerësimi i pozicionit ose orientimit të një objekti specifik në lidhje me kamerën. Një shembull aplikimi për këtë teknikë do të ishte ndihma ndaj një krahu robotik në nxjerrjen e objekteve nga një shirit transportues në një situatë linje montimi ose në mbledhjen e pjesëve nga një kosh.
- Njohja optike e karaktereve (OCR) – identifikimi i karaktereve në imazhe të tekstit të shtypur ose të shkruar me dorë, zakonisht me qëllim kodimin e tekstit në një format më të përshtatshëm për redaktim ose indeksim ( p.sh. ASCII ). Një detyrë e lidhur është leximi i kodeve 2D siç janë matrica e të dhënave dhe kodet QR .
- Njohja e fytyrës – një teknologji që mundëson përputhjen e fytyrave në imazhe dixhitale ose kuadro video me një bazë të dhënash fytyrash, e cila tani përdoret gjerësisht për mbylljen e fytyrës me telefon celular, mbylljen inteligjente të dyerve, etj.[48]
- Njohja e emocioneve – Një nëngrup i njohjes së fytyrës, njohja e emocioneve i referohet procesit të klasifikimit të emocioneve njerëzore. Megjithatë, psikologët paralajmërojnë se emocionet e brendshme nuk mund të zbulohen në mënyrë të besueshme nga fytyrat.[49]
- Teknologjia e Njohjes së Formave (SRT) në sistemet kundërvuese të njerëzve që dallojnë qeniet njerëzore (modelet e kokës dhe të shpatullave) nga objektet.
- Njohja e aktivitetit njerëzor – merret me njohjen e aktivitetit nga një seri kuadrosh video, si për shembull, nëse personi po merr një objekt ose po ecën.
Analiza e lëvizjes
[Redakto | Redakto nëpërmjet kodit]Disa detyra lidhen me vlerësimin e lëvizjes, ku një sekuencë imazhesh përpunohet për të prodhuar një vlerësim të shpejtësisë ose në secilën pikë të imazhit ose në skenën 3D ose edhe të kamerës që prodhon imazhet. Shembuj të detyrave të tilla janë:
- Egomocion – përcaktimi i lëvizjes së ngurtë 3D (rrotullimi dhe përkthimi) të kamerës nga një sekuencë imazhesh e prodhuar nga kamera.
- Ndjekja – duke ndjekur lëvizjet e një grupi (zakonisht) më të vogël pikash interesi ose objektesh ( p.sh., automjete, objekte, njerëz ose organizma të tjerë[44]) në sekuencën e imazhit. Kjo ka zbatime të gjera në industri pasi shumica e makinerive me performancë të lartë mund të monitorohen në këtë mënyrë.
- Rrjedha optike – për të përcaktuar, për secilën pikë në imazh, se si lëviz ajo pikë në lidhje me planin e imazhit, dmth., lëvizjen e saj të dukshme. Kjo lëvizje është rezultat si i mënyrës se si lëviz pika përkatëse 3D në skenë ashtu edhe i mënyrës se si lëviz kamera në lidhje me skenën.
Rindërtimi i skenës
[Redakto | Redakto nëpërmjet kodit]Duke pasur parasysh një ose (zakonisht) më shumë imazhe të një skene, ose një video, rindërtimi i skenës synon të llogarisë një model 3D të skenës. Në rastin më të thjeshtë, modeli mund të jetë një grup pikash 3D. Metodat më të sofistikuara prodhojnë një model të plotë sipërfaqësor 3D. Ardhja e imazheve 3D që nuk kërkojnë lëvizje ose skanim, dhe algoritmet e përpunimit të lidhura po mundësojnë përparime të shpejta në këtë fushë. Ndjesia 3D e bazuar në rrjetë mund të përdoret për të marrë imazhe 3D nga kënde të shumëfishta. Algoritmet tani janë të disponueshme për të bashkuar imazhe të shumëfishta 3D në re pikash dhe modele 3D.[25]
Restaurimi i imazheve
[Redakto | Redakto nëpërmjet kodit]Restaurimi i imazhit hyn në lojë kur imazhi origjinal degradohet ose dëmtohet për shkak të disa faktorëve të jashtëm si pozicionimi i gabuar i lentes, ndërhyrja e transmetimit, ndriçimi i ulët ose turbullimi i lëvizjes, etj., gjë që quhet zhurmë. Kur imazhet degradohen ose dëmtohen, edhe informacioni që do të nxirret prej tyre dëmtohet. Prandaj, ne duhet ta rikuperojmë ose ta rivendosim imazhin ashtu siç ishte menduar të ishte. Qëllimi i restaurimit të imazhit është heqja e zhurmës (zhurma e sensorit, turbullimi i lëvizjes, etj.) nga imazhet. Qasja më e thjeshtë e mundshme për heqjen e zhurmës janë llojet e ndryshme të filtrave, siç janë filtrat me kalim të ulët ose filtrat medianë. Metodat më të sofistikuara supozojnë një model se si duken strukturat lokale të imazhit për t'i dalluar ato nga zhurma. Duke analizuar së pari të dhënat e imazhit në terma të strukturave lokale të imazhit, siç janë vijat ose skajet, dhe më pas duke kontrolluar filtrimin bazuar në informacionin lokal nga hapi i analizës, zakonisht merret një nivel më i mirë i heqjes së zhurmës krahasuar me qasjet më të thjeshta.
Një shembull në këtë fushë është inpainting.
Metodat e sistemit
[Redakto | Redakto nëpërmjet kodit]Organizimi i një sistemi të shikimit kompjuterik varet shumë nga aplikacioni. Disa sisteme janë aplikacione të pavarura që zgjidhin një problem specifik matjeje ose zbulimi, ndërsa të tjerët përbëjnë një nënsistem me një dizajn më të gjerë i cili, për shembull, përmban edhe nënsisteme për kontrollin e aktuatorëve mekanikë, planifikimin, bazat e të dhënave të informacionit, ndërfaqet njeri-makinë, etj. Implementimi specifik i një sistemi të shikimit kompjuterik varet gjithashtu nëse funksionaliteti i tij është i paracaktuar ose nëse ndonjë pjesë e tij mund të mësohet ose modifikohet gjatë funksionimit. Shumë funksione janë unike për aplikacionin. Megjithatë, ka funksione tipike që gjenden në shumë sisteme të shikimit kompjuterik.
- Marrja e imazhit – Një imazh dixhital prodhohet nga një ose disa sensorë imazhi, të cilët, përveç llojeve të ndryshme të kamerave të ndjeshme ndaj dritës, përfshijnë sensorë diapazoni, pajisje tomografie, radarë, kamera ultrasonike, etj. Në varësi të llojit të sensorit, të dhënat që rezultojnë nga imazhi janë një imazh i zakonshëm 2D, një vëllim 3D ose një sekuencë imazhi. Vlerat e pikselëve zakonisht korrespondojnë me intensitetin e dritës në një ose disa breza spektralë (imazhe gri ose imazhe me ngjyra), por gjithashtu mund të lidhen me masa të ndryshme fizike, të tilla si thellësia, thithja ose reflektimi i valëve sonike ose elektromagnetike, ose imazhet me rezonancë magnetike.[38]
- Përpunimi paraprak – Përpara se një metodë e vizionit kompjuterik të mund të aplikohet në të dhënat e imazhit me qëllim nxjerrjen e një pjese specifike informacioni, zakonisht është e nevojshme të përpunohen të dhënat në mënyrë që të sigurohet që ato plotësojnë disa supozime të nënkuptuara nga metoda. Shembuj janë:
- Ri-marrje mostrash për t'u siguruar që sistemi koordinativ i imazhit është i saktë.
- Ulja e zhurmës për të siguruar që zhurma e sensorit të mos prezantojë informacion të rremë.
- Përmirësim i kontrastit për të siguruar që informacioni përkatës të mund të zbulohet.
- Shkallëzoni përfaqësimin e hapësirës për të përmirësuar strukturat e imazhit në shkallë të përshtatshme lokale.
- Nxjerrja e veçorive – Karakteristikat e imazhit në nivele të ndryshme kompleksiteti nxirren nga të dhënat e imazhit.[38] Shembuj tipikë të karakteristikave të tilla janë:
- Vija, skaje dhe kreshta .
- Pika interesi të lokalizuara, të tilla si qoshe, pika ose pika.
- Karakteristikat më komplekse mund të lidhen me strukturën, formën ose lëvizjen.
- Zbulimi / segmentimi – Në një moment të caktuar gjatë përpunimit, merret një vendim se cilat pika ose rajone të imazhit janë të rëndësishme për përpunim të mëtejshëm.[38] Shembuj janë:
- Përzgjedhja e një grupi specifik pikash interesi.
- Segmentimi i një ose më shumë rajoneve të imazhit që përmbajnë një objekt specifik me interes.
- Segmentimi i imazhit në arkitekturën e skenës së ndërthurur që përfshin planin e parë, grupet e objekteve, objektet e vetme ose pjesët e spikatura të objekteve[50] (e referuar edhe si hierarkia e skenës hapësinore-taksonike),[51] ndërsa spikatja vizuale shpesh zbatohet si vëmendje hapësinore dhe kohore.
- Segmentimi ose bashkë-segmentimi i një ose më shumë videove në një seri maskash të planit të parë për çdo kuadër, duke ruajtur vazhdimësinë semantike kohore.[52][53]
- Përpunimi i nivelit të lartë – Në këtë fazë, të dhënat hyrëse zakonisht përbëhen nga një grup i vogël të dhënash, si p.sh. një grup pikash ose një rajon imazhi, i cili supozohet se përmban një objekt të caktuar.[[Li, Mengfang; Jiang, Yuanyuan; Zhang, Yanzhou; Zhu, Haisheng (2023). "Medical image analysis using deep learning algorithms". Frontiers in Public Health. 11 1273253. Bibcode:2023FrPH...1173253L.|[38] Pjesa tjetër e përpunimit merret me:
- Verifikimin që të dhënat përputhen me supozimet e bazuara në model dhe të përcaktuara nga aplikacioni
- Vlerësimin e parametrave specifikë të aplikacionit, si pozicioni ose madhësia e objektit
- Njohjen e imazhit – klasifikimin e objektit të zbuluar në kategori të ndryshme
- Regjistrimin e imazhit – krahasimin dhe kombinimin e dy pamjeve të ndryshme të të njëjtit objekt
- Marrja e vendimeve Marrja e vendimit përfundimtar të kërkuar për aplikimin,[[Li, Mengfang; Jiang, Yuanyuan; Zhang, Yanzhou; Zhu, Haisheng (2023). "Medical image analysis using deep learning algorithms". Frontiers in Public Health. 11 1273253. Bibcode:2023FrPH...1173253L.|[38] për shembull:
- Kalon/dështon në aplikacionet e inspektimit automatik.
- Përputhje/mospërputhje në aplikimet për njohje.
- Raporto për shqyrtim të mëtejshëm njerëzor në aplikimet mjekësore, ushtarake, të sigurisë dhe të njohjes.
Sistemet e të kuptuarit të imazhit
[Redakto | Redakto nëpërmjet kodit]Sistemet e të kuptuarit të imazhit (SKU) përfshijnë tre nivele abstraksioni si më poshtë: niveli i ulët përfshin primitivët e imazhit si skajet, elementët e teksturës ose rajonet; niveli i ndërmjetëm përfshin kufijtë, sipërfaqet dhe vëllimet; dhe niveli i lartë përfshin objektet, skenat ose ngjarjet. Shumë nga këto kërkesa janë tërësisht tema për kërkime të mëtejshme.
Kërkesat përfaqësuese në hartimin e IUS-ve për këto nivele janë: përfaqësimi i koncepteve prototipike, organizimi i koncepteve, njohuritë hapësinore, njohuritë kohore, shkallëzimi dhe përshkrimi me anë të krahasimit dhe diferencimit.
Ndërsa inferenca i referohet procesit të nxjerrjes së fakteve të reja, jo të përfaqësuara në mënyrë të qartë, nga faktet e njohura aktualisht, kontrolli i referohet procesit që zgjedh se cila nga shumë teknika të inferencës, kërkimit dhe përputhjes duhet të zbatohet në një fazë të caktuar të përpunimit. Kërkesat e inferencës dhe kontrollit për IUS janë: kërkimi dhe aktivizimi i hipotezës, përputhja dhe testimi i hipotezës, gjenerimi dhe përdorimi i pritjeve, ndryshimi dhe përqendrimi i vëmendjes, siguria dhe forca e besimit, inferenca dhe përmbushja e qëllimit.[54]
Pajisje
[Redakto | Redakto nëpërmjet kodit]
Ekzistojnë shumë lloje sistemesh të shikimit kompjuterik; megjithatë, të gjitha përmbajnë këto elementë bazë: një burim energjie, të paktën një pajisje për marrjen e imazhit (kamera, CCD, etj.), një procesor dhe kabllo kontrolli dhe komunikimi ose një lloj mekanizmi ndërlidhës pa tel. Përveç kësaj, një sistem praktik shikimi përmban softuer, si dhe një ekran për të monitoruar sistemin. Sistemet e shikimit për hapësirat e brendshme, si shumica e atyre industriale, përmbajnë një sistem ndriçimi dhe mund të vendosen në një mjedis të kontrolluar. Për më tepër, një sistem i kompletuar përfshin shumë aksesorë, të tilla si mbështetëse kamerash, kabllo dhe lidhës.
Shumica e sistemeve të vizionit kompjuterik përdorin kamera të dritës së dukshme që shikojnë në mënyrë pasive një skenë me shpejtësi kuadrosh prej maksimumi 60 kuadrosh për sekondë (zakonisht shumë më të ngadalta).
Disa sisteme të vizionit kompjuterik përdorin pajisje për marrjen e imazheve me ndriçim aktiv ose burime të tjera përveç dritës së dukshme, ose të dyja bashkë, si skanerët 3D me dritë të strukturuar, kamerat termike, imazherët hiperspektralë, imazhet me radar, skanerët lidar, imazhet me rezonancë magnetike, sonari me skanim anësor, sonari me aperturë sintetike, etj. Pajisje të tilla gjenerojnë “imazhe” që më pas përpunohen shpesh duke përdorur të njëjtat algoritme të vizionit kompjuterik që përdoren për përpunimin e imazheve të dritës së dukshme.
Ndërsa sistemet tradicionale të transmetimit dhe videos për përdoruesit funksionojnë me një ritëm prej 30 kuadrosh në sekondë, avancimet në përpunimin digjital të sinjalit dhe pajisjet grafike për konsumatorët kanë mundësuar marrjen, përpunimin dhe paraqitjen e imazheve me shpejtësi të lartë për sistemet në kohë reale, duke arritur nga qindra deri në mijëra kuadro për sekondë. Për aplikimet në robotikë, sistemet e shpejta video në kohë reale janë jashtëzakonisht të rëndësishme dhe shpesh mund të lehtësojnë përpunimin e domosdoshëm për disa algoritme. Kur kombinohen me një projektor me shpejtësi të lartë, kapja e shpejtë e imazhit mundëson realizimin e matjes 3D dhe gjurmimin e veçorive.[55]
Sistemet e shikimit egocentrik përbëhen nga një aparat fotografik i veshshëm që automatikisht bën fotografi nga perspektiva e personit të parë.
Që prej vitit 2016, njësitë e përpunimit të vizionit janë shfaqur si një kategori e re procesorësh, të cilat plotësojnë rolin e CPU-ve dhe njësive të përpunimit grafik (GPU).[56]
Shih edhe
[Redakto | Redakto nëpërmjet kodit]- Zbulimi i tabelës së shahut
- Imazhe kompjuterike
- Fotografi kompjuterike
- Audicion kompjuterik
- Vizioni egocentrik
- Fjalori i shikimit të makinës
- Hartografia e hapësirës
- Algoritmi Teknomo-Fernandez
- Shkenca e shikimit
- Agnozia vizuale
- Perceptimi vizual
- Sistemi vizual
Listat
[Redakto | Redakto nëpërmjet kodit]Referime
[Redakto | Redakto nëpërmjet kodit]- 1 2 Reinhard Klette (2014). Concise Computer Vision (në anglisht). Springer. ISBN 978-1-4471-6320-6.
- 1 2 Linda G. Shapiro; George C. Stockman (2001). Computer Vision (në anglisht). Prentice Hall. ISBN 978-0-13-030796-5.
- 1 2 Tim Morris (2004). Computer Vision and Image Processing (në anglisht). Palgrave Macmillan. ISBN 978-0-333-99451-1.
- 1 2 Bernd Jähne; Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners (në anglisht). Academic Press. ISBN 978-0-13-085198-7.
- 1 2 Dana H. Ballard; Christopher M. Brown (1982). Computer Vision (në anglisht). Prentice Hall. ISBN 978-0-13-165316-0.
- 1 2 Huang, T. (1996-11-19). Vandoni, Carlo E (red.). Computer Vision: Evolution And Promise (PDF). 19th CERN School of Computing (në anglisht). Geneva: CERN. fq. 21–25. doi:10.5170/CERN-1996-008.21. ISBN 978-92-9083-095-5. Arkivuar (PDF) nga origjinali më 2018-02-07.
- 1 2 Milan Sonka; Vaclav Hlavac; Roger Boyle (2008). Image Processing, Analysis, and Machine Vision (në anglisht). Thomson. ISBN 978-0-495-08252-1.
- 1 2 http://www.bmva.org/visionoverview Arkivuar 2017-02-16 tek Wayback Machine The British Machine Vision Association and Society for Pattern Recognition Retrieved February 20, 2017
- ↑ Murphy, Mike (13 prill 2017). "Star Trek's "tricorder" medical scanner just got closer to becoming a reality" (në anglisht). Arkivuar nga origjinali më 2 korrik 2017. Marrë më 18 korrik 2017.
- 1 2 Computer Vision Principles, algorithms, Applications, Learning 5th Edition by E.R. Davies Academic Press, Elsevier 2018 ISBN 978-0-12-809284-2
- ↑ Murphy, Mike (13 prill 2017). "Star Trek's "tricorder" medical scanner just got closer to becoming a reality" (në anglisht). Arkivuar nga origjinali më 2 korrik 2017. Marrë më 18 korrik 2017.
- 1 2 3 4 Richard Szeliski (30 shtator 2010). Computer Vision: Algorithms and Applications (në anglisht). Springer Science & Business Media. fq. 10–16. ISBN 978-1-84882-935-0.
- ↑ Sejnowski, Terrence J. (2018). The deep learning revolution (në anglisht). Cambridge, Massachusetts London, England: The MIT Press. fq. 28. ISBN 978-0-262-03803-4.
- ↑ Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959–2004) (në anglisht). hdl:1721.1/6125.
- ↑ Margaret Ann Boden (2006). Mind as Machine: A History of Cognitive Science (në anglisht). Clarendon Press. fq. 781. ISBN 978-0-19-954316-8.
- ↑ Takeo Kanade (6 dhjetor 2012). Three-Dimensional Machine Vision (në anglisht). Springer Science & Business Media. ISBN 978-1-4613-1981-8.
- ↑ Nicu Sebe; Ira Cohen; Ashutosh Garg; Thomas S. Huang (3 qershor 2005). Machine Learning in Computer Vision (në anglisht). Springer Science & Business Media. ISBN 978-1-4020-3274-5.
- ↑ William Freeman; Pietro Perona; Bernhard Scholkopf (2008). "Guest Editorial: Machine Learning for Computer Vision". International Journal of Computer Vision (në anglisht). 77 (1): 1. doi:10.1007/s11263-008-0127-7. hdl:21.11116/0000-0003-30FB-C. ISSN 1573-1405.
- ↑ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep Learning" (PDF). Nature (në anglisht). 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- ↑ Ilg, Eddy; Mayer, Nikolaus; Saikia, Tonmoy; Keuper, Margret; Dosovitskiy, Alexey; Brox, Thomas (2016). "FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks" (në anglisht). arXiv:1612.01925 [cs.CV].
- ↑ Jiao, Licheng; Zhang, Fan; Liu, Fang; Yang, Shuyuan; Li, Lingling; Feng, Zhixi; Qu, Rong (2019). "A Survey of Deep Learning-Based Object Detection". IEEE Access (në anglisht). 7: 128837–128868. arXiv:1907.09408. Bibcode:2019IEEEA...7l8837J. doi:10.1109/ACCESS.2019.2939201. S2CID 198147317.
- 1 2 Steger, Carsten; Markus Ulrich; Christian Wiedemann (2018). Machine Vision Algorithms and Applications (në anglisht) (bot. 2nd). Weinheim: Wiley-VCH. fq. 1. ISBN 978-3-527-41365-2. Arkivuar nga origjinali më 2023-03-15. Marrë më 2018-01-30.
- ↑ Murray, Don, and Cullen Jennings. "Stereo vision-based mapping and navigation for mobile robots Arkivuar 2020-10-31 tek Wayback Machine." Proceedings of International Conference on Robotics and Automation. Vol. 2. IEEE, 1997.
- ↑ Andrade, Norberto Almeida. "Computational Vision and Business Intelligence in the Beauty Segment – An Analysis through Instagram" (PDF). Journal of Marketing Management (në anglisht). American Research Institute for Policy Development. Arkivuar nga origjinali më 11 mars 2024. Marrë më 11 mars 2024.
- 1 2 3 Soltani, A. A.; Huang, H.; Wu, J.; Kulkarni, T. D.; Tenenbaum, J. B. (2017). "Synthesizing 3D Shapes via Modeling Multi-view Depth Maps and Silhouettes with Deep Generative Networks". 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (në anglisht). fq. 1511–1519. doi:10.1109/CVPR.2017.269. hdl:1721.1/126644. ISBN 978-1-5386-0457-1. S2CID 31373273.
- ↑ Turek, Fred (qershor 2011). "Machine Vision Fundamentals, How to Make Robots See". NASA Tech Briefs Magazine (në anglisht). 35 (6). pages 60–62
- ↑ "The Future of Automated Random Bin Picking" (në anglisht). Arkivuar nga origjinali më 2018-01-11. Marrë më 2018-01-10.
- ↑ Esteva, Andre; Chou, Katherine; Yeung, Serena; Naik, Nikhil; Madani, Ali; Mottaghi, Ali; Liu, Yun; Topol, Eric; Dean, Jeff; Socher, Richard (2021-01-08). "Deep learning-enabled medical computer vision". npj Digital Medicine (në anglisht). 4 (1): 5. doi:10.1038/s41746-020-00376-2. ISSN 2398-6352. PMC 7794558. PMID 33420381.
- ↑ Chervyakov, N. I.; Lyakhov, P. A.; Deryabin, M. A.; Nagornov, N. N.; Valueva, M. V.; Valuev, G. V. (2020). "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network". Neurocomputing (në anglisht). 407: 439–453. doi:10.1016/j.neucom.2020.04.018. S2CID 219470398.
Convolutional neural networks (CNNs) represent deep learning architectures that are currently used in a wide range of applications, including computer vision, speech recognition, identification of albuminous sequences in bioinformatics, production control, time series analysis in finance, and many others.
- ↑ Wäldchen, Jana; Mäder, Patrick (2017-01-07). "Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review". Archives of Computational Methods in Engineering (në anglisht). 25 (2): 507–543. doi:10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396. PMID 29962832.
- ↑ Aghamohammadesmaeilketabforoosh, Kimia; Nikan, Soodeh; Antonini, Giorgio; Pearce, Joshua M. (janar 2024). "Optimizing Strawberry Disease and Quality Detection with Vision Transformers and Attention-Based Convolutional Neural Networks". Foods (në anglisht). 13 (12): 1869. doi:10.3390/foods13121869.
- ↑ "New AI model developed at Western detects strawberry diseases, takes aim at waste" (në anglisht). 2024-09-13. Marrë më 2024-09-19.
- ↑ "Applications of Computer Vision". GeeksforGeeks (në anglisht). 2020-06-30. Marrë më 2025-04-27.
- ↑ "Global Industrial Machine Vision Market Growth Analysis – Size and Forecast 2024–2028". www.technavio.com (në anglisht). Marrë më 2025-05-14.
- ↑ Laviola, Erin. "What Is Computer Vision and How Is It Being Used in Healthcare?". HealthTech (në anglisht). Marrë më 2025-05-14.
- ↑ "Computer Vision – Artificial intelligence in military market outlook". www.grandviewresearch.com (në anglisht). Marrë më 2025-05-14.
- ↑ Li, Mengfang; Jiang, Yuanyuan; Zhang, Yanzhou; Zhu, Haisheng (2023). "Medical image analysis using deep learning algorithms". Frontiers in Public Health (në anglisht). 11 1273253. Bibcode:2023FrPH...1173253L. doi:10.3389/fpubh.2023.1273253. ISSN 2296-2565. PMC 10662291. PMID 38026291.
- 1 2 3 4 5 6 E. Roy Davies (2005). Machine Vision: Theory, Algorithms, Practicalities (në anglisht). Morgan Kaufmann. ISBN 978-0-12-206093-9.
- ↑ Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020-03-03). "Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces". ROBOMECH Journal (në anglisht). 7 (1): 11. doi:10.1186/s40648-020-00159-0. ISSN 2197-4225.
- ↑ Choi, Seung-hyun; Tahara, Kenji (2020-03-12). "Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors". ROBOMECH Journal (në anglisht). 7 (1): 14. doi:10.1186/s40648-020-00162-5. ISSN 2197-4225.
- ↑ Garg, Hitendra (2020-02-29). "Drowsiness Detection of a Driver using Conventional Computer Vision Application". 2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and its Control (PARC) (në anglisht). fq. 50–53. doi:10.1109/PARC49193.2020.236556. ISBN 978-1-72816-575-2. S2CID 218564267.
- ↑ Hasan, Fudail; Kashevnik, Alexey (2021-05-14). "State-of-the-Art Analysis of Modern Drowsiness Detection Algorithms Based on Computer Vision". 2021 29th Conference of Open Innovations Association (FRUCT) (në anglisht). fq. 141–149. doi:10.23919/FRUCT52173.2021.9435480. ISBN 978-952-69244-5-8. S2CID 235207036. Arkivuar nga origjinali më 2022-06-27. Marrë më 2022-11-06.
- ↑ Balasundaram, A; Ashokkumar, S; Kothandaraman, D; kora, SeenaNaik; Sudarshan, E; Harshaverdhan, A (2020-12-01). "Computer vision based fatigue detection using facial parameters". IOP Conference Series: Materials Science and Engineering (në anglisht). 981 (2) 022005. Bibcode:2020MS&E..981b2005B. doi:10.1088/1757-899x/981/2/022005. ISSN 1757-899X. S2CID 230639179.
- 1 2 Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Automated particle tracking to obtain population counts and size distributions from videos in r". Methods in Ecology and Evolution (në anglisht). 9 (4): 965–973. Bibcode:2018MEcEv...9..965B. doi:10.1111/2041-210X.12975. hdl:2066/184075. ISSN 2041-210X.
- ↑ David A. Forsyth; Jean Ponce (2003). Computer Vision, A Modern Approach (në anglisht). Prentice Hall. ISBN 978-0-13-085198-7.
- ↑ Forsyth, David; Ponce, Jean (2012). Computer vision: a modern approach (në anglisht). Pearson.
- 1 2 Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C. (dhjetor 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision (në anglisht). 115 (3): 211–252. arXiv:1409.0575. doi:10.1007/s11263-015-0816-y. hdl:1721.1/104944. ISSN 0920-5691. S2CID 2930547. Arkivuar nga origjinali më 2023-03-15. Marrë më 2020-11-20.
- ↑ Quinn, Arthur (2022-10-09). "AI Image Recognition: Inevitable Trending of Modern Lifestyle". TopTen.ai (në anglisht). Arkivuar nga origjinali më 2022-12-02. Marrë më 2022-12-23.
- ↑ Barrett, Lisa Feldman; Adolphs, Ralph; Marsella, Stacy; Martinez, Aleix M.; Pollak, Seth D. (korrik 2019). "Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements". Psychological Science in the Public Interest (në anglisht). 20 (1): 1–68. doi:10.1177/1529100619832930. ISSN 1529-1006. PMC 6640856. PMID 31313636.
- ↑ A. Maity (2015). "Improvised Salient Object Detection and Manipulation" (në anglisht). arXiv:1511.02999 [cs.CV].
- ↑ Barghout, Lauren. "Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions Arkivuar 2018-11-14 tek Wayback Machine." Information Processing and Management of Uncertainty in Knowledge-Based Systems. Springer International Publishing, 2014.
- ↑ Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks" (PDF). IEEE Transactions on Image Processing (në anglisht). 27 (12): 5840–5853. Bibcode:2018ITIP...27.5840L. doi:10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300. S2CID 51867241. Arkivuar nga origjinali (PDF) më 2018-09-07. Marrë më 2018-09-14.
- ↑ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Sensors (në anglisht). 18 (5): 1657. Bibcode:2018Senso..18.1657W. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447. Arkivuar (PDF) nga origjinali më 2018-09-07.
- ↑ Shapiro, Stuart C. (1992). Encyclopedia of Artificial Intelligence, Volume 1 (në anglisht). New York: John Wiley & Sons, Inc. fq. 643–646. ISBN 978-0-471-50306-4.
- ↑ Kagami, Shingo (2010). "High-speed vision systems and projectors for real-time perception of the world". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition – Workshops (në anglisht). Vëll. 2010. fq. 100–107. doi:10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. S2CID 14111100.
- ↑ Seth Colaner (3 janar 2016). "A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU". www.tomshardware.com (në anglisht). Arkivuar nga origjinali më 15 mars 2023. Marrë më 3 maj 2016.
Lexime të mëtejshme
[Redakto | Redakto nëpërmjet kodit]- James E. Dobson (2023). The Birth of Computer Vision (në anglisht). University of Minnesota Press. ISBN 978-1-5179-1421-9.
- David Marr (1982). Vision (në anglisht). W. H. Freeman and Company. ISBN 978-0-7167-1284-8.
- Azriel Rosenfeld; Avinash Kak (1982). Digital Picture Processing (në anglisht). Academic Press. ISBN 978-0-12-597301-4.
- Barghout, Lauren; Lawrence W. Lee (2003). Perceptual information processing system (në anglisht). U.S. Patent Application 10/618,543. ISBN 978-0-262-08159-7.
- Berthold K.P. Horn (1986). Robot Vision (në anglisht). MIT Press. ISBN 978-0-262-08159-7.
- Michael C. Fairhurst (1988). Computer Vision for robotic systems (në anglisht). Prentice Hall. ISBN 978-0-13-166919-2.
- Olivier Faugeras (1993). Three-Dimensional Computer Vision, A Geometric Viewpoint (në anglisht). MIT Press. ISBN 978-0-262-06158-2.
- Tony Lindeberg (1994). Scale-Space Theory in Computer Vision (në anglisht). Springer. ISBN 978-0-7923-9418-1.
- James L. Crowley; Henrik I. Christensen, red. (1995). Vision as Process (në anglisht). Springer-Verlag. ISBN 978-3-540-58143-7.
- Gösta H. Granlund; Hans Knutsson (1995). Signal Processing for Computer Vision (në anglisht). Kluwer Academic Publisher. ISBN 978-0-7923-9530-0.
- Reinhard Klette; Karsten Schluens; Andreas Koschan (1998). Computer Vision – Three-Dimensional Data from Images (në anglisht). Springer, Singapore. ISBN 978-981-3083-71-4.
- Emanuele Trucco; Alessandro Verri (1998). Introductory Techniques for 3-D Computer Vision (në anglisht). Prentice Hall. ISBN 978-0-13-261108-4.
- Bernd Jähne (2002). Digital Image Processing (në anglisht). Springer. ISBN 978-3-540-67754-3.
- Richard Hartley and Andrew Zisserman (2003). Multiple View Geometry in Computer Vision (në anglisht). Cambridge University Press. ISBN 978-0-521-54051-3.
- Gérard Medioni; Sing Bing Kang (2004). Emerging Topics in Computer Vision (në anglisht). Prentice Hall. ISBN 978-0-13-101366-7.
- R. Fisher; K Dawson-Howe; A. Fitzgibbon; C. Robertson; E. Trucco (2005). Dictionary of Computer Vision and Image Processing (në anglisht). John Wiley. ISBN 978-0-470-01526-1.
- Nikos Paragios and Yunmei Chen and Olivier Faugeras (2005). Handbook of Mathematical Models in Computer Vision (në anglisht). Springer. ISBN 978-0-387-26371-7.
- Wilhelm Burger; Mark J. Burge (2007). Digital Image Processing: An Algorithmic Approach Using Java (në anglisht). Springer. ISBN 978-1-84628-379-6. Arkivuar nga origjinali më 2014-05-17. Marrë më 2007-06-13.
- Pedram Azad; Tilo Gockel; Rüdiger Dillmann (2008). Computer Vision – Principles and Practice (në anglisht). Elektor International Media BV. ISBN 978-0-905705-71-2.
- Richard Szeliski (2010). Computer Vision: Algorithms and Applications (në anglisht). Springer-Verlag. ISBN 978-1-84882-934-3.
- J. R. Parker (2011). Algorithms for Image Processing and Computer Vision (në anglisht) (bot. 2nd). Wiley. ISBN 978-0-470-64385-3.
- Richard J. Radke (2013). Computer Vision for Visual Effects (në anglisht). Cambridge University Press. ISBN 978-0-521-76687-6.
- Nixon, Mark; Aguado, Alberto (2019). Feature Extraction and Image Processing for Computer Vision (në anglisht) (bot. 4th). Academic Press. ISBN 978-0-12-814976-8.
Lidhje të jashtme
[Redakto | Redakto nëpërmjet kodit]- USC Iris computer vision conference list
- Computer vision papers on the web – a complete list of papers of the most relevant computer vision conferences.
- Computer Vision Online Arkivuar 2011-11-30 tek Wayback Machine – news, source code, datasets and job offers related to computer vision
- CVonline – Bob Fisher's Compendium of Computer Vision.
- British Machine Vision Association – supporting computer vision research within the UK via the BMVC and MIUA conferences, Annals of the BMVA (open-source journal), BMVA Summer School and one-day meetings
- Computer Vision Container, Joe Hoeller GitHub: Widely adopted open-source container for GPU accelerated computer vision applications. Used by researchers, universities, private companies, as well as the U.S. Gov't.
- Vetitë CS1: Adresë e papërshtatshme
- Artikuj me deklarata pa burim informacioni
- Pages using reflist with unknown parameters
- Përpunim i imazhit
- Artikuj që përmbajnë klip video
- Makineri paketimi
- Përpunimi i imazheve
- Vizion kompjuterik
- Artikuj me përmbledhje
- Faqet që përdorin imazhe multiple me imazhe të shkallëzuara automatikisht
- Faqet që përdorin div col me parametrin e vogël