Vlerësimi arsimor

Vlerësimi arsimor është procesi sistematik i dokumentimit dhe përdorimit të të dhënave empirike mbi njohuritë, aftësitë, qëndrimet, aftësitë dhe besimet për të përmirësuar programet dhe për të përmirësuar të nxënit e studentëve. ^[1] Të dhënat e vlerësimit mund të merren duke ekzaminuar drejtpërdrejt punën e nxënësve për të vlerësuar arritjet e rezultateve të të nxënit ose bazohen në të dhëna nga të cilat mund të nxirren përfundime rreth të nxënit. ^[2] Vlerësimi shpesh përdoret në mënyrë të ndërsjellë me testin, por nuk kufizohet në teste. Vlerësimi mund të përqendrohet tek nxënësi individual, komuniteti i të mësuarit (klasa, seminari ose grupi tjetër i organizuar i nxënësve), një kurs, një program akademik, institucioni ose sistemi arsimor në tërësi (i njohur gjithashtu si granularitet). Fjala "vlerësim" hyri në përdorim në një kontekst arsimor pas Luftës së Dytë Botërore . ^[3]

Si një proces i vazhdueshëm, vlerësimi krijon rezultate të matshme të të nxënit të studentëve, ofron një sasi të mjaftueshme mundësish mësimi për të arritur këto rezultate, zbaton një mënyrë sistematike të mbledhjes, analizimit dhe interpretimit të provave për të përcaktuar se sa mirë të nxënit e studentëve përputhet me pritshmëritë dhe përdor informacionin e mbledhur për të. japin komente për përmirësimin e të nxënit të nxënësve. ^[4] Vlerësimi është një aspekt i rëndësishëm i procesit arsimor i cili përcakton nivelin e arritjeve të nxënësve. ^[5]

Qëllimi përfundimtar i praktikave të vlerësimit në arsim varet nga kuadri teorik i praktikuesve dhe studiuesve, supozimet dhe besimet e tyre për natyrën e mendjes njerëzore, origjinën e njohurive dhe procesin e të mësuarit.

Llojet

Termi vlerësim përdoret në përgjithësi për t'iu referuar të gjitha aktiviteteve që mësuesit përdorin për të ndihmuar studentët të mësojnë dhe për të matur përparimin e nxënësve. Vlerësimi mund të ndahet për hir të lehtësisë duke përdorur kategorizimet e mëposhtme:

Vlerësimi vendosës, formues, përmbledhës dhe diagnostik
Objektiv dhe subjektiv
Referencimi (referencuar me kriter, referuar normë dhe ipsative (zgjedhje e detyruar) )
Informale dhe formale
E brendshme dhe e jashtme

Llojet themelore

Vlerësimi shpesh ndahet në kategori fillestare e që janë: vlerësimi vendosës, formuese, përmbledhëse dhe diagnostik me qëllim të shqyrtimit të objektivave të ndryshëm për praktikat e vlerësimit.

(1) Vlerësimi i vendosjes – Vlerësimi i vendosjes mund të përdoret për të vendosur studentët sipas arritjeve paraprake ose nivelit të njohurive, ose karakteristikave personale, në pikën më të përshtatshme në një sekuencë mësimore, në një strategji unike mësimore ose me një mësues të përshtatshëm ^[6] kryhet nëpërmjet testimit të vendosjes, dmth. testeve që kolegjet dhe universitetet përdorin për të vlerësuar gatishmërinë e kolegjit dhe për t'i vendosur studentët në klasat e tyre fillestare. Vlerësimi i vendosjes, i referuar gjithashtu si para-vlerësim, vlerësim fillestar ose test i njohurive të pragut (TKT), kryhet përpara udhëzimit ose ndërhyrjes për të vendosur një bazë bazë nga e cila mund të matet rritja individuale e studentëve. Ky lloj vlerësimi përdoret për të ditur se cili është niveli i aftësive të nxënësit në lidhje me lëndën, gjithashtu mund të ndihmojë mësuesin të shpjegojë materialin në mënyrë më efikase. Këto vlerësime në përgjithësi nuk vlerësohen. ^[7]

(2) Vlerësimi formativ – Ky përgjithësisht kryhet përgjatë një kursi ose projekti. Ai gjithashtu quhet "vlerësim edukativ", i cili përdoret për të ndihmuar të mësuarit. Në një mjedis edukativ, një vlerësim formues mund të jetë një mësues (ose bashkëmoshatar ) ose nxënësi (p.sh., nëpërmjet një vetëvlerësimi ), duke ofruar komente për punën e një studenti dhe nuk do të përdoret domosdoshmërisht për qëllime të vlerësimit. . Vlerësimet formuese mund të marrin formën e testeve diagnostikuese, të standardizuara, kuizeve, pyetjeve me gojë ose projekteve. Vlerësimet formuese kryhen njëkohësisht me udhëzimet dhe rezultatet mund të vlejnë. Qëllimi i vlerësimeve formuese është të shihet nëse nxënësit e kuptojnë udhëzimin përpara se të bëjnë një vlerësim përmbledhës. ^[7]

(3) Vlerësimi përmbledhës – Ky përgjithësisht kryhet në fund të një kursi ose projekti. Në një mjedis arsimor, vlerësimet përmbledhëse zakonisht përdoren për t'u caktuar studentëve një notë kursi dhe janë vlerësuese. Vlerësimet përmbledhëse bëhen për të përmbledhur atë që nxënësit kanë mësuar në mënyrë që të dihet nëse ata e kuptojnë mirë lëndën. Ky lloj vlerësimi zakonisht vlerësohet (p.sh. kaloj/dështon, 0–100) dhe mund të marrë formën e testeve, provimeve ose projekteve. Vlerësimet përmbledhëse në thelb përdoren për të përcaktuar nëse një student ka kaluar ose ka dështuar një klasë. Një kritikë ndaj vlerësimeve përmbledhëse është se ato janë reduktuese dhe nxënësit zbulojnë se sa mirë e kanë marrë njohurinë shumë vonë për t'u përdorur. ^[7]

(4) Vlerësimi diagnostik – Në fund, vlerësimi diagnostik përqendrohet në të gjitha vështirësitë që kanë ndodhur gjatë procesit mësimor.

Jay McTighe dhe Ken O'Connor propozuan shtatë praktika për të mësuarit efektiv. ^[7] Njëra prej tyre ka të bëjë me shfaqjen e kritereve të vlerësimit përpara testit dhe një tjetër rëndësinë e paravlerësimit për të ditur se cilat janë nivelet e aftësive të një studenti përpara se të japë udhëzime. Dhënia e shumë komenteve dhe inkurajimeve janë praktika të tjera.

Studiuesi arsimor Robert Stake ^[8] shpjegon ndryshimin midis vlerësimit formues dhe atij përmbledhës me analogjinë e mëposhtme:

Kur kuzhinieri shijon supën, kjo është formuese. Kur të ftuarit shijojnë supën, kjo është përmbledhëse.

Vlerësimi përmbledhës dhe formues shpesh referohen në një kontekst mësimor si vlerësim i të nxënit dhe vlerësim për të nxënit respektivisht. Vlerësimi i të nxënit është përgjithësisht i natyrës përmbledhëse dhe synon të masë rezultatet e të nxënit dhe t'i raportojë ato rezultate nxënësve, prindërve dhe administratorëve. Vlerësimi i të nxënit më së shumti ndodh në përfundim të një klase, kursi, semestri ose viti akademik ndërsa vlerësimi për të nxënit është përgjithësisht i natyrës formuese dhe përdoret nga mësuesit për të marrë në konsideratë qasjet ndaj mësimdhënies dhe hapat e ardhshëm për nxënësit individualë dhe klasën.

Një formë e zakonshme e vlerësimit formues është vlerësimi diagnostik . Vlerësimi diagnostik mat njohuritë dhe aftësitë aktuale të studentit me qëllim të identifikimit të një programi të përshtatshëm të të mësuarit. Vetë-vlerësimi është një formë e vlerësimit diagnostik që përfshin studentët të vlerësojnë veten e tyre.

Vlerësimi largpamës u kërkon atyre që vlerësohen të konsiderojnë veten në situata hipotetike të së ardhmes.

Vlerësimi i bazuar në performancë është i ngjashëm me vlerësimin përmbledhës, pasi fokusohet në arritje. Shpesh është në linjë me reformën arsimore të bazuar në standarde dhe lëvizjen arsimore të bazuar në rezultate . Megjithëse në mënyrë ideale, ato janë dukshëm të ndryshme nga një test tradicional me zgjedhje të shumëfishta, ato shoqërohen më së shpeshti me vlerësimin e bazuar në standarde të cilat përdorin përgjigje të formës së lirë për pyetjet standarde të shënuara nga pikëzuesit njerëz në një shkallë të bazuar në standarde, duke përmbushur, duke rënë poshtë ose tejkaluar. një standard i performancës në vend që të renditet në një kurbë. Identifikohet një detyrë e përcaktuar mirë dhe nxënësve u kërkohet të krijojnë, prodhojnë ose bëjnë diçka shpesh në mjedise që përfshijnë zbatimin e njohurive dhe aftësive në botën reale. Aftësia demonstrohet duke ofruar një përgjigje të zgjeruar. Formatet e performancës klasifikohen më tej në produkte dhe performanca. Performanca mund të rezultojë në një produkt, të tillë si një pikturë, portofol, letër ose ekspozitë, ose mund të përbëhet nga një performancë, si një fjalim, aftësi atletike, recital muzikor ose lexim.

Objektiv dhe subjektiv

Vlerësimi (qoftë përmbledhës ose formues) shpesh kategorizohet si objektiv ose subjektiv. Vlerësimi objektiv është një formë e pyetjeve e cila ka një përgjigje të vetme të saktë. Vlerësimi subjektiv është një formë pyetjesh e cila mund të ketë më shumë se një përgjigje të saktë (ose më shumë se një mënyrë për të shprehur përgjigjen e saktë). Ekzistojnë lloje të ndryshme pyetjesh objektive dhe subjektive. Llojet e pyetjeve objektive përfshijnë përgjigjet e vërteta / të rreme, me zgjedhje të shumëfishta, pyetje me përgjigje të shumëfishta dhe pyetje që përputhen, ndërsa pyetjet subjektive përfshijnë pyetje dhe ese me përgjigje të zgjeruar. Vlerësimi objektiv është i përshtatshëm për formatin gjithnjë e më të popullarizuar të vlerësimit të kompjuterizuar ose online .

Disa kanë argumentuar se dallimi midis vlerësimeve objektive dhe subjektive nuk është as i dobishëm dhe as i saktë, sepse, në realitet, nuk ekziston gjë e tillë si vlerësim "objektiv". Në fakt, të gjitha vlerësimet krijohen me paragjykime të natyrshme të ndërtuara në vendimet për lëndën dhe përmbajtjen përkatëse, si dhe paragjykimet kulturore (klasore, etnike dhe gjinore).

Baza e krahasimit

Rezultatet e testit mund të krahasohen me një kriter të vendosur, ose me performancën e studentëve të tjerë, ose me performancën e mëparshme:

(5) Vlerësimi i referuar në kriter, zakonisht duke përdorur një test të referuar me kriter, siç nënkupton edhe emri, ndodh kur kandidatët maten kundrejt kritereve të përcaktuara (dhe objektive). Vlerësimi i referuar në kriter përdoret shpesh, por jo gjithmonë, për të përcaktuar kompetencën e një personi (nëse ai/ajo mund të bëjë diçka). Shembulli më i njohur i vlerësimit të referuar me kriter është testi i drejtimit të mjetit kur drejtuesit e nxënësve maten me një sërë kriteresh të qarta (si p.sh. "Mos rrezikimi i përdoruesve të tjerë të rrugës").

(6) Vlerësimi i referuar në normë (i njohur në bisedë si " gradimi në kurbë "), zakonisht duke përdorur një test të referuar në normë, nuk matet me kritere të përcaktuara. Ky lloj vlerësimi lidhet me trupin studentor që bën vlerësimin, në mënyrë efektive është një mënyrë për të krahasuar studentët. Testi IQ është shembulli më i njohur i vlerësimit të referuar në norma. Shumë teste pranimi (për shkollat apo universitetet prestigjioze) janë të referuara me norma, duke lejuar që një pjesë fikse e studentëve të kalojnë ("kalimi" në këtë kontekst do të thotë të pranohen në shkollë ose universitet dhe jo një nivel të qartë aftësie). Kjo do të thotë se standardet mund të ndryshojnë nga viti në vit në varësi të cilësisë së grupit; Vlerësimi i referuar në kriter nuk ndryshon nga viti në vit (përveç nëse ndryshojnë kriteret).

(7) Vlerësimi Ipsativ është vetë-krahasim ose në të njëjtin fushë me kalimin e kohës, ose krahasues me fusha të tjera brenda të njëjtit student.

Formal dhe joformale

Vlerësimi mund të jetë formal ose joformal . Vlerësimi formal zakonisht nënkupton një dokument të shkruar, të tillë si një test, kuiz ose letër. Një vlerësimi formal i jepet një pikë ose notë numerike bazuar në performancën e studentit, ndërsa një vlerësim joformal nuk kontribuon në notën përfundimtare të studentit. Një vlerësim jozyrtar zakonisht ndodh në një mënyrë më të rastësishme dhe mund të përfshijë vëzhgim, inventarë, lista kontrolli, shkallë vlerësimi, rubrika, vlerësime të performancës dhe portofolit, pjesëmarrje, vlerësim nga kolegët dhe vetëvlerësimi dhe diskutim.

Vlerësimi i brendshme dhe i jashtëm

Vlerësimi i brendshëm vendoset dhe shënohet nga shkolla (p.sh. mësuesit), nxënësit marrin notën dhe komentet në lidhje me vlerësimin. Vlerësimi i jashtëm vendoset nga organi qeverisës dhe shënohet nga personel i paanshëm, disa vlerësime të jashtme japin reagime shumë më të kufizuara në vlerësimin e tyre. Megjithatë, në teste të tilla si NAPLAN i Australisë, kriterit të trajtuar nga studentët i jepet reagime të detajuara në mënyrë që mësuesit e tyre të trajtojnë dhe të krahasojnë arritjet e të nxënit të nxënësve dhe gjithashtu të planifikojnë për të ardhmen.

Standardet e cilësisë

Në përgjithësi, vlerësimet me cilësi të lartë konsiderohen ato me një nivel të lartë besueshmërie dhe vlefshmërie . Parime të tjera të përgjithshme janë prakticiteti, autenticiteti dhe rikthimi. ^[9] ^[10]

Besueshmëria

Besueshmëria lidhet me qëndrueshmërinë e një vlerësimi. Një vlerësim i besueshëm është ai që arrin vazhdimisht të njëjtat rezultate me të njëjtën grup (ose të ngjashëm) nxënësish. Faktorë të ndryshëm ndikojnë në besueshmërinë – duke përfshirë pyetjet e paqarta, shumë opsione brenda një flete pyetje, udhëzime të paqarta për shënimin dhe shënues të trajnuar dobët. Tradicionalisht, besueshmëria e një vlerësimi bazohet në sa vijon:

Stabiliteti i përkohshëm: Performanca në një test është e krahasueshme në dy ose më shumë raste të veçanta.
Ekuivalenca e formularit: Performanca midis të ekzaminuarve është ekuivalente në forma të ndryshme të një testi bazuar në të njëjtën përmbajtje.
Konsistenca e brendshme: Përgjigjet në një test janë të qëndrueshme në të gjitha pyetjet. Për shembull: Në një anketë që u kërkon të anketuarve të vlerësojnë qëndrimet ndaj teknologjisë, do të pritej qëndrueshmëri në përgjigjet ndaj pyetjeve të mëposhtme:
- "Ndihem shumë negativ për kompjuterët në përgjithësi."
- “Më pëlqen të përdor kompjuterë”.

Besueshmëria e një matjeje x mund të përcaktohet gjithashtu në mënyrë sasiore si: $R_{\text{x}}=V_{\text{t}}/V_{\text{x}}$ ku $R_{\text{x}}$ është besueshmëria në rezultatin e vëzhguar (test), x; $V_{\text{t}}$ dhe $V_{\text{x}}$ janë ndryshueshmëria në 'vërtetë' (dmth, performanca e lindur e kandidatit) dhe rezultatet e matura të testit përkatësisht. $R_{\text{x}}$ mund të variojë nga 0 (plotësisht i pabesueshëm), në 1 (plotësisht i besueshëm).

Ekzistojnë katër lloje besueshmërie: të lidhura me studentin që mund të jenë probleme personale, sëmundje ose lodhje, të lidhura me vlerësuesin që përfshin paragjykimet dhe subjektivitetin, të lidhura me administrimin e testit që janë kushtet e procesit të marrjes së testit, të lidhura me testin që lidhet në thelb. për natyrën e një testi. ^[11] ^[9] ^[12]

Vlefshmëria

Vlerësimi i vlefshëm është ai që mat atë që synohet të matë. Për shembull, nuk do të ishte e vlefshme të vlerësoheshin aftësitë e vozitjes vetëm përmes një testi me shkrim. Një mënyrë më e vlefshme për të vlerësuar aftësitë e drejtimit do të ishte përmes një kombinimi testesh që ndihmojnë në përcaktimin se çfarë di një shofer, si p.sh. përmes një testi me shkrim të njohurive për drejtimin e automjeteve, dhe atë që një shofer është në gjendje të bëjë, si p.sh. përmes një vlerësimi të performancës aktuale. ngarje. Mësuesit shpesh ankohen se disa provime nuk vlerësojnë siç duhet planprogramin mbi të cilin bazohet provimi; ata, në fakt, po vënë në dyshim vlefshmërinë e provimit.

Vlefshmëria e një vlerësimi përgjithësisht matet përmes ekzaminimit të provave në kategoritë e mëposhtme:

Vlefshmëria e përmbajtjes – A përcakton objektivat përmbajtja e masës së testit?
Vlefshmëria e kriterit – A lidhen rezultatet me një referencë të jashtme? (p.sh.: A e parashikojnë me saktësi aftësinë e të lexuarit në klasat e ardhshme rezultatet e larta në një test leximi të klasës së 4-të?)
Vlefshmëria e konstruksionit – A korrespondon vlerësimi me variabla të tjerë të rëndësishëm? (p.sh.: A performojnë vazhdimisht studentët e ESL ndryshe në një provim me shkrim sesa folësit e gjuhës angleze?) ^[13]

Të tjerat janë: ^[9] ^[11]

vlefshmëria konsekuente
vlefshmëria e fytyrës

Një vlerësim i mirë ka edhe vlefshmëri edhe besueshmëri, plus atributet e tjera të cilësisë të përmendura më lart për një kontekst dhe qëllim specifik. Në praktikë, një vlerësim rrallëherë është plotësisht i vlefshëm ose plotësisht i besueshëm. Një vizore që është shënuar gabim do të japë gjithmonë të njëjtat matje (të gabuara). Është shumë i besueshëm, por jo shumë i vlefshëm. Kërkimi i individëve të rastësishëm për të treguar orën pa shikuar orën ose orën përdoret ndonjëherë si një shembull i një vlerësimi që është i vlefshëm, por jo i besueshëm. Përgjigjet do të ndryshojnë midis individëve, por përgjigja mesatare është ndoshta afër kohës aktuale. Në shumë fusha, të tilla si kërkimi mjekësor, testimi arsimor dhe psikologjia, shpesh do të ketë një shkëmbim midis besueshmërisë dhe vlefshmërisë. Një test historie i shkruar për vlefshmëri të lartë do të ketë shumë pyetje ese dhe plotësuese. Do të jetë një masë e mirë e zotërimit të lëndës, por e vështirë për të shënuar plotësisht saktë. Një test historik i shkruar për besueshmëri të lartë do të jetë tërësisht me shumë zgjedhje. Nuk është aq i mirë në matjen e njohurive të historisë, por mund të shënohet lehtësisht me saktësi të madhe. Nga kjo mund të përgjithësojmë. Sa më i besueshëm të jetë vlerësimi ynë për atë që synojmë të masim, aq më pak të sigurt jemi se po matim në të vërtetë atë aspekt të arritjes.

Është mirë të bëhet dallimi midis vlefshmërisë së "subjektit" dhe vlefshmërisë "parashikuese". E para, e përdorur gjerësisht në arsim, parashikon rezultatin që një student do të merrte në një test të ngjashëm, por me pyetje të ndryshme. Kjo e fundit, e përdorur gjerësisht në vendin e punës, parashikon performancën. Kështu, një test i vlefshëm i njohurive për rregullat e drejtimit të automjetit është i përshtatshëm, ndërsa një test i vlefshëm parashikues do të vlerësonte nëse shoferi i mundshëm mund t'i zbatonte ato rregulla.

Prakticiteti

Ky parim i referohet kufizimeve kohore dhe kostos gjatë ndërtimit dhe administrimit të një instrumenti vlerësimi. ^[9] Do të thotë se testi duhet të jetë ekonomik për t'u ofruar. Formati i testit duhet të jetë i thjeshtë për t'u kuptuar. Për më tepër, zgjidhja e një testi duhet të mbetet brenda një kohe të përshtatshme. Në përgjithësi është e thjeshtë për t'u administruar. Procedura e vlerësimit të saj duhet të jetë e veçantë dhe me efikasitet në kohë. ^[12]

Autenticiteti

Instrumenti i vlerësimit është autentik kur është i kontekstualizuar, përmban gjuhë të natyrshme dhe temë kuptimplote, relevante dhe interesante, dhe përsërit përvojat e botës reale. ^[9]

Washback

Ky parim i referohet pasojave të një vlerësimi të mësimdhënies dhe të nxënit brenda klasave. ^[9] Washback mund të jetë pozitiv dhe negativ. Pastrimi pozitiv i referohet efekteve të dëshiruara të një testi, ndërsa kthimi negativ i referohet pasojave negative të një testi. Për të pasur kthim pozitiv, mund të përdoret planifikimi mësimor. ^[14]

Standardet e vlerësimit

Në fushën e vlerësimit, dhe në veçanti të vlerësimit arsimor në Amerikën e Veriut, Komiteti i Përbashkët për Standardet për Vlerësimin Arsimor ka publikuar tre grupe standardesh për vlerësime. Standardet e Vlerësimit të Personelit u botuan në 1988, Standardet e Vlerësimit të Programit (botimi i dytë) u botuan në 1994, dhe Standardet e Vlerësimit të Studentëve u botuan në 2003.

Çdo botim paraqet dhe shtjellon një sërë standardesh për përdorim në një sërë mjedisesh arsimore. Standardet ofrojnë udhëzime për hartimin, zbatimin, vlerësimin dhe përmirësimin e formës së identifikuar të vlerësimit. Secili prej standardeve është vendosur në një nga katër kategoritë themelore për të promovuar vlerësimet arsimore që janë të duhura, të dobishme, të realizueshme dhe të sakta. Në këto grupe standardesh, konsideratat e vlefshmërisë dhe besueshmërisë mbulohen nën temën e saktësisë. Për shembull, standardet e saktësisë së studentëve ndihmojnë për t'u siguruar që vlerësimet e studentëve do të ofrojnë informacion të shëndoshë, të saktë dhe të besueshëm rreth mësimit dhe performancës së studentëve.

Në Mbretërinë e Bashkuar, një çmim në trajnimin, vlerësimin dhe sigurimin e cilësisë (TAQA) është i disponueshëm për të ndihmuar stafin të mësojë dhe zhvillojë praktika të mira në lidhje me vlerësimin arsimor në kontekstet e arsimit dhe trajnimit të të rriturve, të mëtejshëm dhe të bazuar në punë.

Inflacioni i shkallës

Inflacioni i notave (i njohur gjithashtu si lehtësia e notimit) është dhënia e përgjithshme e notave më të larta për të njëjtën cilësi të punës me kalimin e kohës, gjë që zhvlerëson notat. Megjithatë, notat mesatare më të larta në vetvete nuk vërtetojnë inflacionin e notave. Që ky të jetë inflacion me notë, është e nevojshme të tregohet se cilësia e punës nuk e meriton notën e lartë.

Për shkak të inflacionit të notave, testet e standardizuara mund të kenë vlefshmëri më të lartë se rezultatet e provimeve të pa standardizuara. Rritja e kohëve të fundit e normave të diplomimit mund t'i atribuohet pjesërisht inflacionit të shkallës .

Shih edhe

Referime

^ Allen, M.J. (2004). Assessing Academic Programs in Higher Education. San Francisco: Jossey-Bass. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Kuh, G.D.; Jankowski, N.; Ikenberry, S.O. (2014). Knowing What Students Know and Can Do: The Current State of Learning Outcomes Assessment in U.S. Colleges and Universities (PDF). Urbana: University of Illinois and Indiana University, National Institute for Learning Outcomes Assessment. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Nelson, Robert; Dawson, Phillip (2014). "A contribution to the history of assessment: how a conversation simulator redeems Socratic method". Assessment & Evaluation in Higher Education. 39 (2): 195–204. doi:10.1080/02602938.2013.798394. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Suskie, Linda (2004). Assessing Student Learning. Bolton, MA: Anker. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Oxford Brookes University. "Purposes and principles of assessment". www.brookes.ac.uk (në anglisht). Arkivuar nga origjinali më 9 tetor 2018. Marrë më 9 tetor 2018.
^ Madaus, George F.; Airasian, Peter W. (30 nëntor 1969), Placement, Formative, Diagnostic, and Summative Evaluation of Classroom Learning {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ ^a ^b ^c ^d Mctighe, Jay; O'Connor, Ken (2005). "Seven practices for effective learning". Educational Leadership. 63 (3): 10–17. Arkivuar nga origjinali më 6 tetor 2019. Marrë më 3 mars 2017. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "Robert e. Stake, Director". Arkivuar nga origjinali më 8 shkurt 2009. Marrë më 29 janar 2009. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ ^a ^b ^c ^d ^e ^f Brown, Douglas; Abeywickrama, Priyanvada (2010). Language Assessment, Principles and Classroom Practices. The United States of America: Pearson Longman. ISBN 978-0-13-814931-4. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ Oxford Brookes University. "Principles of assessment". www.brookes.ac.uk (në anglisht). Marrë më 9 tetor 2018.
^ ^a ^b Fawcett, Alison (2013). Principles of Assessment and Outcome Measurement for Occupational Therapists and Physiotherapists: Theory, Skills and Application. John Wiley & Sons. ISBN 9781118709696. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ ^a ^b "Reliability, Validity and Practicality | Teach English | Englishpost.org". Englishpost.org (në anglishte amerikane). 26 qershor 2012. Marrë më 30 tetor 2018.
^ Moskal, Barbara; Leydens, Jon (23 nëntor 2019). "Scoring Rubric Development: Validity and Reliability". Practical Assessment, Research, and Evaluation. 7 (1). doi:10.7275/q7rm-gg74. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
^ "Understanding Assessment: Washback and Instructional Planning". www.cal.org. Marrë më 29 tetor 2018. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1] Allen, M.J. (2004). Assessing Academic Programs in Higher Education. San Francisco: Jossey-Bass. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[2] Kuh, G.D.; Jankowski, N.; Ikenberry, S.O. (2014). Knowing What Students Know and Can Do: The Current State of Learning Outcomes Assessment in U.S. Colleges and Universities (PDF). Urbana: University of Illinois and Indiana University, National Institute for Learning Outcomes Assessment. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[3] Nelson, Robert; Dawson, Phillip (2014). "A contribution to the history of assessment: how a conversation simulator redeems Socratic method". Assessment & Evaluation in Higher Education. 39 (2): 195–204. doi:10.1080/02602938.2013.798394. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[4] Suskie, Linda (2004). Assessing Student Learning. Bolton, MA: Anker. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[5] Oxford Brookes University. "Purposes and principles of assessment". www.brookes.ac.uk (në anglisht). Arkivuar nga origjinali më 9 tetor 2018. Marrë më 9 tetor 2018.

[6] Madaus, George F.; Airasian, Peter W. (30 nëntor 1969), Placement, Formative, Diagnostic, and Summative Evaluation of Classroom Learning {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[ReferenceA-7] Mctighe, Jay; O'Connor, Ken (2005). "Seven practices for effective learning". Educational Leadership. 63 (3): 10–17. Arkivuar nga origjinali më 6 tetor 2019. Marrë më 3 mars 2017. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[8] "Robert e. Stake, Director". Arkivuar nga origjinali më 8 shkurt 2009. Marrë më 29 janar 2009. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[:0a-9] ^ ^a ^b ^c ^d ^e ^f Brown, Douglas; Abeywickrama, Priyanvada (2010). Language Assessment, Principles and Classroom Practices. The United States of America: Pearson Longman. ISBN 978-0-13-814931-4. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[10] Oxford Brookes University. "Principles of assessment". www.brookes.ac.uk (në anglisht). Marrë më 9 tetor 2018.

[:1-11] Fawcett, Alison (2013). Principles of Assessment and Outcome Measurement for Occupational Therapists and Physiotherapists: Theory, Skills and Application. John Wiley & Sons. ISBN 9781118709696. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[:2-12] "Reliability, Validity and Practicality | Teach English | Englishpost.org". Englishpost.org (në anglishte amerikane). 26 qershor 2012. Marrë më 30 tetor 2018.

[Moskal,_Barbara_M.,_&_Leydens,_Jon_A-13] Moskal, Barbara; Leydens, Jon (23 nëntor 2019). "Scoring Rubric Development: Validity and Reliability". Practical Assessment, Research, and Evaluation. 7 (1). doi:10.7275/q7rm-gg74. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[14] "Understanding Assessment: Washback and Instructional Planning". www.cal.org. Marrë më 29 tetor 2018. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]