Korrelacioni

Në statistikë, korrelacioni ose varësia është çdo marrëdhënie statistikore, qoftë shkakësore ose jo, midis dy ndryshoreve të rastit ose të dhënave dyndryshore . Edhe pse në një kuptim më të gjerë, "korrelacioni" mund të tregojë çdo lloj shoqërimi, në statistika zakonisht i referohet shkallës në të cilën një palë ndryshoresh janë të lidhura në mënyrë lineare . Shembuj të njohur të dukurive të varura përfshijnë korrelacionin midis gjatësisë së prindërve dhe pasardhësve të tyre, dhe korrelacionin midis çmimit të një malli dhe sasisë që konsumatorët janë të gatshëm të blejnë, siç përshkruhet në të ashtuquajturën kurbë të kërkesës .

Korrelacionet janë të dobishme sepse ato mund të tregojnë një marrëdhënie parashikuese që mund të shfrytëzohet në praktikë. Për shembull, një ndërmarrje elektrike mund të prodhojë më pak energji në një ditë të butë bazuar në korrelacionin midis kërkesës për energji elektrike dhe motit. Në këtë shembull, ekziston një lidhje shkakësore, sepse moti ekstrem i bën njerëzit të përdorin më shumë energji elektrike për ngrohje ose ftohje. Megjithatë, në përgjithësi, prania e një korrelacioni nuk është e mjaftueshme për të dalë në përfundimin e pranisë së një marrëdhënieje shkakësore (dmth., korrelacioni nuk nënkupton shkakësinë ).

Formalisht, ndryshoret e rastit janë të varura nëse nuk plotësojnë një veti matematikore të pavarësisë probabilistike . Në gjuhën joformale, korrelacioni është sinonim i varësisë . Megjithatë, kur përdoret në një kuptim teknik, korrelacioni i referohet ndonjë prej disa llojeve specifike të veprimeve matematikore midis ndryshoreve të testuara dhe pritjes së tyre matematike përkatëse . Në thelb, korrelacioni është matja se si dy ose më shumë ndryshore lidhen me njëra-tjetrën. Ka disa koeficientë korrelacioni, shpesh të shënuar $\rho$ ose $r$ , duke matur shkallën e korrelacionit. Më i zakonshmi prej tyre është koeficienti i korrelacionit Pearson, i cili është i ndjeshëm vetëm ndaj një marrëdhënie lineare midis dy ndryshoreve (e cila mund të jetë e pranishme edhe kur njëra ndryshore është funksion jolinear i tjetrës). Koeficientët e tjerë të korrelacionit - siç është korrelacioni i gradës së Spearman - janë zhvilluar për të qenë më të fortë se ato të Pearson-it, domethënë më të ndjeshëm ndaj marrëdhënieve jolineare. Informacioni i ndërsjellë mund të përdoret gjithashtu për të matur varësinë midis dy ndryshoreve.

Koeficienti i Pirsonit

Masa më e njohur e varësisë midis dy madhësive është koeficienti i korrelacionit produkt-moment Pearson (PPMCC), ose "koeficienti i korrelacionit të Pearsonit", i quajtur zakonisht thjesht "koeficienti i korrelacionit". Përftohet duke marrë raportin e kovariancës së dy ndryshoreve në fjalë të të dhënave numerike, të normalizuar me rrënjën katrore të variancave të tyre. Matematikisht, thjesht ndahet kovarianca e dy ndryshoreve me produktin e shmangieve të tyre standarde . Karl Pearson zhvilloi koeficientin nga një ide e ngjashme por paksa e ndryshme e Francis Galtonit . ^[1]

Koeficienti i korrelacionit të popullsisë $\rho _{X,Y}$ ndërmjet dy ndryshoreve të rastit $X$ dhe $Y$ me pritje matematike $\mu _{X}$ dhe $\mu _{Y}$ dhe shmangie standarde $\sigma _{X}$ dhe $\sigma _{Y}$ përkufizohet si: $\rho _{X,Y}=\operatorname {corr} (X,Y)={\operatorname {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}},\quad {\text{if}}\ \sigma _{X}\sigma _{Y}>0.$ ku $\operatorname {E}$ është operatori i vlerës së pritur, $\operatorname {cov}$ do të thotë kovariancë, dhe $\operatorname {corr}$ është një shënim alternativ i përdorur gjerësisht për koeficientin e korrelacionit. Korrelacioni i Pirsonit përcaktohet vetëm nëse të dy shmangiet standarde janë të fundme dhe pozitive. Një formulë alternative thjesht për sa i përket momenteve është: $\rho _{X,Y}={\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y) \over {\sqrt {\operatorname {E} (X^{2})-\operatorname {E} (X)^{2}}}\cdot {\sqrt {\operatorname {E} (Y^{2})-\operatorname {E} (Y)^{2}}}}$

Korrelacioni dhe pavarësia

Është një pasojë e mosbarazimit Cauchy-Schwarz që vlera absolute e koeficientit të korrelacionit Pearson nuk është më e madhe se 1. Prandaj, vlera e një koeficienti korrelacioni varion midis -1 dhe +1. Koeficienti i korrelacionit është +1 në rastin e një marrëdhënieje të përsosur të drejtpërdrejtë (në rritje) lineare (korrelacion), -1 në rastin e një marrëdhënieje të përsosur të anasjelltë (në rënie) lineare ( anti-korrelacion ), dhe disa vlera në interval i hapur $(-1,1)$ në të gjitha rastet e tjera, duke treguar shkallën e varësisë lineare ndërmjet ndryshoreve. Ndërsa i afrohet zeros, ka më pak një marrëdhënie (më afër të palidhur). Sa më afër të jetë koeficienti me −1 ose 1, aq më i fortë është korrelacioni midis ndryshoreve.

Nëse ndryshoret janë të pavarura, koeficienti i korrelacionit të Pearson është 0, por e kundërta nuk është e vërtetë sepse koeficienti i korrelacionit zbulon vetëm varësi lineare midis dy ndryshoreve. ${\begin{aligned}X,Y{\text{ independent}}\quad &\Rightarrow \quad \rho _{X,Y}=0\quad (X,Y{\text{ uncorrelated}})\\\rho _{X,Y}=0\quad (X,Y{\text{ uncorrelated}})\quad &\nRightarrow \quad X,Y{\text{ independent}}\end{aligned}}$ Për shembull, supozojmë se ndryshorja e rastit $X$ shpërndahet në mënyrë simetrike rreth zero, dhe $Y=X^{2}$ . Atëherë $Y$ përcaktohet plotësisht nga $X$ , kështu që $X$ dhe $Y$ janë krejtësisht të varura, por korrelacioni i tyre është zero; ato janë të pakorreluara . Megjithatë, në rastin e veçantë kur $X$ dhe $Y$ janë bashkërisht normale, moskorrelacioni është i njëvlershëm me pavarësinë.

Koeficienti i korrelacionit të mostrës

Duke pasur parasysh një seri të $n$ matjesh të çiftit $(X_{i},Y_{i})$ indeksuar nga $i=1,\ldots ,n$ , koeficienti i korrelacionit të kampionit mund të përdoret për të vlerësuar korrelacionin e popullatës Pearson $\rho _{X,Y}$ ndërmjet $X$ dhe $Y$ . Koeficienti i korrelacionit të kampionit është përcaktuar si

r_{xy}\quad {\overset {\underset {\mathrm {def} }{}}{=}}\quad {\frac {\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{(n-1)s_{x}s_{y}}}={\frac {\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sqrt {\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\sum \limits _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}},

ku ${\overline {x}}$ dhe ${\overline {y}}$ janë mesataret e kampionit së $X$ dhe $Y$ , dhe $s_{x}$ dhe $s_{y}$ janë shmangiet standarde të korrigjuara të kampionit për $X$ dhe $Y$ .

Shprehje të njëvlershme për $r_{xy}$ janë

{\begin{aligned}r_{xy}&={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{ns'_{x}s'_{y}}}\\[5pt]&={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.\end{aligned}}

ku $s'_{x}$ dhe $s'_{y}$ janë devijimet standarde të kampionit të pakorrigjuar të $X$ dhe $Y$ .

Shembull

Merrni parasysh shpërndarjen e përbashkët të probabilitetit të $X$ dhe $Y$ të dhënë në tabelën më poshtë.

$P(X=x,Y=y)$

x\y	-1	0	1
0	0	${\frac {1}{3}}$	0
1	${\frac {1}{3}}$	0	${\frac {1}{3}}$

For this joint distribution, the marginal distributions are:

\mathrm {P} (X=x)={\begin{cases}{\frac {1}{3}}&\quad {\text{për }}x=0\\{\frac {2}{3}}&\quad {\text{për }}x=1\end{cases}}

\mathrm {P} (Y=y)={\begin{cases}{\frac {1}{3}}&\quad {\text{për }}y=-1\\{\frac {1}{3}}&\quad {\text{për }}y=0\\{\frac {1}{3}}&\quad {\text{për }}y=1\end{cases}}

Kjo jep pritjet dhe variancat e mëposhtme:

\mu _{X}={\frac {2}{3}}

\mu _{Y}=0

\sigma _{X}^{2}={\frac {2}{9}}

\sigma _{Y}^{2}={\frac {2}{3}}

Atëherë:

{\begin{aligned}\rho _{X,Y}&={\frac {1}{\sigma _{X}\sigma _{Y}}}\mathrm {E} [(X-\mu _{X})(Y-\mu _{Y})]\\[5pt]&={\frac {1}{\sigma _{X}\sigma _{Y}}}\sum _{x,y}{(x-\mu _{X})(y-\mu _{Y})\mathrm {P} (X=x,Y=y)}\\[5pt]&=\left(1-{\frac {2}{3}}\right)(-1-0){\frac {1}{3}}+\left(0-{\frac {2}{3}}\right)(0-0){\frac {1}{3}}+\left(1-{\frac {2}{3}}\right)(1-0){\frac {1}{3}}=0.\end{aligned}}

^ Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. JSTOR 2685263. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[thirteenways-1] Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. JSTOR 2685263. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)

[1]