kovarijanse i korelacije. Primjer rješavanja problema na Wikimaticu

Izračunajmo koeficijent korelacije i kovarijansu za različite vrste odnosi slučajnih varijabli.

Koeficijent korelacije(kriterijum korelacije Pearson, engleski Pearson Product Moment koeficijent korelacije) određuje stepen linearno veze između slučajnih varijabli.

Kao što slijedi iz definicije, izračunati koeficijent korelacije potrebno je poznavati distribuciju slučajnih varijabli X i Y. Ako su distribucije nepoznate, procijeniti koeficijent korelacije korišteno koeficijent korelacije uzorkar ( naziva se i kao Rxy ili rxy) :

gdje Sx – standardna devijacija uzorak slučajne varijable x, izračunat po formuli:

Kao što se vidi iz formule za izračunavanje korelacije, nazivnik (proizvod standardnih devijacija) jednostavno normalizira brojnik tako da korelacija ispada da je bezdimenzionalni broj od -1 do 1. Korelacija i kovarijansa dati iste informacije (ako su poznate standardne devijacije ), ali korelacija praktičniji za upotrebu, jer bezdimenzionalno je.

Izračunati koeficijent korelacije i kovarijansa uzorka u MS EXCEL-u nije teško, jer postoje posebne funkcije CORREL() i COVAR() . Mnogo je teže shvatiti kako protumačiti dobivene vrijednosti, tome je posvećen veći dio članka.

Teorijska digresija

Prisjetite se toga korelacija naziva se statistički odnos, koji se sastoji u činjenici da različite vrijednosti jedne varijable odgovaraju različitim srednje vrijednosti drugog (sa promjenom vrijednosti X znači Y se mijenja na pravilan način). Pretpostavlja se da oboje varijable X i Y su nasumično vrijednosti i imaju neki slučajni raspršivanje u odnosu na njihove srednja vrijednost.

Bilješka. Ako samo jedna varijabla, na primjer, Y, ima slučajnu prirodu, a vrijednosti druge su determinističke (podešene od strane istraživača), onda možemo govoriti samo o regresiji.

Tako se, na primjer, pri proučavanju zavisnosti prosječne godišnje temperature ne može govoriti korelacije temperaturu i godinu posmatranja i, shodno tome, primijeniti indikatore korelacije sa njihovim odgovarajućim tumačenjem.

korelacija između varijabli može se pojaviti na nekoliko načina:

  1. Prisustvo uzročne veze između varijabli. Na primjer, iznos ulaganja u Naučno istraživanje(varijabla X) i broj primljenih patenata (Y). Prva varijabla se pojavljuje kao nezavisna varijabla (faktor), sekunda - zavisna varijabla (rezultat). Mora se imati na umu da ovisnost veličina određuje postojanje korelacije između njih, ali ne i obrnuto.
  2. Prisustvo konjugacije (česti uzrok). Na primjer, s rastom organizacije raste i fond plata (PAY) i troškovi iznajmljivanja prostora. Očigledno, pogrešno je pretpostaviti da zakup prostora zavisi od platnog spiska. Obje ove varijable u mnogim slučajevima linearno zavise od broja zaposlenih.
  3. Međusobni uticaj varijabli (kada se jedna varijabla mijenja, druga se mijenja i obrnuto). Ovim pristupom su prihvatljive dvije formulacije problema; Bilo koja varijabla može djelovati i kao nezavisna varijabla i kao zavisna varijabla.

Na ovaj način, indeks korelacije pokazuje koliko jaka linearni odnos između dva faktora (ako ih ima), a regresija vam omogućava da predvidite jedan faktor na osnovu drugog.

Korelacija, kao i svaka druga statistika, može biti korisna ako se koristi ispravno, ali također ima ograničenja u upotrebi. Ako pokazuje jasno definisan linearni odnos ili potpuni nedostatak odnosa, onda korelacija divno se odražava. Ali, ako podaci pokazuju nelinearni odnos (na primjer, kvadratni), prisutnost zasebnih grupa vrijednosti ili odstupanja, tada izračunata vrijednost koeficijent korelacije može dovesti u zabludu (pogledajte primjer fajla).

Korelacija bliska 1 ili -1 (tj. bliska apsolutnoj vrijednosti 1) ukazuje na jak linearni odnos varijabli, vrijednost blizu 0 označava da nema veze. Pozitivno korelacija znači da sa rastom jednog pokazatelja drugi u prosjeku raste, a kod negativnog opada.

Da bi se izračunao koeficijent korelacije, potrebno je da uparene varijable zadovolje sljedeće uslove:

  • broj varijabli mora biti jednak dva;
  • varijable treba da budu kvantitativne (npr. učestalost, težina, cijena). Izračunati prosjek ovih varijabli ima jasno značenje: prosječna cijena ili prosječna težina pacijenta. Za razliku od kvantitativnih varijabli, kvalitativne (nominalne) varijable uzimaju vrijednosti samo iz konačnog skupa kategorija (na primjer, spol ili krvna grupa). Numeričke vrijednosti se uslovno uspoređuju sa ovim vrijednostima (na primjer, žensko - 1, a muško - 2). Jasno je da je u ovom slučaju kalkulacija srednja vrijednost, koje je potrebno pronaći korelacije, nije tačan, što znači da je izračunavanje korelacije;
  • varijable moraju biti nasumične i imati .

Dvodimenzionalni podaci mogu imati različitu strukturu. Neki od njih zahtijevaju posebne pristupe u radu sa:

  • Za nelinearne podatke korelacija mora se koristiti s oprezom. Za neke probleme može biti korisno transformirati jednu ili obje varijable na takav način da se dobije linearni odnos (ovo zahtijeva pretpostavku o tipu nelinearne veze kako bi se sugerirao željeni tip transformacije).
  • Korišćenjem rasipanja kod nekih podataka može se uočiti nejednaka varijacija (raspršenje). Problem sa nejednakim varijacijama je u tome što mjesta sa velikom varijacijom ne samo da pružaju najmanje tačne informacije, već imaju i najveći utjecaj na proračun. statistički indikatori. Ovaj problem se također često rješava transformacijom podataka, kao što je korištenje logaritma.
  • U nekim podacima se može uočiti grupisanje, što može ukazivati ​​na potrebu podjele populacije na dijelove.
  • Outlier (outlier) može iskriviti izračunatu vrijednost koeficijenta korelacije. Odstupanje može biti uzrokovano slučajnošću, greškom u prikupljanju podataka ili može zapravo odražavati neke karakteristike odnosa. Pošto outlier jako odstupa od prosječne vrijednosti, daje veliki doprinos izračunavanju indikatora. Često se statistike izračunavaju sa i bez odstupanja.

Korištenje MS EXCEL-a za izračunavanje korelacije

Uzmimo 2 varijable kao primjer X i Y i shodno tome, uzorkovanje koji se sastoji od nekoliko parova vrijednosti (H i ; Y i). Radi jasnoće, napravimo .

Bilješka: Za više informacija o crtanju grafikona pogledajte članak. U datoteci primjera izgradnje rasipanja koristi jer ovdje smo odstupili od zahtjeva da varijabla X bude nasumična (ovo pojednostavljuje generiranje razne vrste odnosi: izgradnja trendova i dato širenje). U slučaju stvarnih podataka, potrebno je koristiti dijagram raspršenosti (vidi dolje).

Izračuni korelacije Nacrtajmo za različite slučajeve odnos između varijabli: linearno, kvadratno i na nedostatak komunikacije.

Bilješka: U datoteci uzorka možete postaviti parametre linearnog trenda (nagib, presek sa Y-osom) i stepen širenja oko ove linije trenda. Također možete podesiti postavke kvadratne zavisnosti.

U datoteci primjera izgradnje rasipanja u slučaju odsustva zavisnosti varijabli koristi se dijagram raspršenja. U ovom slučaju, tačke na dijagramu su raspoređene u obliku oblaka.

Bilješka: Imajte na umu da promjenom skale grafikona duž vertikalne ili horizontalne ose, oblaku tačaka može se dati izgled vertikalne ili horizontalne linije. Jasno je da će u ovom slučaju varijable ostati nezavisne.

Kao što je gore pomenuto, za izračunavanje koeficijent korelacije u MS EXCEL-u postoje funkcije CORREL(). Također možete koristiti sličnu funkciju PEARSON() koja vraća isti rezultat.

Da biste bili sigurni u proračune korelacije koje proizvodi CORREL() funkcija prema gornjim formulama, datoteka primjera prikazuje proračun korelacije koristeći detaljnije formule:

=KOVARIJANCIJA.Y(B28:B88;D28:D88)/STDEV.Y(B28:B88)/STDEV.Y(D28:D88)

=COVARIATION.V(B28:B88;D28:D88)/STDEV.V(B28:B88)/STDEV.V(D28:D88)

Bilješka: Square koeficijent korelacije r je koeficijent determinacije R2, koji se izračunava prilikom izgradnje linije regresije pomoću funkcije QVPIRSON(). Vrijednost R2 također može biti prikazana na dijagram raspršenja, izgradnjom linearnog trenda koristeći standardnu ​​funkcionalnost MS EXCEL-a (odaberite grafikon, odaberite karticu Izgled, zatim u grupi Analiza pritisnite dugme linija trenda i odaberite Linearna aproksimacija). Za više informacija o crtanju linije trenda, pogledajte, na primjer, .

Korištenje MS EXCEL-a za izračunavanje kovarijanse

kovarijansa je blizak po značenju (također je mjera disperzije), s tom razlikom što je definiran za 2 varijable, i disperzija- za jedan. Prema tome, cov(x;x)=VAR(x).

Za izračunavanje kovarijance u MS EXCEL-u (počevši od verzije 2010), koriste se funkcije COVARIATION.G() i COVARIATION.V(). U prvom slučaju, formula za izračunavanje je slična gornjoj (završetak .G stoji za Populacija), u drugom - umjesto faktora 1/n koristi se 1/(n-1), tj. završetak .AT stoji za Uzorak.

Bilješka: Funkcija COVAR(), koja je prisutna u MS EXCEL-u ranijih verzija, slična je funkciji COVARIANCE.G().

Bilješka: CORREL() i COVAR() funkcije u engleska verzija predstavljen kao CORREL i COVAR. Funkcije COVARIANCE.G() i COVARIANCE.V() kao COVARIANCE.P i COVARIANCE.S.

Dodatne formule za proračun kovarijanse:

=ZBIRNI PROIZVOD(B28:B88-PROSEK(B28:B88),(D28:D88-PROSEK(D28:D88)))/BROJ(D28:D88)

=ZBIRNI PROIZVOD(B28:B88-PROSEK(B28:B88),(D28:D88))/BROJ(D28:D88)

=ZBIRNI PROIZVOD(B28:B88,D28:D88)/BROJ(D28:D88)-PROSEK(B28:B88)*PROSEK(D28:D88)

Ove formule koriste svojstvo kovarijanse:

Ako varijable x i y su nezavisne, onda je njihova kovarijansa 0. Ako varijable nisu nezavisne, onda je varijansa njihovog zbira:

VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)

ALI disperzija njihova razlika je

VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)

Procjena statističke značajnosti koeficijenta korelacije

Da bismo testirali hipotezu, moramo znati distribuciju slučajne varijable, tj. koeficijent korelacije r. Obično se testiranje hipoteze ne provodi za r, već za slučajnu varijablu t r:

koji ima n-2 stepena slobode.

Ako je izračunata vrijednost slučajne varijable |t r | veća od kritične vrijednosti t α,n-2 (α-specificirana), tada Nulta hipoteza odbijen (korelacija vrijednosti je statistički značajna).

Dodatni paket za analizu

B za izračunavanje kovarijanse i korelacije postoje alati istog imena analiza.

Nakon pozivanja alata, pojavljuje se dijaloški okvir koji sadrži sljedeća polja:

  • interval unosa: potrebno je da unesete vezu do raspona sa početnim podacima za 2 varijable
  • Grupisanje: Općenito, neobrađeni podaci se unose u 2 kolone
  • Oznake u prvom redu: ako je označeno, onda interval unosa mora sadržavati naslove kolona. Preporučuje se da potvrdite okvir tako da rezultat dodatka sadrži informativne kolone
  • izlazni interval: Opseg ćelija u koje će se nalaziti rezultati proračuna. Dovoljno je navesti gornju lijevu ćeliju ovog raspona.

Dodatak vraća izračunate vrijednosti korelacije i kovarijance (za kovarijansu se također izračunavaju varijanse obje slučajne varijable).

U slučaju višedimenzionalne slučajne varijable (slučajni vektor), karakteristika širenja njenih komponenti i odnosa između njih je matrica kovarijanse.

Kovarijansna matrica definira se kao matematičko očekivanje proizvoda centriranog slučajnog vektora i istog, ali transponiranog vektora:

gdje

Matrica kovarijanse ima oblik


gdje su dijagonale varijanse koordinata slučajnog vektora o n = D Xi, o 22 \u003d D X2, o kk = D Xk , a preostali elementi su kovarijanse između koordinata

° 12 \u003d M "x i x 2 j a 1 * \u003d M-jc, **\u003e

Matrica kovarijanse je simetrična matrica, tj.

Na primjer, razmotrite matricu kovarijanse dvodimenzionalnog vektora


Slično, matrica kovarijanse se dobija za bilo koji /^-dimenzionalni vektor.

Koordinatne disperzije se mogu predstaviti kao

gdje je Gi,C2,...,0? - srednje kvadratne devijacije slučajnih vektorskih koordinata.

Koeficijent korelacije je, kao što znate, omjer kovarijanse i proizvoda standardnih devijacija:

Nakon normalizacije posljednjim omjerom članova matrice kovarijanse, dobija se korelacija matrice


što je simetrično i nenegativno određeno.

Višedimenzionalni analog disperzije slučajne varijable je generalizirana disperzija, koja se podrazumijeva kao vrijednost determinante matrice kovarijanse

Drugi zajednička karakteristika stepen disperzije multivarijantne slučajne varijable je trag matrice kovarijanse

gdje je Sk - dijagonalni elementi matrice kovarijanse.

Često u višedimenzionalnim Statistička analiza koristi se normalna distribucija.

Generalizacija normalne gustoće vjerovatnoće na slučaj ^-dimenzionalnog slučajnog vektora je funkcija

gdje je q = (pj, q 2 , M^) m - vektor stupca matematičkih očekivanja;

|X| - determinanta kovarijansne matrice X;

1 - inverzna kovarijansna matrica.

Matrica X -1 , inverzna dimenziji matrice X ph p, može se primiti Različiti putevi. Jedna od njih je Jordan-Gaussova metoda. U ovom slučaju, matrična jednačina

gdje X- vektor kolone varijabli, čiji je broj jednak i; b- i-dimenzionalni kolonski vektor desnih dijelova.

Pomnožite jednačinu (6.21) s lijeve strane inverznom matricom HG 1:

Od posla inverzna matrica daje matricu identiteta E, onda

Ako umjesto toga b uzeti jedinični vektor

zatim proizvod X -1 -e x daje prvi stupac inverzne matrice. Ako uzmemo drugi jedinični vektor

zatim proizvod E 1 e 2 daje prvi stupac inverzne matrice, i tako dalje. Dakle, sukcesivno rješavanje jednačina

koristeći Jordan-Gaussovu metodu, dobijamo sve stupce inverzne matrice.

Druga metoda za dobijanje matrice inverzne matrici E povezana je sa izračunavanjem algebarskih komplementa A tJ .= (/= 1, 2,..., P; j = 1, 2, ..., P) na elemente date matrice E, zamjenjujući ih umjesto elemenata matrice E i transportujući takvu matricu:

Inverzna matrica se dobija nakon dijeljenja elemenata AT na determinantu matrice E:

Važna karakteristika dobijanja inverzne matrice u ovom slučaju je da je kovarijantna matrica E slabo uslovljena. To dovodi do činjenice da se prilikom invertiranja takvih matrica mogu pojaviti prilično ozbiljne greške. Sve to zahtijeva osiguravanje potrebne tačnosti proračunskog procesa ili korištenje posebnih metoda prilikom izračunavanja takvih matrica.

Primjer. Napišite izraz gustoće vjerovatnoće za normalno raspoređenu dvodimenzionalnu slučajnu varijablu (X v X 2)

pod uslovom da matematička očekivanja, varijanse i kovarijanse ovih veličina imaju sljedeće vrijednosti:

Rješenje. Inverzna matrica kovarijanse za matricu (6.19) može se dobiti korištenjem sljedećeg inverznog matričnog izraza za matricu X:

gdje je A determinanta matrice X.

A i, L 12, A 21, A 22- algebarski dodaci odgovarajućim elementima matrice X.

Zatim za matricu ]r- ! dobijamo izraz

Budući da je 12 \u003d 01O2P i ° 2i \u003d a 2 a iP\u003e a i2 a 2i \u003d cyfst | p, tada

Hajde da pronađemo proizvod



Funkcija gustoće vjerovatnoće može se zapisati kao

Zamjenom početnih podataka dobijamo sljedeći izraz za funkciju gustoće vjerovatnoće


Razmotrimo tehniku ​​izračunavanja kovarijanse i korelacije prinosa hartija od vrijednosti na primjeru.

Povrat na papir X za pet godina iznosio je 20%, 25%, 22%, 28%, 24%. Prinos na papiru F: 24%, 28%, 25%, 27%, 23%. Odredite kovarijansu prinosa dionica.

Rešimo problem na dva načina.

a) Štampaj na kronološkim redom u ćelijama sa Al nema A5 vrednosti prinosa papira X, a u ćelijama od B1 do B5 prinos papira F. Dobićemo rešenje u ćeliji C1, pa pređemo preko njega i kliknemo mišem. U ćeliji C1 ispisujemo formulu:

i pritisnite tipku Enter. U ćeliji C1 pojavilo se rješenje problema - broj 3.08, tj. uzorak kovarijanse za naš primjer.

b) Kovarijansa se može izračunati pomoću programa "Function Wizard". Da biste to učinili, zadržite pokazivač iznad ikone A na traci sa alatkama i kliknite mišem. Pojavljuje se prozor čarobnjaka za funkcije. U lijevom polju ("Kategorija") pomaknite kursor preko reda "Statistički" i kliknite mišem. Linija je označena plavom bojom, a u desnom polju prozora ("Funkcija") pojavila se lista statističkih funkcija. Postavite kursor na red "KOVAR" i kliknite lijevu tipku miša. Linija je istaknuta plavom bojom. Postavite kursor na dugme OK i kliknite mišem. Pojavio se prozor "KOVAR". U prozoru se nalaze dva reda, koji se zovu "Niz 1" i "Niz 2". U prvi red unosimo brojeve ćelija od A1 do A5. Da biste to učinili, pomaknite kursor preko znaka 3 koji se nalazi na desnoj strani prvog reda i kliknite mišem. Prozor "KOVAR" se pretvorio u polje prvog reda. Postavite kursor na ćeliju A1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije A5 i otpustite tipku. U polju linije pojavio se unos A1:A5. Ponovo zadržite pokazivač iznad znaka i kliknite mišem. Pojavio se prošireni prozor "KOVAR". Upisujemo brojeve ćelija sa Bl br. B5 u drugom redu. Da biste to učinili, pomaknite kursor preko znaka 5J u drugom redu i kliknite mišem. Postavite kursor na ćeliju B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije B5, pustite tipku. U polju linije pojavio se unos B1:B5. Pređite mišem preko dugmeta 3| i kliknite mišem. Pojavio se prošireni prozor "KOVAR". Postavite kursor na dugme OK i kliknite mišem. Broj 3.08 pojavio se u ćeliji C1.

Odrediti koeficijent korelacije prinosa hartija od vrijednosti za uslove primjera 1. Rješenje. Rešimo problem na dva načina.

a) Ispisujemo kronološkim redom u ćelijama sa Al br A5 vrijednosti prinosa papira X, a u ćelijama od B1 do B5 - izdašnost papira F. Dobijamo rješenje u ćeliji C1, pa prelazimo mišem preko njega i kliknite mišem. U ćeliji C1 ispisujemo formulu:

i pritisnite tipku Enter. U ćeliji C1 pojavilo se rješenje problema - broj 0,612114.

b) Korelacija se može izračunati pomoću "Čarobnjaka za funkcije". Da biste to učinili, odaberite ikonu l na traci sa alatkama kursorom i kliknite mišem. Pojavljuje se prozor čarobnjaka za funkcije. U lijevom polju ("Kategorija") odaberite redak "Statistički" kursorom i kliknite mišem. U desnom polju prozora ("Funkcija") pojavila se lista statističkih funkcija. Odaberite liniju "CORREL" kursorom i kliknite mišem. Linija je istaknuta plavom bojom. Postavite kursor na dugme OK i kliknite mišem. Pojavio se prozor "CORREL". U prozoru se nalaze dva reda, koji se zovu "Niz 1" i "Niz 2". U prvi red unosimo brojeve ćelija sa Al br A5. Da biste to učinili, pomaknite kursor preko znaka ZP desno od prvog reda i kliknite mišem. Prozor "CORREL" postao je polje prvog reda. Postavite kursor na ćeliju A1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije A5 i otpustite tipku. U polju linije pojavio se unos A1:A5. Ponovo postavite kursor na znak U i kliknite mišem. Pojavio se prošireni prozor "CORREL". Upisujemo brojeve ćelija sa Bl br. B5 u drugom redu. Da biste to učinili, pomaknite kursor preko znaka W u drugom redu i kliknite mišem. Postavite kursor na ćeliju B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije B5, pustite tipku. U polju linije pojavio se unos B1:B5. Pomerite kursor preko dugmeta Ŝ i kliknite mišem. Pojavio se prošireni prozor "CORREL". Postavite kursor na dugme OK i kliknite mišem. Broj 0,612114 pojavio se u ćeliji C1.

U primjerima 1 i 2 izračunali smo kovarijansu i korelaciju prinosa dvaju vrijednosnih papira u portfelju. Ako portfelj uključuje veći broj hartija od vrijednosti, tada se kovarijanse i korelacije njihovih prinosa mogu izračunati u parovima kao što je gore opisano, ali ovo je naporna varijanta rješavanja problema. Excel ima poseban paket za analizu podataka koji vam omogućava da brzo riješite takav problem za veliki broj papiri. Razmotrimo izračun kovarijanse i korelacije uz njegovu pomoć.

Znaš li to: Forex broker "NPBFX" donosi apsolutno sve transakcije svojih klijenata dobavljačima likvidnosti (na međubankarskom tržištu), radeći na STP/NDD tehnologije(Direktna obrada - kroz obradu transakcija / Non Dealing Desk).

"Analysis Pack" možda nije instaliran. Zatim ga treba instalirati. Da biste to učinili, zadržite pokazivač iznad menija "Alati" i kliknite lijevu tipku miša. Pojavio se padajući meni. Odaberite komandu "Dodaci" pomoću kursora i kliknite lijevu tipku miša. Pojavljuje se okvir za dijalog Add-Ins. Pomaknite kursor preko okvira lijevo od reda "Paket analize" i kliknite lijevu tipku miša. U polju je kvačica. Postavite kursor na dugme OK i kliknite mišem. Instaliran je "Paket analize". Razmotrite definiciju kovarijance i korelacije za nekoliko vrijednosnih papira koristeći primjer.

Primjer 3: Izračunavanje kovarijanse

Postoji uzorak podataka o prinosima hartija od vrijednosti B, C i D za deset perioda. Ispisujemo vrijednosti prinosa za papir B u ćelijama od B1 do B10, papir C od C1 do CJ i papir D od D1 do D10, kao što je prikazano na sl. 1.8. Zadržite pokazivač iznad menija "Alati" i kliknite lijevu tipku miša. Pojavio se padajući meni. Postavite kursor na red "Analiza podataka" i kliknite lijevu tipku miša. Pojavljuje se prozor za analizu podataka. Postavite kursor na liniju "Covarijance" i kliknite lijevu tipku miša. Linija je istaknuta plavom bojom. Postavite kursor na dugme OK i kliknite mišem. Pojavljuje se prozor "Kovarijansa" (vidi sliku 1.10).

Postavite kursor na znak 3 desno od polja linije "Input interval" i kliknite mišem. Prozor "Kovarijansa" se skupio u okvir reda. Postavite kursor na ćeliju B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, povucite do ćelije D10. Unos $B$1:$D$10 se pojavio u redu. Ponovo pomerite kursor preko znaka i kliknite mišem. Pojavljuje se prošireni prozor Covarijance. Podaci su grupirani po kolonama. Stoga, ako nema tačke u okruglom prozoru lijevo od natpisa "u kolonama", usmjerite kursor na nju i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Ispod je red "Izlazni interval". U okruglom prozorčiću lijevo od natpisa treba biti tačka. Ako ga nema, pomaknite kursor preko ove linije i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Postavite kursor na znak 3 desno od polja linije "Izlazni interval" i kliknite mišem. Prozor "Covarijance" je postao polje stringa. Uzmimo ćeliju A12 kao početak izlaznog intervala. Stoga, pređemo mišem preko njega i pritisnemo lijevu tipku miša. Unos $A$12 pojavio se u polju stringa. Ponovo postavite kursor na znak 3 i kliknite mišem. Prozor "Kovarijansa" je proširen. Postavite kursor na dugme OK i kliknite mišem. Rješenje problema se pojavilo na listu kao što je prikazano na sl. 1.11. U bloku B13 do D15 prikazana je matrica kovarijanse. Po njegovoj dijagonali, tj. u ćelijama B13, C14 i B15 nalaze se disperzije hartija od vrednosti B, C i D, redom, u preostalim ćelijama - kovarijansa prinosa hartija od vrednosti: u ćeliji B14 kovarijansa prinosa hartija od vrednosti B i C, u B15 - hartija od vrednosti B i D, u C15 - vrijednosni papiri C i D.

Primjer 4 Izračunavanje korelacija

Postoji uzorak podataka o prinosima tri hartija od vrijednosti - B, C i D - za deset perioda. Kao i u zadatku 3, ispisujemo vrijednosti prinosa za papir B u ćelijama od B1 do B10, papir C od C1 do C10 i papir D od D1 do D10 (slika 1.9). Zadržite pokazivač iznad menija "Alati" i kliknite lijevu tipku miša. Pojavio se padajući meni. Postavite kursor na red "Analiza podataka" i kliknite lijevu tipku miša. Pojavljuje se prozor za analizu podataka. Postavite kursor na liniju "Korelacija" i kliknite lijevu tipku miša. Linija je istaknuta plavom bojom. Postavite kursor na dugme OK i kliknite mišem. Pojavio se prozor Korelacija (po strukturi je sličan prozoru "Kovarijansa"). Postavite kursor na znak 3 desno od polja linije "Input interval" i kliknite mišem. Prozor "Korelacija" se skupio u okvir linije. Postavite kursor na ćeliju B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor na ćeliju D10. Unos $B$1:$D$10 se pojavio u redu. Ponovo pomerite kursor preko znaka i kliknite mišem. Pojavljuje se prošireni prozor "Korelacija". Podaci su grupirani po kolonama. Stoga, ako nema tačke u okruglom prozoru lijevo od natpisa "u kolonama", usmjerite kursor na nju i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Ispod je red "Izlazni interval". U okruglom prozorčiću lijevo od natpisa treba biti tačka. Ako ga nema, pomaknite kursor preko ove linije i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Postavite kursor na znak 3 desno od polja linije "Izlazni interval" i kliknite mišem. Prozor "Korelacija" je postao string polje. Uzmimo ćeliju A12 kao početak izlaznog intervala. Stoga, pređemo mišem preko njega i pritisnemo lijevu tipku miša. Unos $A$12 pojavio se u polju stringa. Ponovo postavite kursor na znak 3 i kliknite mišem. Prozor "Korelacija" je proširen. Postavite kursor na dugme OK i kliknite mišem. Rješenje problema se pojavilo na listu kao što je prikazano na slici 1.12. Blok od B13 do D15 predstavlja matricu korelacije. Po njegovoj dijagonali, tj. u ćelijama B13, C14 i D15 nalaze se jedinice, u preostalim ćelijama - korelacije prinosa hartija od vrijednosti: u ćeliji B14 korelacija prinosa vrijednosnih papira B i C, u B15 - vrijednosnih papira B i D, u C15 - vrijednosnih papira C i D .

Sadržaj

Ovaj članak opisuje sintaksu formule i upotrebu funkcije COVARIATION.G u programu Microsoft Excel.

Vraća kovarijansu populacije, aritmetičku sredinu proizvoda varijansi za svaki par tačaka podataka u dva skupa podataka. Kovarijansa se koristi za određivanje odnosa između dva skupa podataka. Na primjer, možete provjeriti da li viši nivo prihoda odgovara višem visoki nivo obrazovanje.

Sintaksa

COVARIANCE.G(niz1,niz2)

Sintaksa funkcije COVARIANCE.G ima sljedeće argumente:

    Niz1 je obavezan argument. Prvi raspon ćelija s cijelim brojevima.

    Niz2 je obavezan argument. Drugi raspon ćelija s cijelim brojevima.

Napomene

Primjer

Kopirajte uzorke podataka iz sljedeće tablice i zalijepite ih u ćeliju A1 novog Excel lista. Za prikaz rezultata formule, odaberite ih i pritisnite F2, a zatim ENTER. Promijenite širinu kolona, ​​ako je potrebno, da vidite sve podatke.

Koliko često ste čuli izjave koje govore da je jedna pojava povezana s drugom?

„Visoki rast je u korelaciji sa dobro obrazovanje i sreće, utvrdili su stručnjaci iz Gallupove sociološke službe.

"Cijena nafte korelira sa deviznim kursom."

"Bol u mišićima nakon vježbanja nije u korelaciji s hipertrofijom mišićnih vlakana."

Stiče se utisak da je pojam „korelacije“ ušao u široku upotrebu ne samo u nauci, već iu Svakodnevni život. Korelacija odražava stepen linearna zavisnost između dva slučajna događaja. Dakle, kada cijene nafte počnu padati, dolar u odnosu na rublju počinje rasti.

Iz svega navedenog možemo zaključiti da kod opisivanja dvodimenzionalnih slučajnih varijabli nema dovoljno takvih dobrih poznate karakteristike, kao matematičko očekivanje, varijansa, standardna devijacija. Stoga se za njihovo opisivanje često koriste još dvije vrlo važne karakteristike: kovarijansa i korelacija.

kovarijansa

kovarijansa$cov\left(X,\ Y\right)$ slučajnih varijabli $X$ i $Y$ je očekivanje proizvoda slučajnih varijabli $X-M\left(X\right)$ i $Y-M\left(Y\ desno)$, odnosno:

$$cov\left(X,\ Y\desno)=M\levo(\levo(X-M\levo(X\desno)\desno)\levo(Y-M\levo(Y\desno)\desno)\desno). $$

Može biti zgodno izračunati kovarijansu $X$ i $Y$ slučajnih varijabli koristeći sljedeću formulu:

$$cov\lijevo(X,\ Y\desno)=M\lijevo(XY\desno)-M\lijevo(X\desno)M\lijevo(Y\desno),$$

koji se može dobiti iz prve formule koristeći svojstva matematičkog očekivanja. Navodimo glavne svojstva kovarijanse.

1 . Kovarijansa slučajne varijable sa samom sobom je njena varijansa.

$$cov\lijevo(X,\ X\desno)=D\lijevo(X\desno).$$

2 . Kovarijansa je simetrična.

$$cov\left(X,\ Y\desno)=cov\levo(Y,\ X\desno).$$

3 . Ako su slučajne varijable $X$ i $Y$ nezavisne, tada:

$$cov\lijevo(X,\ Y\desno)=0.$$

4 . Konstantni faktor se može izvaditi iz znaka kovarijanse.

$$cov\left(cX,\ Y\desno)=cov\left(X,\ cY\right)=c\cdot cov\left(X,\ Y\desno).$$

5 . Kovarijansa se neće promijeniti ako se jednoj od nasumičnih varijabli (ili dvije odjednom) doda konstantna vrijednost:

$$cov\left(X+c,\ Y\desno)=cov\levo(X,\ Y+c\desno)=cov\levo(X+x,\ Y+c\desno)=cov\left( X,\ Y\desno).$$

6 . $cov\left(aX+b,\ cY+d\right)=ac\cdot cov\left(X,\ Y\right)$.

7 . $\left|cov\left(X,\ Y\right)\right|\le \sqrt(D\left(X\right)D\left(Y\right))$.

8 . $\left|cov\left(X,\ Y\right)\right|=\sqrt(D\left(X\right)D\left(Y\right))\Leftrightarrow Y=aX+b$.

9 . Varijanca sume (razlike) slučajnih varijabli jednaka je zbroju njihovih varijansi plus (minus) dvostrukoj kovarijansi ovih slučajnih varijabli:

$$D\left(X\pm Y\desno)=D\levo(X\desno)+D\levo(Y\desno)\pm 2cov\left(X,\ Y\desno).$$

Primjer 1 . Data je korelacija slučajnog vektora $\left(X,\ Y\right)$. Izračunajte kovarijansu $cov\left(X,\ Y\right)$.

$\begin(niz)(|c|c|)
\hline

\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0.05 & p_(22) & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end(niz)$

Događaji $\left(X=x_i,\ Y=y_j\right)$ čine kompletnu grupu događaja, tako da zbir svih vjerovatnoća $p_(ij)$ datih u tabeli mora biti jednak 1. Tada je $0, 1+0+0 ,2+0,05+p_(22)+0+0+0,2+0,05+0,1+0+0,1=1$, dakle $p_(22)=0,2$.

$\begin(niz)(|c|c|)
\hline
X\backslash Y & -6 & 0 & 3 \\
\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & 0,2 & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end(niz)$

Koristeći formulu $p_(i) =\sum _(j)p_(ij) $, nalazimo seriju distribucije slučajne varijable $X$.

$\begin(niz)(|c|c|)
\hline
X & -2 & 0 & 1 & 7 \\
\hline
p_i & 0,3 & 0,25 & 0,25 & 0,2 \\
\hline
\end(niz)$

$$M\left(X\right)=\sum^n_(i=1)(x_ip_i)=-2\cdot 0.3+0\cdot 0.25+1\cdot 0.25+7\cdot 0 ,2=1.05.$ $

$$D\left(X\right)=\sum^n_(i=1)(p_i(\left(x_i-M\left(X\right)\right))^2)=0.3\cdot (\left (-2-1,05\desno))^2+0,25\cdot (\levo(0-1,05\desno))^2+0,25\cdot (\levo(1-1, 05\desno))^2+$$

$$+\ 0,2\cdot (\levo(7-1,05\desno))^2=10,1475.$$

$$\sigma \left(X\right)=\sqrt(D\left(X\right))=\sqrt(10,1475)\približno 3,186.$$

Koristeći formulu $q_(j) =\sum _(i)p_(ij) $, nalazimo seriju distribucije slučajne varijable $Y$.

$\begin(niz)(|c|c|)
\hline
Y & -6 & 0 & 3 \\
\hline
p_i & 0,25 & 0,4 & 0,35 \\
\hline
\end(niz)$

$$M\left(Y\right)=\sum^n_(i=1)(y_ip_i)=-6\cdot 0.25+0\cdot 0.4+3\cdot 0.35=-0.45 .$$

$$D\left(Y\right)=\sum^n_(i=1)(p_i(\left(y_i-M\left(Y\right)\right))^2)=0,25\cdot (\left (-6+0,45\desno))^2+0,4\cdot (\lijevo(0+0,45\desno))^2+0,35\cdot (\lijevo(3+0, 45\desno))^2=11,9475. $$

$$\sigma \left(Y\right)=\sqrt(D\left(Y\right))=\sqrt(11,9475)\približno 3,457.$$

Pošto je $P\left(X=-2,\ Y=-6\right)=0.1\ne 0.3\cdot 0.25$, slučajne varijable $X,\ Y$ su zavisne.

Definiramo kovarijansu $cov\ \left(X,\ Y\right)$ slučajnih varijabli $X,\ Y$ formulom $cov\left(X,\ Y\right)=M\left(XY\right) )-M\ lijevo(X\desno)M\lijevo(Y\desno)$. Očekivana vrijednost proizvod slučajnih varijabli $X,\ Y$ jednak je:

$$M\left(XY\desno)=\sum_(i,\ j)(p_(ij)x_iy_j)=0,1\cdot \left(-2\right)\cdot \left(-6\right) +0.2\cdot \left(-2\right)\cdot 3+0.05\cdot 1\cdot 3+0.1\cdot 7\cdot \left(-6\right)+0.1\cdot 7\cdot 3=-1.95. $$

Tada $cov\left(X,\ Y\desno)=M\left(XY\desno)-M\left(X\right)M\left(Y\right)=-1,95-1,05\cdot \left(- 0,45\right)=-1,4775.$ Ako su slučajne varijable nezavisne, onda je njihova kovarijansa nula. U našem slučaju $cov(X,Y)\ne 0$.

Korelacija

Koeficijent korelacije slučajne varijable $X$ i $Y$ se nazivaju brojem:

$$\rho \levo(X,\ Y\desno)=((cov\levo(X,\ Y\desno))\preko (\sqrt(D\levo(X\desno)D\levo(Y\desno) )))).$$

Navodimo glavne svojstva koeficijenta korelacije.

1 . $\rho \levo(X,\ X\desno)=1$.

2 . $\rho \left(X,\ Y\right)=\rho \left(Y,\ X\right)$.

3 . $\rho \left(X,\ Y\right)=0$ za nezavisne slučajne varijable $X$ i $Y$.

4 . $\rho \left(aX+b,\ cY+d\right)=(sgn \left(ac\right)\rho \left(X,\ Y\right)\ )$, gdje je $(sgn \left( ac\right)\ )$ je znak proizvoda $ac$.

5 . $\left|\rho \left(X,\ Y\right)\right|\le 1$.

6 . $\left|\rho \left(X,\ Y\right)\right|=1\Leftrightarrow Y=aX+b$.

Ranije je rečeno da koeficijent korelacije $\rho \left(X,\ Y\right)$ odražava stepen linearne veze između dvije slučajne varijable $X$ i $Y$.

Za $\rho \left(X,\ Y\right)>0$, možemo zaključiti da je kao slučajna varijabla $X$ slučajna vrijednost$Y$ ima tendenciju povećanja. To se zove pozitivna korelacija. Na primjer, visina i težina osobe su u pozitivnoj korelaciji.

Za $\rho \lijevo(X,\ Y\desno)<0$ можно сделать вывод о том, что с ростом случайной величины $X$ случайная величина $Y$ имеет тенденцию к уменьшению. Это называется отрицательной корреляционной зависимостью. Например, температура и время сохранности продуктов питания связаны между собой отрицательной корреляционной зависимостью.

Za $\rho \left(X,\ Y\right)=0$ slučajne varijable $X$ i $Y$ nazivaju se nekoreliranim. Treba napomenuti da nekorelacija slučajnih varijabli $X$ i $Y$ ne znači njihovu statističku nezavisnost, već samo znači da ne postoji linearna veza između njih.

Primjer 2 . Odredimo koeficijent korelacije $\rho \left(X,\ Y\right)$ za dvodimenzionalnu slučajnu varijablu $\left(X,\ Y\right)$ iz primjera 1.

Koeficijent korelacije slučajnih varijabli $X,\ Y$ je $r_(XY) =(cov(X,Y)\preko \sigma (X)\sigma (Y)) =(-1,4775\preko 3,186\cdot 3,457 ) =-0.134.$ Od $r_(XY)<0$, то с ростом $X$ случайная величина $Y$ имеет тенденцию к уменьшению (отрицательная корреляционная зависимость).

Dijeli