Korelaciono-regresijska analiza u Excelu: upute za izvršenje. Osnove analize podataka Regresijska analiza zavisnosti

Regresiona analiza je jedna od najpopularnijih metoda statističkog istraživanja. Može se koristiti za određivanje stepena uticaja nezavisnih varijabli na zavisnu varijablu. Funkcionalnost Microsoft Excel-a ima alate dizajnirane za obavljanje ove vrste analize. Pogledajmo šta su i kako ih koristiti.

Ali, da biste koristili funkciju koja vam omogućava provođenje regresijske analize, prije svega morate aktivirati paket analize. Tek tada će se alati potrebni za ovu proceduru pojaviti na Excel traci.


Sada kada idemo na tab "Podaci", na vrpci u kutiji s alatima "analiza" videćemo novo dugme - "Analiza podataka".

Vrste regresione analize

Postoji nekoliko vrsta regresije:

  • parabolični;
  • snaga;
  • logaritamski;
  • eksponencijalni;
  • demonstracija;
  • hiperbolično;
  • linearna regresija.

O implementaciji posljednje vrste regresione analize u Excel-u ćemo detaljnije govoriti kasnije.

Linearna regresija u Excelu

Ispod je, kao primjer, tabela koja prikazuje prosječnu dnevnu temperaturu zraka na ulici, te broj kupaca trgovine za odgovarajući radni dan. Hajde da uz pomoć regresione analize saznamo kako tačno vremenske prilike u vidu temperature vazduha mogu uticati na posećenost maloprodajnog objekta.

Opšta jednadžba linearne regresije izgleda ovako: Y = a0 + a1x1 + ... + axk. U ovoj formuli Y označava varijablu čiji uticaj pokušavamo da proučavamo. U našem slučaju to je broj kupaca. Značenje x su različiti faktori koji utiču na varijablu. Opcije a su koeficijenti regresije. Odnosno, određuju značaj određenog faktora. Indeks k označava ukupan broj ovih istih faktora.


Analiza rezultata analize

Rezultati regresione analize se prikazuju u obliku tabele na mestu navedenom u podešavanjima.

Jedan od glavnih indikatora je R-kvadrat. To ukazuje na kvalitet modela. U našem slučaju ovaj koeficijent iznosi 0,705 ili oko 70,5%. Ovo je prihvatljiv nivo kvaliteta. Veza manji od 0,5 je loša.

Još jedan važan indikator nalazi se u ćeliji na raskrsnici linije "Y-raskrsnica" i kolona "Koeficijenti". Ovdje je naznačeno koju će vrijednost imati Y, a u našem slučaju to je broj kupaca, sa svim ostalim faktorima jednakim nuli. U ovoj tabeli ova vrijednost je 58,04.

Vrijednost na presjeku grafa "Varijabla X1" i "Koeficijenti" prikazuje nivo zavisnosti Y od X. U našem slučaju, ovo je nivo zavisnosti broja kupaca prodavnice od temperature. Koeficijent od 1,31 smatra se prilično visokim pokazateljem uticaja.

Kao što vidite, prilično je lako napraviti tabelu regresijske analize koristeći Microsoft Excel. Ali, samo obučena osoba može raditi sa podacima dobijenim na izlazu i razumjeti njihovu suštinu.

U prisustvu korelacije između faktora i rezultantnih znakova, doktori često moraju odrediti za koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni mjernom jedinicom koju je općenito prihvatio ili ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako im se visina poveća za 1 cm.U tu svrhu koristi se metoda regresione analize.

Metoda regresijske analize najčešće se koristi za izradu normativnih skala i standarda fizičkog razvoja.

  1. Definicija regresije. Regresija je funkcija koja omogućava da se na osnovu prosječne vrijednosti jednog atributa odredi prosječna vrijednost drugog atributa koji je u korelaciji s prvim.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati broj prehlada u prosjeku na određenim vrijednostima prosječne mjesečne temperature zraka u jesensko-zimskom periodu.

  2. Definicija koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se vrijednost jednog atributa u prosjeku mijenja kada se drugi atribut povezan s njim promijeni prema utvrđenoj mjernoj jedinici.
  3. Formula regresijskog koeficijenta. R y / x \u003d r xy x (σ y / σ x)
    gdje je R y / x - koeficijent regresije;
    r xy - koeficijent korelacije između karakteristika x i y;
    (σ y i σ x) - standardne devijacije karakteristika x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature vazduha u jesensko-zimskom periodu;
    σ y = 8,65 (standardna devijacija broja infektivnih prehlada).
    Dakle, R y/x je koeficijent regresije.
    R y / x = -0,96 x (4,6 / 8,65) = 1,8, tj. sa smanjenjem prosječne mjesečne temperature zraka (x) za 1 stepen, prosječan broj zaraznih prehlada (y) u jesensko-zimskom periodu će se promijeniti za 1,8 slučajeva.

  4. Regresijska jednačina. y \u003d M y + R y / x (x - M x)
    gdje je y prosječna vrijednost atributa, koju treba odrediti kada se promijeni prosječna vrijednost drugog atributa (x);
    x - poznata prosječna vrijednost drugog svojstva;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti karakteristika x i y.

    Na primjer, prosječan broj zaraznih prehlada (y) može se odrediti bez posebnih mjerenja na bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako je x = - 9 °, R y / x = 1,8 bolesti, M x = -7 °, M y = 20 bolesti, onda y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova jednačina se primjenjuje u slučaju pravolinijskog odnosa između dvije karakteristike (x i y).

  5. Svrha jednadžbe regresije. Jednačina regresije se koristi za crtanje linije regresije. Ovo poslednje omogućava da se bez posebnih merenja odredi bilo koja prosečna vrednost (y) jednog atributa, ako se promeni vrednost (x) drugog atributa. Na osnovu ovih podataka pravi se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti prosječne mjesečne temperature unutar raspona između izračunatih vrijednosti broja prehlada.
  6. sigma regresije (formula).
    gdje je σ Ru/x - sigma (standardna devijacija) regresije;
    σ y je standardna devijacija karakteristike y;
    r xy - koeficijent korelacije između karakteristika x i y.

    Dakle, ako je σ y standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom periodu (x) iznosi -0,96, tada

  7. Svrha sigma regresije. Daje karakteristiku mjere raznolikosti rezultirajuće karakteristike (y).

    Na primjer, karakteriše raznolikost broja prehlada na određenoj vrijednosti srednje mjesečne temperature zraka u jesensko-zimskom periodu. Dakle, prosječan broj prehlada na temperaturi zraka x 1 = -6 ° može se kretati od 15,78 bolesti do 20,62 bolesti.
    Kod x 2 = -9°, prosječan broj prehlada može biti u rasponu od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma se koristi u izgradnji skale regresije, koja odražava odstupanje vrijednosti efektivnog atributa od njegove prosječne vrijednosti ucrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i crtanje skale regresije
    • koeficijent regresije - Ry/x;
    • jednadžba regresije - y \u003d M y + R y / x (x-M x);
    • sigma regresije - σ Rx/y
  9. Redoslijed proračuna i grafički prikaz skale regresije.
    • odrediti koeficijent regresije po formuli (vidi paragraf 3). Na primjer, treba odrediti koliko će se u prosjeku promijeniti tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • prema formuli regresione jednadžbe (vidi paragraf 4), odrediti kolika će biti prosječna, na primjer, tjelesna težina (y, y 2, y 3 ...) * za određenu vrijednost rasta (x, x 2, x 3 ...) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrijednosti "x".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamjenjujući njihove vrijednosti u formulu (vidi paragraf 6).
    • na osnovu poznatih vrednosti x 1, x 2, x 3 i njihovih odgovarajućih prosečnih vrednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru / x) i najveće (y + σ ru / x) vrijednosti (y) konstruiraju skalu regresije.

      Za grafički prikaz skale regresije, vrijednosti x, x 2 , x 3 (y-osa) se prvo označavaju na grafikonu, tj. gradi se regresijska linija, na primjer, ovisnost tjelesne težine (y) o visini (x).

      Zatim se u odgovarajućim tačkama y 1 , y 2 , y 3 označavaju numeričke vrijednosti sigme regresije, tj. na grafu pronađite najmanju i najveću vrijednost y 1 , y 2 , y 3 .

  10. Praktična upotreba regresijske skale. Razvijaju se normativne skale i standardi, posebno za fizički razvoj. Prema standardnoj skali moguće je dati individualnu procjenu razvoja djece. Istovremeno, fizički razvoj se ocjenjuje kao harmoničan ako je, na primjer, na određenoj visini, djetetova tjelesna težina unutar jedne sigme regresije na prosječnu izračunatu jedinicu tjelesne težine - (y) za datu visinu (x) ( y ± 1 σ Ry / x).

    Fizički razvoj se smatra disharmoničnim u smislu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge sigme regresije: (y ± 2 σ Ry/x)

    Fizički razvoj će biti oštro disharmoničan kako zbog viška tako i zbog nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja fizičkog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije su prikazane u tabeli.

Obavezno:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednačine odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina sa visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati sigmu regresije, izgraditi skalu regresije, grafički prikazati rezultate njenog rješenja;
  • izvući odgovarajuće zaključke.

Stanje problema i rezultati njegovog rješavanja prikazani su u zbirnoj tabeli.

Tabela 1

Uslovi problema Rezultati rješenja problema
jednadžba regresije sigma regresija regresijska skala (očekivana tjelesna težina (u kg))
M σ r xy R y/x X At σRx/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
visina (x) 109 cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tjelesna težina (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Rješenje.

Zaključak. Dakle, skala regresije unutar izračunatih vrijednosti tjelesne težine omogućava vam da je odredite za bilo koju drugu vrijednost rasta ili procijenite individualni razvoj djeteta. Da biste to učinili, vratite okomicu na liniju regresije.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za srednje škole. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medik V.A., Yuriev V.K. Kurs predavanja o javnom zdravlju i zdravstvenoj zaštiti: Dio 1. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Vodič u 2 toma). - Sankt Peterburg, 1998. -528 str.
  5. Kučerenko V.Z., Agarkov N.M. i dr. Socijalna higijena i organizacija zdravstvene zaštite (Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glantz. Mediko-biološka statistika. Per sa engleskog. - M., Praksa, 1998. - 459 str.

Koncept regresije. Odnos između varijabli x i y mogu se opisati na različite načine. Konkretno, bilo koji oblik veze može se izraziti opštom jednačinom , gdje y tretira se kao zavisna varijabla, ili funkcije od drugog - nezavisna varijabla x, tzv argument. Korespondencija između argumenta i funkcije može se dati tablicom, formulom, grafom itd. Poziva se promjena funkcije ovisno o promjeni jednog ili više argumenata regresija. Sva sredstva koja se koriste za opisivanje korelacija su sadržaj regresiona analiza.

Za izražavanje regresije služe korelacione jednačine, ili jednačine regresije, empirijski i teorijski izračunati regresijski nizovi, njihovi grafovi, koji se nazivaju regresijske linije, kao i koeficijenti linearne i nelinearne regresije.

Indikatori regresije izražavaju korelaciju dvosmjerno, uzimajući u obzir promjenu prosječnih vrijednosti atributa Y pri promeni vrednosti x i sign X, i obrnuto, pokazuju promjenu srednjih vrijednosti obilježja X po promenjenim vrednostima y i sign Y. Izuzetak su vremenske serije, ili serije dinamike, koje pokazuju promjenu znakova tokom vremena. Regresija takvih serija je jednostrana.

Postoji mnogo različitih oblika i vrsta korelacija. Zadatak se svodi na identifikaciju oblika veze u svakom konkretnom slučaju i izražavanje odgovarajućom korelacijskom jednadžbom, što nam omogućava da predvidimo moguće promjene u jednom predznaku. Y na osnovu poznatih promjena X, povezan sa prvom korelacijom.

12.1 Linearna regresija

Jednačina regresije. Rezultati opservacija izvršenih na određenom biološkom objektu prema koreliranim karakteristikama x i y, može se predstaviti tačkama na ravni konstruisanjem sistema pravougaonih koordinata. Kao rezultat, dobiva se određeni dijagram raspršenosti, koji omogućava procjenu oblika i čvrstoće odnosa između različitih karakteristika. Vrlo često ovaj odnos izgleda kao prava linija ili se može aproksimirati pravom linijom.

Linearni odnos između varijabli x i y je opisan općom jednadžbom , gdje je a b c d,… su parametri jednadžbe koji određuju odnos između argumenata x 1 , x 2 , x 3 , …, x m i funkcije.

U praksi se ne uzimaju u obzir svi mogući argumenti, već samo neki argumenti, u najjednostavnijem slučaju samo jedan:

U jednadžbi linearne regresije (1) a je slobodan termin, a parametar b određuje nagib linije regresije u odnosu na pravokutne koordinatne ose. U analitičkoj geometriji, ovaj parametar se naziva faktor nagiba, au biometriji - koeficijent regresije. Vizuelni prikaz ovog parametra i položaja linija regresije Y on X i X on Y u sistemu pravougaonih koordinata daje sl.1.

Rice. 1 Y po X i X po Y regresijske linije u sistemu

pravougaone koordinate

Regresijske linije, kao što je prikazano na slici 1, sijeku se u tački O (,), što odgovara srednjim aritmetičkim vrijednostima znakova koji su međusobno povezani Y i X. Prilikom crtanja regresijskih grafova, vrijednosti nezavisne varijable X se crtaju duž apscise, a vrijednosti zavisne varijable, odnosno funkcije Y, crtaju se duž ordinate. Prava AB koja prolazi kroz tačku O (, ) odgovara potpunoj (funkcionalnoj) vezi između varijabli Y i X kada je koeficijent korelacije . Što je jača veza između Y i X, što su linije regresije bliže AB, i obrnuto, što je slabiji odnos između ovih vrijednosti, to su linije regresije udaljenije od AB. U nedostatku veze između karakteristika, linije regresije su pod pravim uglom jedna prema drugoj i .

Budući da indikatori regresije izražavaju korelaciju dvosmjerno, regresionu jednačinu (1) treba napisati na sljedeći način:

Prema prvoj formuli, prosječne vrijednosti se određuju kada se predznak promijeni X po jedinici mjere, na drugom - prosječne vrijednosti kada se promijeni karakteristika po jedinici mjere Y.

Koeficijent regresije. Koeficijent regresije pokazuje koliko je, u prosjeku, vrijednost jedne karakteristike y mijenja se kada je druga jedinica mjere u korelaciji sa Y sign X. Ovaj indikator je određen formulom

Ovdje vrijednosti s pomnožite sa veličinom intervala klasa λ ako su pronađeni varijacionim serijama ili korelacionim tabelama.

Koeficijent regresije se može izračunati zaobilazeći izračunavanje standardnih devijacija s y i s x prema formuli

Ako je koeficijent korelacije nepoznat, koeficijent regresije se određuje na sljedeći način:

Odnos regresije i koeficijenata korelacije. Upoređujući formule (11.1) (tema 11) i (12.5), vidimo da njihov brojilac sadrži istu vrijednost , što ukazuje na povezanost ovih indikatora. Ovaj odnos se izražava jednakošću

Dakle, koeficijent korelacije jednak je geometrijskoj sredini koeficijenata b yx i b xy. Formula (6) dozvoljava, prvo, poznate vrijednosti koeficijenata regresije b yx i b xy odrediti koeficijent regresije R xy, i drugo, provjeriti ispravnost izračunavanja ovog pokazatelja korelacije R xy između različitih osobina X i Y.

Kao i koeficijent korelacije, koeficijent regresije karakteriše samo linearni odnos i prati ga znak plus za pozitivan odnos i znak minus za negativan odnos.

Određivanje parametara linearne regresije. Poznato je da je zbir kvadrata odstupanja varijante x i od prosjeka postoji najmanja vrijednost, tj. Ova teorema čini osnovu metode najmanjih kvadrata. S obzirom na linearnu regresiju [vidi formule (1)], zahtjev ove teoreme je zadovoljen određenim sistemom jednačina tzv. normalno:

Zajedničko rješenje ovih jednačina s obzirom na parametre a i b dovodi do sljedećih rezultata:

;

;

, odakle i.

S obzirom na dvosmjernu prirodu odnosa između varijabli Y i X, formula za određivanje parametra a treba izraziti ovako:

i . (7)

Parametar b, ili koeficijent regresije, određuje se sljedećim formulama:

Konstrukcija empirijskih regresijskih serija. U prisustvu velikog broja zapažanja, regresiona analiza počinje izgradnjom empirijskih regresijskih serija. Empirijski regresijski niz formira se izračunavanjem vrijednosti jednog varijabilnog atributa X prosječne vrijednosti drugog, u korelaciji sa X sign Y. Drugim riječima, konstrukcija empirijske regresijske serije svodi se na pronalaženje grupne sredine u iz odgovarajućih vrijednosti znakova Y i X.

Empirijski regresijski niz je dvostruki niz brojeva koji se može predstaviti tačkama na ravni, a zatim se povezivanjem ovih tačaka pravim segmentima može dobiti empirijska regresijska linija. Empirijski regresijski nizovi, posebno njihovi zapleti, tzv regresijske linije, daju vizuelni prikaz oblika i čvrstoće korelacione zavisnosti između različitih karakteristika.

Izjednačavanje empirijskih regresijskih serija. Grafovi empirijskih regresijskih serija su, po pravilu, isprekidane, a ne glatke linije. To se objašnjava činjenicom da, uz glavne razloge koji određuju opći obrazac varijabilnosti koreliranih osobina, na njihovu vrijednost utječe i utjecaj brojnih sekundarnih uzroka koji uzrokuju slučajne fluktuacije u čvornim točkama regresije. Da biste identifikovali glavni trend (trend) konjugovane varijacije koreliranih karakteristika, morate da zamenite isprekidane linije glatkim regresijskim linijama koje se glatko kreću. Zove se proces zamjene isprekidanih linija glatkim usklađivanje empirijskih serija i regresijske linije.

Metoda grafičkog poravnanja. Ovo je najjednostavniji metod koji ne zahtijeva računski rad. Njegova suština je sljedeća. Empirijski regresijski niz je iscrtan kao graf u pravougaonom koordinatnom sistemu. Zatim se vizualno ocrtavaju sredine regresije, duž kojih se pomoću ravnala ili uzorka crta puna linija. Nedostatak ove metode je očigledan: ne isključuje utjecaj individualnih karakteristika istraživača na rezultate poravnanja empirijskih regresijskih linija. Stoga se u slučajevima kada je potrebna veća preciznost pri zamjeni izlomljenih regresijskih linija glatkim, koriste se druge metode poravnanja empirijskih serija.

Metoda pokretnog prosjeka. Suština ove metode svodi se na sekvencijalno izračunavanje aritmetičke sredine dva ili tri susjedna člana empirijskog niza. Ova metoda je posebno pogodna u slučajevima kada je empirijski niz predstavljen velikim brojem članova, tako da gubitak dva od njih - ekstremnih, koji je neminovan kod ovog načina izjednačavanja, neće primjetno utjecati na njegovu strukturu.

Metoda najmanjeg kvadrata. Ovu metodu je početkom 19. vijeka predložio A.M. Legendre i, nezavisno od njega, K. Gauss. Omogućava vam da najpreciznije uskladite empirijski niz. Ova metoda, kao što je gore prikazano, zasniva se na pretpostavci da je zbir kvadrata odstupanja varijante x i od njihovog prosjeka postoji minimalna vrijednost, odnosno otuda naziv metode, koja se koristi ne samo u ekologiji, već iu tehnologiji. Metoda najmanjih kvadrata je objektivna i univerzalna, koristi se u raznim slučajevima pri pronalaženju empirijskih jednačina regresionih serija i određivanju njihovih parametara.

Zahtjev metode najmanjih kvadrata je da se teorijske točke linije regresije moraju dobiti na takav način da se zbroj kvadrata odstupanja od ovih tačaka za empirijska promatranja y i bio minimalan, tj.

Izračunavajući minimum ovog izraza u skladu sa principima matematičke analize i transformišući ga na određeni način, može se dobiti sistem tzv. normalne jednačine, u kojem su nepoznate vrijednosti željeni parametri regresijske jednadžbe, a poznati koeficijenti su određeni empirijskim vrijednostima karakteristika, obično sumama njihovih vrijednosti i njihovih unakrsnih proizvoda.

Višestruka linearna regresija. Odnos između nekoliko varijabli obično se izražava višestrukom regresijskom jednadžbom, što može biti linearno i nelinearne. U svom najjednostavnijem obliku, višestruka regresija je izražena jednadžbom s dvije nezavisne varijable ( x, z):

gdje a je slobodni član jednačine; b i c su parametri jednačine. Za pronalaženje parametara jednačine (10) (metodom najmanjih kvadrata) koristi se sljedeći sistem normalnih jednačina:

Redovi dinamike. Poravnanje redova. Promjena znakova tokom vremena formira tzv vremenske serije ili redovi dinamike. Karakteristična karakteristika takvih serija je da faktor vremena uvijek djeluje kao nezavisna varijabla X, a promjenjivi predznak je zavisna varijabla Y. Ovisno o regresijskoj seriji, odnos između varijabli X i Y je jednostran, jer vremenski faktor ne zavisi od varijabilnosti karakteristika. Uprkos ovim karakteristikama, vremenske serije se mogu uporediti sa regresijskim serijama i obraditi istim metodama.

Poput regresijskih serija, na empirijske vremenske serije utiču ne samo glavni, već i brojni sekundarni (slučajni) faktori koji prikrivaju glavni trend varijabilnosti karakteristika, koji se jezikom statistike naziva trend.

Analiza vremenskih serija počinje identifikovanjem oblika trenda. Da biste to učinili, vremenska serija je prikazana kao linijski graf u pravokutnom koordinatnom sistemu. Istovremeno, vremenske tačke (godine, meseci i druge jedinice vremena) se crtaju duž ose apscise, a vrednosti zavisne varijable Y duž ordinatne ose. je jednadžba regresije u obliku odstupanja članova niza zavisne varijable Y od aritmetičke sredine niza nezavisne varijable X:

Ovdje je parametar linearne regresije.

Numeričke karakteristike serije dinamike. Glavne generalizirajuće numeričke karakteristike serije dinamike uključuju geometrijska sredina i aritmetička sredina blizu toga. Oni karakteriziraju prosječnu stopu kojom se vrijednost zavisne varijable mijenja u određenim vremenskim periodima:

Procjena varijabilnosti članova dinamičke serije je standardna devijacija. Prilikom odabira jednadžbi regresije za opisivanje vremenske serije uzima se u obzir oblik trenda, koji može biti linearan (ili svedeni na linearan) i nelinearan. Ispravnost izbora regresijske jednadžbe obično se ocjenjuje po sličnosti empirijski promatranih i izračunatih vrijednosti zavisne varijable. Tačnija u rješavanju ovog problema je metoda regresione analize varijanse (tema 12 str.4).

Korelacija serija dinamike.Često je potrebno porediti dinamiku paralelnih vremenskih serija koje su međusobno povezane nekim opštim uslovima, na primer, da bi se utvrdila veza između poljoprivredne proizvodnje i rasta stoke u određenom vremenskom periodu. U takvim slučajevima, odnos između varijabli X i Y karakterizira koeficijent korelacije R xy (u prisustvu linearnog trenda).

Poznato je da je trend niza dinamike, po pravilu, zamagljen fluktuacijama u terminima niza zavisne varijable Y. Otuda se javlja dvostruki problem: mjerenje zavisnosti između upoređenih serija, bez isključivanja trend i mjerenje zavisnosti između susjednih članova iste serije, isključujući trend. U prvom slučaju pokazatelj je bliskosti veze između upoređenih serija dinamike koeficijent korelacije(ako je odnos linearan), u drugom - koeficijent autokorelacije. Ovi indikatori imaju različite vrijednosti, iako se računaju korištenjem istih formula (vidi temu 11).

Lako je uočiti da na vrijednost koeficijenta autokorelacije utiče varijabilnost članova niza zavisne varijable: što manje članovi serije odstupaju od trenda, to je veći koeficijent autokorelacije i obrnuto.

Regresiona i korelaciona analiza - statističke metode istraživanja. Ovo su najčešći načini da se pokaže zavisnost parametra od jedne ili više nezavisnih varijabli.

U nastavku ćemo, koristeći konkretne praktične primjere, razmotriti ove dvije vrlo popularne analize među ekonomistima. Navest ćemo i primjer dobijanja rezultata kada se kombinuju.

Regresiona analiza u Excelu

Pokazuje uticaj nekih vrednosti (nezavisnih, nezavisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva zavisi od broja preduzeća, plata i drugih parametara. Ili: kako strane investicije, cijene energije itd. utiču na nivo BDP-a.

Rezultat analize vam omogućava da odredite prioritete. I na osnovu glavnih faktora, predviđati, planirati razvoj prioritetnih oblasti, donositi upravljačke odluke.

Regresija se dešava:

  • linearni (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolično (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Razmotrite primjer izgradnje regresijskog modela u Excelu i interpretacije rezultata. Uzmimo linearni tip regresije.

Zadatak. U 6 preduzeća analizirana je prosječna mjesečna plata i broj zaposlenih koji su otišli. Potrebno je utvrditi zavisnost broja zaposlenih u penziji od prosječne plate.

Model linearne regresije ima sljedeći oblik:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Gdje su a koeficijenti regresije, x su varijable koje utiču, a k je broj faktora.

U našem primjeru, Y je indikator radnika koji su dali otkaz. Faktor uticaja su plate (x).

Excel ima ugrađene funkcije koje se mogu koristiti za izračunavanje parametara modela linearne regresije. Ali dodatak Analysis ToolPak će to učiniti brže.

Aktivirajte moćan analitički alat:

Kada se aktivira, dodatak će biti dostupan na kartici Podaci.

Sada ćemo se direktno pozabaviti regresionom analizom.



Prije svega, obraćamo pažnju na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru to je 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju odnos između proučavanih parametara za 75,5%. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše - manje od 0,5 (ovakva analiza se teško može smatrati razumnom). U našem primjeru - "nije loše".

Koeficijent 64,1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatraju jednake 0. Odnosno, na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u modelu.

Koeficijent -0,16285 pokazuje težinu varijable X prema Y. Odnosno, prosječna mjesečna plata u okviru ovog modela utiče na broj onih koji odustaju sa ponderom od -0,16285 (ovo je mali stepen uticaja). Znak “-” ukazuje na negativan uticaj: što je veća plata, to je manje otkaza. Što je pošteno.



Korelaciona analiza u Excel-u

Korelaciona analiza pomaže da se utvrdi da li postoji veza između indikatora u jednom ili dva uzorka. Na primjer, između vremena rada mašine i troškova popravki, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji veza, onda da li povećanje jednog parametra dovodi do povećanja (pozitivna korelacija) ili smanjenja (negativna) u drugom. Analiza korelacije pomaže analitičaru da utvrdi da li vrijednost jednog indikatora može predvidjeti moguću vrijednost drugog.

Koeficijent korelacije označava se r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je vrijednost koeficijenta 0, ne postoji linearna veza između uzoraka.

Razmislite kako koristiti Excel za pronalaženje koeficijenta korelacije.

Funkcija CORREL se koristi za pronalaženje uparenih koeficijenata.

Zadatak: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Stavite kursor u bilo koju ćeliju i pritisnite dugme fx.

  1. U kategoriji "Statistički" odaberite funkciju CORREL.
  2. Argument "Niz 1" - prvi raspon vrijednosti - vrijeme mašine: A2: A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - cijena popravka: B2:B14. Kliknite OK.

Da biste odredili vrstu veze, potrebno je pogledati apsolutni broj koeficijenta (svako polje aktivnosti ima svoju skalu).

Za korelacione analize nekoliko parametara (više od 2) pogodnije je koristiti "Analizu podataka" (dodatak "Paket analize"). Na listi morate odabrati korelaciju i odrediti niz. Sve.

Dobijeni koeficijenti će biti prikazani u korelacionoj matrici. kao ovaj:

Korelaciono-regresiona analiza

U praksi se ove dvije tehnike često koriste zajedno.

primjer:


Sada su vidljivi podaci regresione analize.

Glavna karakteristika regresione analize je da se ona može koristiti za dobijanje specifičnih informacija o obliku i prirodi odnosa između varijabli koje se proučavaju.

Redoslijed faza regresione analize

Razmotrimo ukratko faze regresione analize.

    Formulacija zadatka. U ovoj fazi se formiraju preliminarne hipoteze o zavisnosti proučavanih pojava.

    Definicija zavisnih i nezavisnih (objašnjavajućih) varijabli.

    Prikupljanje statističkih podataka. Podaci se moraju prikupiti za svaku od varijabli uključenih u regresijski model.

    Formulacija hipoteze o obliku veze (jednostavna ili višestruka, linearna ili nelinearna).

    Definicija regresijske funkcije (sastoji se od izračunavanja numeričkih vrijednosti parametara regresijske jednadžbe)

    Procjena tačnosti regresione analize.

    Interpretacija dobijenih rezultata. Rezultati regresione analize uspoređeni su s preliminarnim hipotezama. Ocjenjuje se ispravnost i vjerodostojnost dobivenih rezultata.

    Predviđanje nepoznatih vrijednosti zavisne varijable.

Uz pomoć regresione analize moguće je riješiti problem predviđanja i klasifikacije. Prediktivne vrijednosti se izračunavaju zamjenom vrijednosti objašnjavajućih varijabli u jednadžbu regresije. Problem klasifikacije je riješen na ovaj način: regresijska linija dijeli cijeli skup objekata u dvije klase, a dio skupa u kojem je vrijednost funkcije veća od nule pripada jednoj klasi, a dio gdje je manja. nego nula pripada drugoj klasi.

Zadaci regresione analize

Razmotrite glavne zadatke regresione analize: utvrđivanje oblika zavisnosti, određivanje regresijske funkcije, procjena nepoznatih vrijednosti zavisne varijable.

Uspostavljanje oblika zavisnosti.

Priroda i oblik odnosa između varijabli mogu formirati sljedeće vrste regresije:

    pozitivna linearna regresija (izražena kao uniforman rast funkcije);

    pozitivna ravnomjerno ubrzavajuća regresija;

    pozitivna ravnomjerno rastuća regresija;

    negativna linearna regresija (izražena kao uniforman pad funkcije);

    negativna ravnomerno ubrzana opadajuća regresija;

    negativna ravnomjerno opadajuća regresija.

Međutim, opisane sorte se obično ne nalaze u čistom obliku, već u kombinaciji jedna s drugom. U ovom slučaju se govori o kombinovanim oblicima regresije.

Definicija funkcije regresije.

Drugi zadatak je da se utvrdi uticaj na zavisnu varijablu glavnih faktora ili uzroka, pod uslovom da su sve ostale jednake, i uz isključenje uticaja na zavisnu varijablu slučajnih elemenata. regresijska funkcija definisana kao matematička jednačina jednog ili drugog tipa.

Procjena nepoznatih vrijednosti zavisne varijable.

Rješenje ovog problema svodi se na rješavanje problema jednog od sljedećih tipova:

    Procjena vrijednosti zavisne varijable unutar razmatranog intervala početnih podataka, tj. nedostajuće vrijednosti; ovo rješava problem interpolacije.

    Procjena budućih vrijednosti zavisne varijable, tj. pronalaženje vrijednosti izvan zadanog intervala početnih podataka; ovo rješava problem ekstrapolacije.

Oba problema se rješavaju zamjenom pronađenih procjena parametara vrijednosti nezavisnih varijabli u jednadžbu regresije. Rezultat rješavanja jednadžbe je procjena vrijednosti ciljne (zavisne) varijable.

Pogledajmo neke od pretpostavki na koje se oslanja regresiona analiza.

Pretpostavka linearnosti, tj. pretpostavlja se da je odnos između varijabli koje se razmatraju linearan. Dakle, u ovom primjeru smo napravili dijagram raspršenosti i mogli smo vidjeti jasnu linearnu vezu. Ako na dijagramu raspršenosti varijabli vidimo jasno odsustvo linearne veze, tj. postoji nelinearna veza, treba koristiti nelinearne metode analize.

Pretpostavka normalnosti ostaci. Pretpostavlja se da je distribucija razlike između predviđenih i posmatranih vrijednosti normalna. Da biste vizualno odredili prirodu distribucije, možete koristiti histograme ostaci.

Kada se koristi regresiona analiza, treba uzeti u obzir njeno glavno ograničenje. Sastoji se u činjenici da vam regresiona analiza omogućava da otkrijete samo zavisnosti, a ne odnose koji su u osnovi ovih zavisnosti.

Regresiona analiza omogućava procjenu stepena povezanosti između varijabli izračunavanjem očekivane vrijednosti varijable na osnovu nekoliko poznatih vrijednosti.

Jednačina regresije.

Jednačina regresije izgleda ovako: Y=a+b*X

Koristeći ovu jednačinu, varijabla Y se izražava u terminima konstante a i nagiba linije (ili nagiba) b pomnožene vrijednošću varijable X. Konstanta a se također naziva presjekom, a nagib je regresija koeficijent ili B-faktor.

U većini slučajeva (ako ne i uvijek) postoji određena raspršenost zapažanja o liniji regresije.

Ostatak je odstupanje pojedinačne tačke (opažanja) od linije regresije (predviđena vrijednost).

Da biste riješili problem regresione analize u MS Excelu, odaberite iz izbornika Servis"Paket analiza" i alat za analizu regresije. Navedite ulazne intervale X i Y. Ulazni interval Y je raspon zavisnih podataka koji se analiziraju i mora uključivati ​​jednu kolonu. Interval unosa X je opseg nezavisnih podataka koji se analiziraju. Broj ulaznih raspona ne smije biti veći od 16.

Na izlazu procedure u izlaznom opsegu dobijamo dat izveštaj tabela 8.3a-8.3v.

REZULTATI

Tabela 8.3a. Statistika regresije

Statistika regresije

Višestruki R

R-kvadrat

Normalizovani R-kvadrat

standardna greška

Zapažanja

Prvo, razmotrite gornji dio izračuna prikazanih u tabela 8.3a, - statistika regresije.

Vrijednost R-kvadrat, koji se naziva i mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrat je između ovih vrijednosti, naziva se ekstremna, tj. između nule i jedan.

Ako vrijednost R-kvadrat blizu jedinice, to znači da konstruisani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Obrnuto, vrijednost R-kvadrat, blizu nule, znači loš kvalitet izrađenog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

množina R - koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R jednaka kvadratnom korijenu koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nule do jedan.

U jednostavnoj linearnoj regresijskoj analizi množina R jednaka Pearsonovom koeficijentu korelacije. stvarno, množina R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti

Odds

standardna greška

t-statistika

Y-raskrsnica

Varijabla X 1

* Navedena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna predstavljenih u tabela 8.3b. Ovdje je dat koeficijent regresije b (2,305454545) i pomak duž y-ose, tj. konstanta a (2,694545455).

Na osnovu proračuna, možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu predznaka (negativnih ili pozitivnih) koeficijenata regresije (koeficijent b).

Ako je predznak koeficijenta regresije pozitivan, odnos između zavisne varijable i nezavisne varijable će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je predznak koeficijenta regresije negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

AT tabela 8.3c. prikazani su izlazni rezultati ostaci. Da bi se ovi rezultati pojavili u izvještaju, potrebno je aktivirati checkbox "Residuals" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tabela 8.3c. Ostaje

Opservacija

Predviđeno Y

Ostaje

Standardni bilansi

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruirane linije regresije. Najveća apsolutna vrijednost ostatak u našem slučaju - 0,778, najmanji - 0,043. Za bolju interpretaciju ovih podataka koristićemo graf originalnih podataka i konstruisanu liniju regresije prikazane na Sl. pirinač. 8.3. Kao što vidite, linija regresije je prilično precizno "uklopljena" u vrijednosti izvornih podataka.

Treba uzeti u obzir da je primjer koji se razmatra prilično jednostavan i da je daleko od uvijek moguće kvalitativno konstruirati liniju linearne regresije.

Rice. 8.3. Početni podaci i linija regresije

Problem procjene nepoznatih budućih vrijednosti zavisne varijable na osnovu poznatih vrijednosti nezavisne varijable ostao je nerazmatran, tj. zadatak predviđanja.

Imajući jednadžbu regresije, problem predviđanja se svodi na rješavanje jednadžbe Y= x*2,305454545+2,694545455 sa poznatim vrijednostima x. Prikazani su rezultati predviđanja zavisne varijable Y šest koraka unaprijed u tabeli 8.4.

Tabela 8.4. Y varijabilni rezultati predviđanja

Y (predviđeno)

Dakle, kao rezultat upotrebe regresione analize u Microsoft Excel paketu, mi:

    izgrađena jednačina regresije;

    utvrđen oblik zavisnosti i pravac odnosa između varijabli - pozitivna linearna regresija, koja se izražava u ravnomernom rastu funkcije;

    utvrdio pravac odnosa između varijabli;

    procijenio kvalitet rezultirajuće linije regresije;

    bili u mogućnosti da vide odstupanja izračunatih podataka od podataka originalnog skupa;

    predvidio buduće vrijednosti zavisne varijable.

Ako a regresijska funkcija je definiran, interpretiran i opravdan, a procjena tačnosti regresione analize ispunjava zahtjeve, možemo pretpostaviti da su izgrađeni model i prediktivne vrijednosti dovoljno pouzdani.

Predviđene vrijednosti dobijene na ovaj način su prosječne vrijednosti koje se mogu očekivati.

U ovom radu razmotrili smo glavne karakteristike deskriptivna statistika a među njima i koncepti kao što su znači,medijana,maksimum,minimum i druge karakteristike varijacije podataka.

Također je održana kratka rasprava o konceptu emisije. Razmatrane karakteristike se odnose na tzv. istraživačku analizu podataka, čiji se zaključci možda ne odnose na opštu populaciju, već samo na uzorak podataka. Eksploratorna analiza podataka koristi se za donošenje primarnih zaključaka i formiranje hipoteza o populaciji.

Razmotrene su i osnove korelacione i regresione analize, njihovi zadaci i mogućnosti praktične upotrebe.

Dijeli