Granična greška formule srednje vrijednosti uzorka. Specifične, srednje i granične greške uzorkovanja

Nesklad između vrijednosti indikatora dobijenih iz uzorka i odgovarajućih parametara opće populacije naziva se greška reprezentativnosti. Razlikujte sistematske i slučajne greške uzorkovanja.

Slučajne greške objašnjavaju se nedovoljno ujednačenom zastupljenošću u populaciji uzorka različitih kategorija jedinica opšte populacije.

Sistematske greške može biti povezano sa kršenjem pravila selekcije ili uslova za implementaciju uzorka.

Dakle, pri anketiranju budžeta domaćinstava okvir uzorkovanja se gradio više od 40 godina na osnovu teritorijalno-sektorskog principa selekcije, što je bilo zbog glavnog cilja proračunskog istraživanja - karakterizacije životnog standarda radnika, zaposlenih. i kolekcionari. Uzorak je raspoređen po regionima i sektorima privrede RSFSR proporcionalno ukupna snaga zaposlen; za kreiranje industrijskog uzorka korišćen je tipičan uzorak sa mehaničkim odabirom jedinica unutar grupa.

Glavni kriterijum izbora bila je prosečna mesečna plata. Princip selekcije obezbijedio je proporcionalnu zastupljenost u uzorku radnika sa različitim nivoima zarada.

Pojavom novih društvenih grupa (preduzetnici, poljoprivrednici, nezaposleni), reprezentativnost uzorka je narušena ne samo zbog razlika u strukturi opšte populacije, već i zbog sistematske greške koja je nastala zbog neusklađenosti između jedinica za uzorkovanje (radnik) i jedinica za posmatranje (domaćinstvo). Veća je vjerovatnoća da će biti odabrano domaćinstvo sa više od jednog zaposlenog člana porodice nego domaćinstvo sa jednim radnikom. Porodice koje nisu zaposlene u anketiranim sektorima ispale su iz opsega odabranih jedinica (penzionerska domaćinstva, samozaposlena domaćinstva, itd.). Bilo je teško procijeniti tačnost dobijenih rezultata (granice intervala povjerenja, greške uzorkovanja), budući da pri konstrukciji uzorka nisu korišteni vjerojatnosni modeli.

U 1996–1997 uveden je fundamentalno novi pristup formiranju uzorka domaćinstava. Kao osnova za njegovu realizaciju korišteni su podaci mikropopisa stanovništva iz 1994. Opću populaciju u selekciji činile su sve vrste domaćinstava, osim kolektivnih. I skup uzorka počeo se organizirati uzimajući u obzir reprezentativnost sastava i tipova domaćinstava unutar svakog subjekta Ruske Federacije.

Mjerenje grešaka u reprezentativnosti indikatora uzorka zasniva se na pretpostavci o nasumičnoj prirodi njihove distribucije na beskonačno veliki brojevi uzorci.

Kvantificiranje pouzdanosti indikatora uzorka koristi se da bi se dobila ideja o općoj karakteristici. To se provodi ili na osnovu indikatora uzorka, uzimajući u obzir njegovu slučajnu grešku, ili na osnovu određene hipoteze (o vrijednosti prosječne disperzije, prirodi distribucije, odnosa) u pogledu svojstava opšta populacija.

Da bi se testirala hipoteza, ocjenjuje se konzistentnost empirijskih podataka sa hipotetičkim podacima.

Veličina greške slučajne reprezentativnosti zavisi od:

  • 1) o veličini uzorka;
  • 2) stepen varijacije proučavane osobine u opštoj populaciji;
  • 3) prihvaćen način formiranja uzorka populacije.

Postoje srednje (standardne) i marginalne greške uzorkovanja.

Prosječna greška karakterizira mjeru odstupanja indikatora uzorka od sličnih indikatora opšte populacije.

marginalna greška uobičajeno je uzeti u obzir maksimalno moguće odstupanje između uzorka i općih karakteristika, tj. maksimalna greška za datu vjerovatnoću njenog nastanka.

Prema populaciji uzorka moguće je vrednovati različite indikatore (parametre) opšte populacije. Najčešće korišteni rezultati su:

  • - opšta prosečna vrednost proučavane osobine (za viševrednosno kvantitativno svojstvo);
  • – generalni udio (za alternativni znak).

Osnovni princip primjene metode uzorkovanja je osigurati jednaku mogućnost da sve jedinice opće populacije budu odabrane u populaciju uzorka. Ovim pristupom uvažava se zahtjev nasumične, objektivne selekcije i stoga je greška uzorkovanja određena prvenstveno njenom veličinom ( P ). Sa povećanjem potonjeg, vrijednost prosječne greške opada, karakteristike populacije uzorka se približavaju karakteristikama opće populacije.

Uz isti broj skupova uzorkovanja i podjednake druge uslove, greška uzorkovanja će biti manja u onom od njih, koji je odabran iz opšte populacije sa manjom varijacijom osobine koja se proučava. Smanjenje varijacije osobine znači smanjenje vrijednosti varijanse (za kvantitativno svojstvo ili za alternativno svojstvo).

Ovisnost veličine greške uzorkovanja o metodama formiranja populacije uzorka određena je formulama za prosječnu grešku uzorkovanja (tablica 5.2).

Dopunimo indikatore tabele. 5.2 sa sljedećim objašnjenjima.

Varijanca uzorka je nešto manja od opšte, što je dokazano u matematičkoj statistici

Tabela 5.2

Formule za izračunavanje prosječne greške uzorka mri razne načine izbor

Tip uzorka

ponovljeno za

neponovljivo za

Zapravo

nasumično

(jednostavno)

Serial

(sa jednakim

Tipično (proporcionalno veličini grupa)

Ako je uzorak velik (tj. P dovoljno velik), tada se omjer približava jedinici i varijansa uzorka se praktično poklapa sa općom.

Uzorak se smatra bezuslovno velikim kada n> 100 i bezuslovno mali na P < 30. При оценке результатов mali uzorak naznačeni odnos uzorka i opšte varijanse treba uzeti u obzir.

Oni se mogu izračunati pomoću sljedećih formula:

gdje je prosjek i th serija; je ukupni prosjek za cijeli uzorak;

gdje je udio jedinica određene kategorije u i th serija; - udio jedinica ove kategorije u cjelokupnom uzorku; r- broj odabranih epizoda.

4. Za određivanje prosječne greške tipičnog uzorka u slučaju odabira jedinica proporcionalno veličini svake grupe, prosjek unutargrupnih disperzija (- za kvantitativno svojstvo, za alternativno svojstvo) djeluje kao indikator varijacije . Prema pravilu sabiranja varijanse, vrijednost prosjeka unutargrupnih varijansi je manja od vrijednosti ukupne varijanse. Srednja vrijednost moguća greška tipično uzorkovanje je manje od greške jednostavnog pravilnog slučajnog uzorkovanja.

Često se koristi kombinovani izbor: individualni odabir jedinica se kombinuje sa grupnim odabirom, tipičan odabir se kombinuje sa selekcijom u serijama. Uz bilo koju metodu selekcije, sa određenom vjerovatnoćom, može se tvrditi da odstupanje srednje vrijednosti uzorka (ili udjela) od opšte srednje vrijednosti (ili udjela) neće premašiti određenu vrijednost, koja se naziva marginalna greška uzorci.

Omjer između granice greške uzorkovanja (∆) zajamčena s određenom vjerovatnoćom F(t), a srednja greška uzorkovanja ima oblik: ili , gdje t – koeficijent pouzdanosti, određen u zavisnosti od nivoa verovatnoće F(t).

Vrijednosti funkcije F(t) i t određuju se na osnovu posebno sastavljenih matematičkih tabela. Evo nekih od najčešće korištenih:

t

Dakle, granična greška uzorkovanja odgovara na pitanje tačnosti uzorkovanja sa određenom vjerovatnoćom, čija vrijednost ovisi o vrijednosti koeficijenta pouzdanosti t. Da, u t = 1 vjerovatnoća F(t ) odstupanje karakteristika uzorka od opštih za vrijednost pojedinačne srednje greške je 0,683. Shodno tome, u prosjeku, od svakih 1000 uzoraka, 683 će dati generalizovane indikatore (prosjek, udio), koji će se od opštih razlikovati samo za jednu prosječnu grešku. At t = 2 vjerovatnoća F(t) je jednako 0,954, što znači da će od svakih 1000 uzoraka 954 dati opće pokazatelje koji će se razlikovati od općih za najviše dva puta prosječnu grešku uzorka itd.

Uz apsolutnu vrijednost granične greške uzorkovanja, također izračunavamo relativna greška koji je definiran kao postotak granične greške uzorkovanja u odnosu na odgovarajuću karakteristiku uzorka:

U praksi je uobičajeno da se vrijednost ∆ postavlja po pravilu unutar 10% očekivanog prosječnog nivoa atributa.

Izračun prosječne i granične greške uzorkovanja omogućava vam da odredite granice unutar kojih će karakteristike opće populacije biti:

Granice u kojima će, sa datim stepenom verovatnoće, biti sadržana nepoznata vrednost indikatora koji se proučava u opštoj populaciji nazivaju se interval povjerenja, i vjerovatnoća F(t) verovatnoća poverenja. Što je veća vrijednost ∆, veći je interval povjerenja i, posljedično, niža je tačnost procjene.

Razmotrite sljedeći primjer. Za određivanje prosječne veličine depozita u banci, metodom ponovljenog slučajnog uzorka odabrano je 200 deviznih računa deponenata. Kao rezultat toga, utvrđeno je da je prosječni iznos depozita bio 60 hiljada rubalja, disperzija je bila 32. Istovremeno se pokazalo da je 40 računa bilo na zahtjev. Potrebno je, sa vjerovatnoćom od 0,954, odrediti granice u kojima se nalaze prosječni iznos depozita na deviznim računima u banci i učešće računa po viđenju.

Izračunajte srednju grešku srednje vrijednosti uzorka koristeći formulu ponovnog odabira

Marginalna greška srednje vrijednosti uzorka s vjerovatnoćom od 0,954 će biti

Shodno tome, prosječan depozit na bankovnim računima u stranoj valuti je unutar hiljadu rubalja:

Sa vjerovatnoćom od 0,954, može se tvrditi da se prosječni depozit na bankovnim računima u stranoj valuti kreće od 59.200 do 60.800 rubalja.

Odredimo udio depozita po viđenju u populaciji uzorka:

Srednja greška udjela uzorka

Marginalna greška dionice sa vjerovatnoćom od 0,954 će biti

Dakle, udio računa tražnje u opštoj populaciji je unutar w :

Sa vjerovatnoćom od 0,954, može se tvrditi da se učešće računa po viđenju u ukupnom broju deviznih računa u banci kreće od 14,4 do 25,6%.

U specifičnim istraživanjima važno je uspostaviti optimalan odnos između mjere pouzdanosti dobijenih rezultata i veličine prihvatljive greške uzorkovanja. S tim u vezi, prilikom organizovanja posmatranja uzorka, postavlja se pitanje koje se odnosi na određivanje veličine uzorka koja je neophodna da bi se dobila potrebna tačnost rezultata sa datom verovatnoćom. Proračun potrebne veličine uzorka vrši se na osnovu formula za graničnu grešku uzorkovanja u skladu sa vrstom i metodom odabira (tabela 5.3).

Tabela 5.3

Formule za izračunavanje veličine uzorka uz odgovarajuću metodu slučajnog odabira

Nastavimo primjer koji predstavlja rezultate uzorka ankete ličnih računa štediša banaka.

Potrebno je odrediti koliko računa treba ispitati tako da s vjerovatnoćom od 0,977 greška u određivanju prosječnog iznosa depozita ne prelazi 1,5 hiljada rubalja. Izrazimo iz formule za marginalnu grešku uzorkovanja za ponovni odabir indikator veličine uzorka:

Prilikom određivanja potrebne veličine uzorka korištenjem gornjih formula, postaje teško pronaći vrijednosti σ2 i da, budući da se te vrijednosti mogu dobiti tek nakon uzorkovanja. S tim u vezi, umjesto stvarnih vrijednosti ovih indikatora, zamjenjuju se približne, koje bi se mogle utvrditi na osnovu bilo kojeg probnog uzorka zapažanja ili iz prethodnih analitičkih istraživanja.

U slučajevima kada statističar zna prosječnu vrijednost karakteristika koje se proučava (na primjer, iz uputstava, zakonskih akata, itd.) ili granice u kojima ova karakteristika varira, može se primijeniti sljedeći proračun pomoću približnih formula:

a proizvod w(1 – w) treba zamijeniti vrijednošću 0,25 (w = 0,5).

Da biste dobili precizniji rezultat, uzmite najveću moguću vrijednost ovih pokazatelja. Ako raspodjela osobine u općoj populaciji poštuje normalni zakon, tada je raspon varijacije približno jednak 6σ (ekstremne vrijednosti su odvojene od prosjeka za 3σ s obje strane). Dakle , Ali ako je distribucija očito asimetrična, onda .

Kod bilo koje vrste uzorka, njegov volumen počinje se izračunavati prema formuli ponovnog uzorkovanja

Ako, kao rezultat izračuna, udio selekcije ( n ) prelazi 5%, tada se proračun vrši prema formuli nerepetitivnog odabira.

Za tipičan uzorak potrebno je podijeliti ukupan volumen populacije uzorka između odabranih tipova jedinica. Izračunavanje broja posmatranja iz svake grupe zavisi od prethodno navedenih organizacionih oblika tipičnog uzorka.

U tipičnom odabiru jedinica nesrazmjerno broju grupa, ukupan broj odabranih jedinica dijeli se sa brojem grupa, a rezultirajuća vrijednost daje broj odabira iz svake tipične grupe:

gdje k je broj istaknutih tipičnih grupa.

Prilikom odabira jedinica proporcionalno broju tipičnih grupa, broj zapažanja za svaku grupu određuje se formulom

odakle je veličina uzorka i -th grupa; - volumen i -th grupa.

Prilikom odabira, uzimajući u obzir varijaciju osobine, procenat uzorka iz svake grupe treba da bude proporcionalan standardnoj devijaciji u ovoj grupi (). Izračunavanje broja () vrši se prema formulama

U serijskom odabiru, potreban broj odabranih serija se određuje na isti način kao i kod pravilnog slučajnog odabira:

Ponovna selekcija

Odabir koji se ne ponavlja

U ovom slučaju, varijanse i greške uzorkovanja mogu se izračunati za srednju vrijednost ili proporciju osobine.

Kada se koristi selektivno posmatranje, karakteristike njegovih rezultata moguće su na osnovu poređenja dobijenih granica greške selektivnih indikatora sa vrednošću dozvoljene greške.

S tim u vezi, nastaje problem određivanja vjerovatnoće da greška uzorkovanja neće premašiti dozvoljenu grešku. Rješenje ovog problema svodi se na proračun zasnovan na formuli za graničnu grešku uzorkovanja veličine t.

Nastavljajući razmatranje primjera uzorka ankete ličnih računa klijenata banke, naći ćemo vjerovatnoću s kojom se može tvrditi da greška u određivanju prosječne veličine depozita neće premašiti 785 rubalja:

odgovarajući nivo pouzdanosti je 0,95.

Trenutno praksa selektivnog posmatranja uključuje statistička posmatranja koja vrše:

  • - organi Rosstata;
  • – druga ministarstva i odeljenja (na primer, praćenje preduzeća u sistemu Banke Rusije).

Poznata generalizacija iskustva u organizovanju uzorka istraživanja malih preduzeća, stanovništva i domaćinstava predstavljena je u Metodološkim odredbama o statistici. Oni daju širi koncept selektivnog posmatranja nego što je gore diskutovano (Tabela 5.4).

U statističkoj praksi koriste se sve četiri vrste uzoraka prikazane u tabeli. 5.4. Međutim, prednost se obično daje gore opisanim probabilističkim (slučajnim) uzorcima, koji su najobjektivniji, jer se mogu koristiti za procjenu tačnosti rezultata dobijenih iz podataka samog uzorka.

Tabela 5.4

Tipovi uzoraka

U uzorcima kvazi-slučajni tip vjerovatnoća selekcije se pretpostavlja na osnovu toga da stručnjak koji razmatra uzorak smatra da je prihvatljivo. Primer upotrebe kvazi-slučajnog uzorkovanja u statističkoj praksi je „Anketa uzorkovanja malih preduzeća za proučavanje društvenih procesa u malom biznisu“, sprovedena 1996. godine u nekim regionima Rusije. Jedinice posmatranja (mala preduzeća) odabrane su stručno, uzimajući u obzir zastupljenost privrednih sektora iz već formiranog uzorka istraživanja finansijsko-ekonomskih aktivnosti malih preduzeća (obrazac „Informacije o glavnim pokazateljima finansijsko-ekonomske aktivnosti malog preduzeća"). Prilikom sumiranja podataka uzorka, pretpostavljeno je da je uzorak formiran metodom jednostavnog slučajnog odabira.

direktno upotreba stručnog mišljenja je najčešći metod namjernog uključivanja jedinica u uzorak. Primjer takve metode selekcije je monografska metoda, koja podrazumijeva dobijanje informacija samo od jedne jedinice posmatranja, što je tipično, prema riječima organizatora ankete – stručnjaka.

Uzorci na osnovu odabir smjera, implementiraju se korištenjem objektivne procedure, ali bez korištenja vjerojatnosnog mehanizma. Široko je poznata metoda glavnog niza, u kojoj su najveće (bitne) jedinice posmatranja uključene u uzorak, dajući glavni doprinos indikatoru, na primjer, ukupnu vrijednost karakteristike koja predstavlja glavnu svrhu istraživanja. .

U statističkoj praksi se često koristi kombinovana metoda statističko posmatranje. Kombinacija metoda kontinuiranog i selektivnog posmatranja ima dva aspekta:

  • smjena u vremenu;
  • njihova istovremena upotreba (dio populacije se posmatra kontinuirano, a dio - selektivno).

alternacija periodično uzorkovanje sa relativno rijetkim kontinuiranim anketama ili popisima neophodno je da se razjasni sastav proučavane populacije. U budućnosti, ove informacije se koriste kao statistička osnova za posmatranje uzorka. Primjeri su popisi stanovništva i ankete uzoraka domaćinstava između njih.

U tom slučaju morate riješiti sljedeće zadatke:

  • – utvrđivanje sastava znakova kontinuiranog posmatranja koji obezbjeđuju organizaciju uzorka;
  • – obrazloženje perioda alternacije, tj. kada kontinuirani podaci više nisu relevantni i potrebni su troškovi za njihovo ažuriranje.

Istovremena upotreba u okviru jednog istraživanja kontinuiranih i uzorkovanih opservacija je zbog heterogenosti populacija koje se susreću u statističkoj praksi. Ovo posebno važi za ankete ekonomska aktivnost skup preduzeća, koji se odlikuje iskrivljenim distribucijama karakteristika koje se proučavaju, kada određeni broj jedinica ima karakteristike koje se veoma razlikuju od većine vrednosti. U ovom slučaju takve jedinice se posmatraju kontinuirano, a drugi dio populacije selektivno.

Sa ovom organizacijom posmatranja, glavni zadaci su:

  • – uspostavljanje njihove optimalne proporcije;
  • – razvoj metoda za procjenu tačnosti rezultata.

Tipičan primjer koji ilustruje ovaj aspekt primjene kombinovane metode je opšti princip sprovođenje anketa stanovništva preduzeća, prema kojima se istraživanja stanovništva velikih i srednjih preduzeća sprovode uglavnom kontinuiranom metodom, a mala preduzeća metodom uzorka.

Daljnji razvoj metodologije uzorkovanja odvija se kako u kombinaciji sa organizacijom kontinuiranog posmatranja, tako i kroz organizaciju posebnih istraživanja, čije je provođenje diktirano potrebom za dobijanjem dodatnih informacija za rješavanje konkretnih problema. Dakle, organizacija istraživanja u oblasti uslova i životnog standarda stanovništva predviđena je u dva aspekta:

  • - obavezne komponente;
  • – dodatni moduli u okviru integrisanog sistema indikatora.

Obavezne komponente mogu biti godišnja istraživanja prihoda, rashoda i potrošnje (slično anketama o budžetu domaćinstava), koja uključuju i osnovne pokazatelje uslova života stanovništva. Svake godine, prema posebnom planu, obavezne komponente treba dopuniti jednokratnim anketama (modulima) o životnim uslovima stanovništva, u cilju dubinskog proučavanja bilo koje odabrane društvene teme iz njihovog ukupnog broja (npr. , imovina domaćinstva, zdravlje, ishrana, obrazovanje, uslovi rada, uslovi stanovanja, slobodno vreme, socijalna mobilnost, bezbednost itd.) sa različitom učestalošću, determinisanom potrebom za indikatorima i resursnim mogućnostima.

Kao što je poznato, u statistici postoje dva načina posmatranja masovnih pojava, u zavisnosti od potpunosti obuhvata objekta: kontinuirani i nekontinuirani. Varijacija diskontinuiranog posmatranja je selektivno posmatranje.

Ispod selektivno posmatranje se podrazumijeva kao nekontinuirano posmatranje, u kojem se jedinice proučavane populacije, nasumično odabrane, podvrgavaju statističkom ispitivanju (posmatranju).

Selektivno posmatranje postavlja sebi zadatak da karakteriše celokupnu populaciju jedinica za ispitivani deo, uz poštovanje svih pravila i principa statističkog posmatranja i naučno organizovanog rada na izboru jedinica.

Skup jedinica odabranih za istraživanje u statistici se obično naziva uzorak populacije , a skup jedinica iz kojih se vrši odabir se poziva opšta populacija . Glavne karakteristike opće populacije i populacije uzorka prikazane su u tabeli 1.

Tabela 1 - Glavne karakteristike opće populacije i populacije uzorka
IndikatorOznaka ili formula
Populacija Populacija uzorka
Broj jedinica N n
Broj jedinica koje imaju funkciju M m
Udio jedinica sa ovom karakteristikom p = M/N ω = m/n
Udio jedinica koje nemaju ovu osobinu q = 1 - str 1 - w
Prosječna vrijednost sign
Disperzija sign
Disperzija alternativnog obilježja (disperzija udjela) pq ω (1 - ω)

Prilikom selektivnog posmatranja dolazi do sistematskih i slučajnih grešaka. Sistematske greške nastaju zbog kršenja pravila za odabir jedinica u uzorku. Promjenom pravila odabira takve greške se mogu eliminirati.

Slučajne greške nastaju zbog diskontinualne prirode istraživanja. Inače se nazivaju greške reprezentativnosti (reprezentativnosti). Slučajne greške se dijele na prosječne i granične greške uzorkovanja, koje se utvrđuju kako pri izračunavanju obilježja tako i pri izračunavanju udjela.

Prosječna i granična greška povezane su sljedećom relacijom :Δ = tμ, gdje je Δ granična greška uzorkovanja, μ je prosječna greška uzorkovanja, t je faktor povjerenja određen u zavisnosti od nivoa vjerovatnoće. Tabela 2 prikazuje neke vrijednosti t preuzete iz teorije vjerovatnoće.

Vrijednost prosječne greške uzorkovanja se izračunava različito ovisno o metodi odabira i postupku uzorkovanja. Glavne formule za izračunavanje grešaka uzorkovanja prikazane su u tabeli 3.

Tabela 3 - Osnovne formule za izračunavanje grešaka uzorkovanja u ponavljajućem i neponovljenom odabiru
IndikatorOznaka i formula
Populacija Populacija uzorka
Srednja greška karakteristike za nasumično ponovno uzorkovanje
Srednja greška udjela za nasumično ponovno uzorkovanje
Granična greška karakteristike u slučaju slučajnog ponovnog odabira
Granična greška dijeljenja u nasumičnom ponovnom izboru
Prosječna greška osobine za slučajni nerepetitivni odabir
Srednja greška udjela u nasumičnom uzorku koji se ne ponavlja
Granična greška karakteristike sa slučajnim odabirom koji se ne ponavlja
Greška graničnog udjela za nasumični nerepetitivni odabir

Izračun prosječne i granične greške uzorkovanja omogućava vam da odredite moguće granice u kojima će karakteristike opće populacije biti .

Na primjer, za srednju vrijednost uzorka, takve granice se postavljaju na osnovu sljedećih odnosa:

Granice udjela osobine u opštoj populaciji str.

Primjeri rješavanja zadataka na temu "Uzorkovanje posmatranja u statistici"

Zadatak 1 . Postoje informacije o proizvodnji proizvoda (radova, usluga) dobijene na osnovu 10% uzorka posmatranja preduzeća u regionu:

Odrediti: 1) za preduzeća uključena u uzorak: a) prosečnu veličinu outputa po preduzeću; b) disperzija obima proizvodnje; c) udio preduzeća sa obimom proizvodnje većim od 400 hiljada rubalja; 2) za region u celini, sa verovatnoćom od 0,954, granice u kojima se može očekivati: a) prosečan obim proizvodnje po preduzeću; b) udio preduzeća sa obimom proizvodnje većim od 400 hiljada rubalja; 3) ukupan obim proizvodnje u regionu.

Odluka

Da bismo riješili problem, proširujemo predloženu tabelu.

1) Za preduzeća uključena u uzorak, prosječna veličina outputa po preduzeću

110800/400 = 277 hiljada rubalja

Disperziju obima proizvodnje izračunavamo na pojednostavljen način σ 2 = 35640000/400 - 277 2 = 89100 - 76229 = 12371.

Broj preduzeća čiji obim proizvodnje prelazi 400 hiljada rubalja. iznosi 36+12 = 48, a njihov udio je ω = 48:400 = 0,12 = 12%.

2) Iz teorije vjerovatnoće je poznato da je sa vjerovatnoćom P=0,954 faktor povjerenja t=2. Granična greška uzorkovanja

2√12371:400 = 11,12 hiljada rubalja

Postavimo granice opšteg prosjeka: 277-11,12 ≤Xav ≤ 277+11,12; 265,88 ≤Xav ≤ 288,12

Granična greška uzorkovanja udjela preduzeća

2√0,12*0,88/400 = 0,03

Definišemo granice opšteg udela: 0,12-0,03≤ p ≤0,12+0,03; 0,09≤ p≤0,15

3) Pošto razmatrana grupa preduzeća čini 10% od ukupnog broja preduzeća u regionu, u regionu u celini ima 4.000 preduzeća. Tada je ukupni obim proizvodnje u regionu unutar 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Zadatak 2 . Prema rezultatima kontrolne revizije poreskih organa 400 poslovnih struktura, njih 140 u poreskim prijavama ne iskazuje u potpunosti prihod koji podleže oporezivanju. Odrediti u opštoj populaciji (za cijeli region) udio poslovnih struktura koje su sakrile dio svojih poreskih prihoda sa vjerovatnoćom od 0,954.

Odluka

U skladu sa uslovom zadatka, broj jedinica u populaciji uzorka je n=400, broj jedinica sa razmatranim obeležjem je m=140, verovatnoća je P=0,954.

Iz teorije vjerovatnoće je poznato da je sa vjerovatnoćom P=0,954 faktor povjerenja t=2.

Udio jedinica koje imaju naznačeni atribut određuje se po formuli: p=w+∆p, gdje je w = m/n=140/400=0,35=35%,
a granična greška karakteristike ∆p se dobija iz formule: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Tada je p = 35±5%.

Odgovori : Udio poslovnih struktura koje su sakrile dio svojih poreskih prihoda sa vjerovatnoćom od 0,954 iznosi 35±5%.

Prosječna greška uzorkovanja je uvijek prisutan u studijama uzorka i javlja se zbog činjenice da se ne ispituju sve jedinice statističke populacije, već samo dio.

Srednja greška uzorkovanja postaje marginalna greška Δ kada se pomnoži sa faktorom povjerenja t , koji je unapred podešen na osnovu zahtevane tačnosti posmatranja. Marginalna greška vam omogućava da sa određenim stepenom verovatnoće procenite "pravu" veličinu parametra u opštoj populaciji

Za tipičan i serijski odabir, prilikom izračunavanja greške uzorkovanja umjesto ukupne varijanse 2 ) koristite srednju vrijednost varijansi unutar grupe i varijanse između grupa
, gdje
- privatna varijansa grupe i, svezak i grupa

Formule za marginalnu grešku slučajnog uzorka u određivanju prosjeka

Za ponovni izbor

Formule za graničnu grešku slučajnog uzorka u određivanju udjela

Za ponovni izbor

Za izbor koji se ne ponavlja

Formule za veličinu slučajnog uzorka u određivanju prosječne vrijednosti

Formule za broj slučajnih uzoraka u određivanju udjela proučavane osobine

Granična razlika između opšte i uzorka srednje vrednosti odgovara marginalnoj grešci

Vrijednosti vjerovatnoće i respektivno t nalaze se u tabelama distribucije:

  • Student (u slučaju malog uzorka)

Formule slučajnog uzorkovanja su također pogodne za mehaničko uzorkovanje.

Ako je potrebno zaokruživanje, kod slučajnog uzorkovanja - zaokruživanje nagore, kod mehaničkog uzorkovanja - zaokruživanje naniže.

Mali uzorak

Ako veličina uzorka nije veća od 30 jedinica, tada se prosječna greška malog uzorka u određivanju prosječne vrijednosti izračunava po formuli:

Za izračunavanje greške malog uzorka koristi se rafinirana formula varijanse

Vrste zadataka uzorkovanja

    definicija greške uzorkovanja,

    određivanje veličine uzorka n ,

    određivanje vjerovatnoće da srednja vrijednost uzorka (ili udio) odstupa od opće ne više od datog iznosa t=Δ/μ,

    procjena slučajnosti odstupanja u indikatorima posmatranja uzorka,

    prijenos karakteristika uzorka na opću populaciju.

Provjera hipoteze srednje vrijednosti i proporcije

Procjena slučajnosti odstupanja u indikatorima posmatranja uzorka


Metode za prijenos podataka uzorka na opću populaciju

    metoda vaganja;

    metoda ponovnog vaganja;

    način popunjavanja slučajnim odabirom u zamjenskim klasama.

Greške su sistematske i nasumične

Modularna jedinica 2 Greške uzorkovanja

Budući da uzorak obično pokriva vrlo mali dio populacije, treba pretpostaviti da će postojati razlike između procjene i karakteristike populacije koju ova procjena odražava. Ove razlike se nazivaju greške prikaza ili greške reprezentativnosti. Greške reprezentativnosti su klasifikovane u dva tipa: sistematske i slučajne.

Sistematske greške- ovo je stalno precjenjivanje ili potcjenjivanje vrijednosti procjene u odnosu na karakteristike opšte populacije. Razlog za pojavu sistematske greške je nepoštivanje principa jednake vjerovatnoće ulaska svake jedinice opće populacije u uzorak, odnosno uzorak se formira od pretežno „najgorih“ (ili „najboljih“) predstavnika. opšte populacije. Poštivanje principa jednakih šansi da svaka jedinica uđe u uzorak omogućava potpuno otklanjanje ove vrste greške.

Slučajne greške - ovo su razlike između procjene i procijenjene karakteristike opće populacije, koje variraju od uzorka do uzorka u znaku i veličini. Razlog za pojavu slučajnih grešaka je igra slučajnosti u formiranju uzorka koji je samo dio opće populacije. Ova vrsta greške je svojstvena metodi uzorkovanja. Nemoguće ih je potpuno isključiti, zadatak je predvidjeti njihovu moguću veličinu i svesti ih na minimum. Redoslijed radnji u vezi s tim slijedi iz razmatranja tri vrste slučajnih grešaka: specifične, srednje i ekstremne.

2.2.1 Specifično greška je greška jednog uzorka. Ako je prosjek za ovaj uzorak () procjena za opću srednju vrijednost (0) i, pod pretpostavkom da nam je ovaj opći prosjek poznat, onda je razlika = -0 i biće specifična greška ovog uzorka. Ako uzorak iz ove opće populacije ponovimo mnogo puta, onda svaki put dobijamo novu vrijednost određene greške: ..., itd. Što se tiče ovih specifičnih grešaka, možemo reći sljedeće: neke od njih će se podudarati po veličini i predznaku, odnosno postoji distribucija grešaka, neke od njih će biti jednake 0, postoji podudarnost procjene i parametra opšte populacije;

2.2.2 Prosječna greška je srednji kvadrat svih specifičnih grešaka u proceni mogućih slučajno: , gde je vrednost različitih specifičnih grešaka; učestalost (vjerovatnost) pojave određene greške. Prosječna greška uzorka pokazuje kolika se greška može napraviti u prosjeku ako se na osnovu procjene donese sud o parametru opšte populacije. Gornja formula otkriva sadržaj prosječne greške, ali se ne može koristiti za praktične proračune, makar samo zato što pretpostavlja poznavanje parametra opće populacije, što samo po sebi isključuje potrebu za uzorkovanjem.



Praktični proračuni srednje greške procjene temelje se na pretpostavci da je ona (srednja greška) u suštini standardna devijacija svih mogućih vrijednosti procjene. Ova premisa omogućava dobijanje algoritama za izračunavanje srednje greške na osnovu podataka jednog uzorka. Konkretno, srednja greška srednje vrijednosti uzorka može se utvrditi na osnovu sljedećeg rezonovanja. Postoji izbor (,… ) koji se sastoji od jedinica. Za uzorak, srednja vrijednost uzorka se utvrđuje kao procjena opšteg prosjeka. Svaku vrijednost (,… ) pod predznakom zbira treba smatrati nezavisnom slučajnom varijablom, budući da je prva, druga itd. jedinice mogu preuzeti bilo koju od vrijednosti prisutnih u općoj populaciji. Stoga, Budući da je, kao što je poznato, varijansa sume nezavisnih slučajnih varijabli jednaka zbroju varijansi, tada je . Iz toga slijedi da će prosječna greška za srednju vrijednost uzorka biti jednaka i obrnuto je povezana sa veličinom uzorka (kroz njegov kvadratni korijen) iu direktnoj proporciji sa standardnom devijacijom karakteristike u općoj populaciji. Ovo je logično, budući da je srednja vrijednost uzorka konzistentna procjena za opću srednju vrijednost i, kako se veličina uzorka povećava, približava se po svojoj vrijednosti procijenjenom parametru opšte populacije. Direktna ovisnost prosječne greške od varijabilnosti osobine je zbog činjenice da što je veća varijabilnost osobine u opštoj populaciji, to je teže izgraditi adekvatan model opšte populacije na osnovu uzorka. U praksi se standardna devijacija neke karakteristike u općoj populaciji zamjenjuje njenom procjenom za uzorak, a onda formula za izračunavanje prosječne greške srednje vrijednosti uzorka postaje:, uzimajući u obzir pristrasnost varijanse uzorka, standardna devijacija uzorka izračunava se po formuli = . Pošto simbol n označava veličinu uzorka. , tada nazivnik pri izračunavanju standardne devijacije ne treba koristiti veličinu uzorka (n), već tzv. broj stupnjeva slobode (n-1). Pod brojem stupnjeva slobode podrazumijeva se broj jedinica u agregatu, koji mogu slobodno varirati (mijenjati) ako je bilo koja karakteristika definirana u agregatu. U našem slučaju, pošto je određen prosjek uzorka, jedinice mogu slobodno varirati.

Tabela 2.2 daje formule za izračunavanje srednjih grešaka različitih procjena uzorka. Kao što se može vidjeti iz ove tabele, vrijednost prosječne greške za sve procjene je u povratne informacije sa veličinom uzorka i u pravoj liniji sa varijabilnošću. Ovo se može reći i za srednju grešku frakcije uzorka (učestalosti). Ispod korijena je varijansa alternativnog obilježja, utvrđena uzorkom ()

Formule date u tabeli 2.2 odnose se na takozvani slučajni, ponovljeni odabir jedinica u uzorku. Uz druge metode odabira, o kojima će biti riječi u nastavku, formule će biti donekle modificirane.

Tabela 2.2

Formule za izračunavanje srednjih grešaka procjena uzorka

2.2.3 Granična greška uzorkovanja Poznavanje procjene i njene srednje greške je u nekim slučajevima potpuno nedovoljno. Na primjer, kada se koriste hormoni u ishrani životinja, poznavanje samo prosječne veličine njihovih neraspadnutih štetnih ostataka i prosječne greške znači izlaganje potrošača proizvoda ozbiljnoj opasnosti. Ovdje je potrebno odrediti maksimum ( marginalna greška). Kada se koristi metoda uzorkovanja, granična greška se ne postavlja u obliku određene vrijednosti, već u obliku jednakih granica

(intervali) u bilo kojem smjeru od vrijednosti evaluacije.

Određivanje granica granične greške zasniva se na karakteristikama distribucije specifičnih grešaka. Za takozvane velike uzorke, čiji je broj veći od 30 jedinica () , specifične greške se raspoređuju u skladu sa normalan zakon distribucija; sa malim uzorcima () specifične greške se distribuiraju u skladu sa Gossetovim zakonom distribucije

(Student). U pogledu specifičnih grešaka srednje vrijednosti uzorka, funkcija normalne distribucije ima oblik: , gdje je gustina vjerovatnoće pojavljivanja određenih vrijednosti, s tim da su , gdje su srednje vrijednosti uzorka; - opšta srednja vrednost, - srednja greška za srednju vrednost uzorka. S obzirom da je prosječna greška () konstantna vrijednost, tada se, u skladu sa normalnim zakonom, distribuiraju specifične greške, izražene u dijelovima prosječne greške, ili takozvana normalizirana odstupanja.

Uzimajući integral funkcije normalne distribucije, može se utvrditi vjerovatnoća da će greška biti zatvorena u određenom intervalu od t i vjerovatnoća da će greška prijeći ovaj interval (obrnuti događaj). Na primer, verovatnoća da greška neće preći polovinu prosečne greške (u oba smera od opšteg proseka) je 0,3829, da će greška biti sadržana u jednoj prosečnoj grešci - 0,6827, 2 prosečne greške - 0,9545 itd.

Odnos između nivoa vjerovatnoće i intervala promjene t (i, konačno, intervala promjene greške) omogućava nam da pristupimo definiciji intervala (ili granica) granične greške, povezujući njegovu vrijednost s vjerovatnoćom. Vjerovatnoća implementacije je vjerovatnoća da će greška biti u nekom intervalu. Vjerovatnoća implementacije će biti "pouzdanje" u slučaju da suprotni događaj (greška će biti izvan intervala) ima takvu vjerovatnoću pojavljivanja da se može zanemariti. Stoga se nivo pouzdanosti vjerovatnoće postavlja, po pravilu, ne manji od 0,90 (vjerovatnoća suprotnog događaja je 0,10). Što više negativnih posledica ima pojava grešaka van utvrđenog intervala, to bi nivo poverenja verovatnoće trebalo da bude veći (0,95; 0,99; 0,999 i tako dalje).

Odabravši nivo pouzdanosti verovatnoće iz tabele integrala verovatnoće normalne distribucije, trebalo bi da pronađete odgovarajuću vrednost t, a zatim pomoću izraza = odredite interval granične greške . Značenje dobijene vrednosti je sledeće: sa prihvaćenim nivoom poverenja verovatnoće, marginalna greška srednje vrednosti uzorka neće preći .

Da bi se uspostavile granice marginalne greške na osnovu velikih uzoraka za druge procjene (varijansa, standardna devijacija, udjeli i tako dalje), koristi se gornji pristup, uzimajući u obzir činjenicu da se koristi drugačiji algoritam za određivanje prosječne greške za svaku procjenu .

Što se tiče malih uzoraka (), kao što je već pomenuto, distribucija grešaka u proceni odgovara u ovom slučaju raspodeli t - Student. Posebnost ove distribucije je u tome što, uz grešku, kao parametar sadrži i veličinu uzorka, odnosno ne veličinu uzorka, već broj stupnjeva slobode. Sa povećanjem veličine uzorka, t-Student distribucija se približava normalnoj, a pri , ove distribucije se praktično poklapaju. Uspoređujući vrijednosti t-Studenta i t - normalne distribucije sa istom vjerovatnoćom povjerenja, možemo reći da je vrijednost t-Studenta uvijek veća od t - normalne distribucije, a razlike se povećavaju sa smanjenjem veličine uzorka i sa povećanjem stepena poverenja verovatnoće. Shodno tome, kada se koriste mali uzorci, postoje veće margine marginalne greške u poređenju sa velikim uzorcima, a ove granice se šire sa smanjenjem veličine uzorka i povećanjem nivoa pouzdanosti verovatnoće.

Populacija- skup jedinica koje imaju masovni karakter, tipičnost, kvalitativnu uniformnost i prisustvo varijacija.

Statistička populacija se sastoji od materijalno postojećih objekata (Zaposleni, preduzeća, države, regioni), je objekat.

Jedinica stanovništva- svaka konkretna jedinica statistička populacija.

Ista statistička populacija može biti homogena u jednoj osobini i heterogena u drugoj.

Kvalitativna uniformnost- sličnost svih jedinica stanovništva po bilo kojoj osobini i različitost za sve ostale.

U statističkoj populaciji, razlike između jedne i druge jedinice populacije su češće kvantitativne prirode. Kvantitativne promjene vrijednosti atributa različitih jedinica populacije nazivaju se varijacijom.

Varijacija karakteristika- kvantitativna promjena osobine (za kvantitativno svojstvo) u prijelazu iz jedne jedinice populacije u drugu.

sign je vlasništvo karakteristika ili druge karakteristike jedinica, objekata i pojava koje se mogu posmatrati ili meriti. Znakovi se dijele na kvantitativne i kvalitativne. Raznovrsnost i varijabilnost vrijednosti nekog obilježja u pojedinim jedinicama populacije naziva se varijacija.

Atributivne (kvalitativne) karakteristike se ne mogu kvantificirati (sastav stanovništva prema spolu). Kvantitativne karakteristike imaju numerički izraz (sastav stanovništva prema starosti).

Indikator- ovo je generalizirajuća kvantitativno kvalitativna karakteristika bilo kojeg svojstva jedinica ili skupa kao cjeline u specifičnim uslovima vremena i mjesta.

Scorecard je skup indikatora koji sveobuhvatno odražavaju fenomen koji se proučava.

Na primjer, uzmite u obzir platu:
  • Znak - plate
  • Statistička populacija - svi zaposleni
  • Jedinica stanovništva je svaki radnik
  • Kvalitativna homogenost - obračunata plata
  • Varijacija karakteristika - niz brojeva

Opšta populacija i uzorak iz nje

Osnova je skup podataka dobijenih kao rezultat mjerenja jedne ili više karakteristika. Stvarno posmatrani skup objekata, statistički predstavljen nizom opservacija slučajna varijabla, je uzorkovanje, a hipotetički postojeće (promišljeno) - opšta populacija. Opšta populacija može biti konačna (broj opažanja N = konst) ili beskonačno ( N = ∞), a uzorak iz opće populacije uvijek je rezultat ograničenog broja opservacija. Naziva se broj zapažanja koji čine uzorak veličina uzorka. Ako je veličina uzorka dovoljno velika n→∞) uzorak se razmatra veliko, inače se naziva uzorak ograničen volumen. Uzorak se razmatra mala, ako, prilikom mjerenja jednodimenzionalne slučajne varijable, veličina uzorka ne prelazi 30 ( n<= 30 ), a pri istovremenom mjerenju nekoliko ( k) karakteristike u višedimenzionalnom odnosu prostora n to k manje od 10 (n/k< 10) . Uzorak obrazaca varijantne serije ako su njeni članovi statistika narudžbi, tj. uzorke vrijednosti slučajne varijable X sortiraju se u rastućem redoslijedu (rangiraju), pozivaju se vrijednosti atributa opcije.

Primjer. Gotovo isti nasumično odabrani skup objekata - komercijalne banke jednog administrativnog okruga Moskve, može se smatrati uzorkom iz opšte populacije svih komercijalnih banaka u ovom okrugu, i kao uzorkom iz opšte populacije svih komercijalnih banaka u Moskvi. , kao i uzorak komercijalnih banaka u zemlji i dr.

Osnovne metode uzorkovanja

Od toga zavisi pouzdanost statističkih zaključaka i smislena interpretacija rezultata reprezentativnost uzorci, tj. potpunost i adekvatnost reprezentacije svojstava opšte populacije, u odnosu na koju se ovaj uzorak može smatrati reprezentativnim. Proučavanje statističkih svojstava populacije može se organizirati na dva načina: korištenjem kontinuirano i diskontinuirano. Kontinuirano posmatranje uključuje ispitivanje svih jedinice studirao agregati, a nekontinuirano (selektivno) posmatranje- samo delovi toga.

Postoji pet glavnih načina za organizovanje uzorkovanja:

1. jednostavan slučajni odabir, u kojem se objekti nasumično izdvajaju iz opće populacije objekata (na primjer, pomoću tablice ili generatora slučajnih brojeva), a svaki od mogućih uzoraka ima jednaku vjerovatnoću. Takvi uzorci se nazivaju zapravo nasumično;

2. jednostavan odabir kroz redovnu proceduru se izvodi pomoću mehaničke komponente (npr. datumi, dani u nedelji, brojevi stanova, slova abecede itd.) i tako dobijeni uzorci se nazivaju mehanički;

3. slojevito selekcija se sastoji u činjenici da se opšta populacija zapremine deli na podskupove ili slojeve (stratue) zapremine tako da . Stratumi su homogeni objekti u smislu statističkih karakteristika (na primjer, stanovništvo je podijeljeno na slojeve prema starosnoj grupi ili društvenoj klasi; preduzeća prema djelatnostima). U ovom slučaju, uzorci se pozivaju slojevito(inače, slojevit, tipičan, zoniran);

4. metode serijski selekcije se koriste za formiranje serijski ili ugniježđeni uzorci. Pogodni su ako je potrebno pregledati "blok" ili niz objekata odjednom (na primjer, pošiljka robe, proizvodi određene serije ili stanovništvo u teritorijalno-administrativnoj podjeli zemlje). Odabir serija može se izvršiti na slučajan ili mehanički način. Istovremeno se vrši kontinuirani pregled određene serije roba, odnosno cijele teritorijalne jedinice (stambene zgrade ili kvarta);

5. kombinovano(stepena) selekcija može kombinovati nekoliko metoda selekcije odjednom (na primjer, stratificirana i nasumična ili nasumična i mehanička); takav uzorak se zove kombinovano.

Vrste odabira

By um postoje individualni, grupni i kombinovani odabir. At individualni odabir pojedinačne jedinice opšte populacije biraju se u skupu uzoraka, sa grupni izbor su kvalitativno homogene grupe (serije) jedinica, i kombinovani izbor uključuje kombinaciju prvog i drugog tipa.

By metoda izbor razlikovati ponavljaju se i ne ponavljaju uzorak.

Neponovljivo naziva se selekcija, u kojoj se jedinica koja je ušla u uzorak ne vraća u prvobitnu populaciju i ne učestvuje u daljoj selekciji; dok je broj jedinica opšte populacije N smanjen tokom procesa selekcije. At ponovljeno izbor uhvaćen u uzorku se jedinica nakon registracije vraća u opštu populaciju i tako zadržava jednaku mogućnost, zajedno sa ostalim jedinicama, da se koristi u daljem postupku selekcije; dok je broj jedinica opšte populacije N ostaje nepromijenjena (metoda se rijetko koristi u socio-ekonomskim studijama). Međutim, sa velikim N (N → ∞) formule za neponovljeno izbor je blizak onima za ponovljeno selekcija i potonje se koriste gotovo češće ( N = konst).

Glavne karakteristike parametara opće populacije i populacije uzorka

Osnova statističkih zaključaka studije je distribucija slučajne varijable, dok su posmatrane vrijednosti (x 1, x 2, ..., x n) se nazivaju realizacije slučajne varijable X(n je veličina uzorka). Distribucija slučajne varijable u opštoj populaciji je teoretska, idealna je po prirodi, a njen analogni uzorak je empirijski distribucija. Neke teorijske distribucije su date analitički, tj. njima opcije odrediti vrijednost funkcije distribucije u svakoj tački u prostoru mogućih vrijednosti slučajne varijable. Stoga je za uzorak teško, a ponekad i nemoguće odrediti funkciju distribucije opcije se procjenjuju iz empirijskih podataka, a zatim se zamjenjuju u analitički izraz koji opisuje teorijsku distribuciju. U ovom slučaju, pretpostavka (ili hipoteza) o vrsti distribucije može biti i statistički tačna i pogrešna. Ali u svakom slučaju, empirijska raspodjela rekonstruirana iz uzorka samo grubo karakterizira pravu. Najvažniji parametri distribucije su očekivana vrijednost i disperzija.

Po svojoj prirodi, distribucije jesu kontinuirano i diskretno. Najpoznatija kontinuirana distribucija je normalno. Selektivni analozi parametara i za njih su: srednja vrijednost i empirijska varijansa. Među diskretnim u socio-ekonomskim studijama, najčešće se koriste alternativa (dihotomno) distribucija. Parametar očekivanja ove distribucije izražava relativnu vrijednost (ili dijeliti) jedinice stanovništva koje imaju ispitivanu karakteristiku (označava se slovom ); udio stanovništva koji nema ovu osobinu označava se slovom q (q = 1 - p). Varijanca alternativne distribucije također ima empirijski analog.

U zavisnosti od vrste distribucije i načina odabira jedinica stanovništva, karakteristike parametara distribucije se različito izračunavaju. Glavne za teorijske i empirijske distribucije date su u tabeli. jedan.

Udio uzorka k n je omjer broja jedinica populacije uzorka i broja jedinica opće populacije:

k n = n/N.

Udio uzorka w je omjer jedinica koje imaju osobinu koja se proučava x na veličinu uzorka n:

w = n n / n.

Primjer. U seriji robe koja sadrži 1000 jedinica, sa 5% uzorka frakcija uzorka k n u apsolutnoj vrijednosti je 50 jedinica. (n = N*0,05); ako se u ovom uzorku pronađu 2 neispravna proizvoda frakcija uzorka w biće 0,04 (w = 2/50 = 0,04 ili 4%).

Pošto se populacija uzorka razlikuje od opšte populacije, postoje greške uzorkovanja.

Tabela 1. Glavni parametri opće populacije i populacije uzorka

Greške uzorkovanja

Kod bilo koje (solidne i selektivne) greške mogu se pojaviti dvije vrste: registracija i reprezentativnost. Greške registracija može imati nasumično i sistematično karakter. Slučajno greške su sastavljene od mnogo različitih nekontrolisanih uzroka, nenamjerne su prirode i obično se međusobno uravnotežuju u kombinaciji (na primjer, promjene očitavanja instrumenta zbog temperaturnih fluktuacija u prostoriji).

Sistematično greške su pristrasne, jer krše pravila za odabir objekata u uzorku (na primjer, odstupanja u mjerenjima pri promjeni postavki mjernog uređaja).

Primjer. Za procjenu socijalnog statusa stanovništva u gradu planirano je ispitivanje 25% porodica. Ako se, međutim, odabir svakog četvrtog stana zasniva na njegovom broju, onda postoji opasnost od odabira svih stanova samo jedne vrste (npr. jednosobni stanovi), što će unijeti sistematsku grešku i iskriviti rezultate; izbor broja stana po ždrijebu je poželjniji, jer će greška biti slučajna.

Greške u reprezentativnosti svojstvene samo selektivnom posmatranju, ne mogu se izbjeći i nastaju kao rezultat činjenice da uzorak ne reproducira u potpunosti opći. Vrijednosti indikatora dobijenih iz uzorka razlikuju se od indikatora istih vrijednosti u opštoj populaciji (ili dobijenih tokom kontinuiranog posmatranja).

Greška uzorkovanja je razlika između vrijednosti parametra u općoj populaciji i vrijednosti uzorka. Za prosječnu vrijednost kvantitativnog atributa, ona je jednaka: , a za udio (alternativni atribut) - .

Greške uzorkovanja su svojstvene samo opažanjima uzorka. Što su ove greške veće, to se empirijska distribucija više razlikuje od teorijske. Parametri empirijske distribucije su slučajne varijable, stoga su greške uzorkovanja također slučajne varijable, mogu uzeti različite vrijednosti za različite uzorke, pa je uobičajeno izračunati prosečna greška.

Prosječna greška uzorkovanja je vrijednost koja izražava standardnu ​​devijaciju srednje vrijednosti uzorka od matematičkog očekivanja. Ova vrijednost, podložna principu slučajnog odabira, prvenstveno zavisi od veličine uzorka i od stepena varijacije osobine: što je veća i manja varijacija osobine (dakle, vrijednost ), to je manja vrijednost prosječna greška uzorkovanja. Odnos između varijansi opšte populacije i populacije uzorka izražava se formulom:

one. za dovoljno velike, možemo pretpostaviti da . Prosječna greška uzorkovanja pokazuje moguća odstupanja parametra populacije uzorka od parametra opšte populacije. U tabeli. 2 prikazani su izrazi za izračunavanje prosječne greške uzorkovanja za različite metode organizacije posmatranja.

Tabela 2. Srednja greška (m) srednje vrijednosti uzorka i proporcija za različite tipove uzorka

Gdje je prosjek varijansi unutargrupnog uzorka za kontinuirano obilježje;

Prosjek unutargrupnih disperzija udjela;

— broj odabranih serija, — ukupan broj serija;

,

gdje je prosjek th serije;

- opšti prosjek za cijeli uzorak za kontinuirano obilježje;

,

gdje je udio osobine u th seriji;

— ukupan udio osobine u cijelom uzorku.

Međutim, o veličini prosječne greške može se suditi samo sa određenom vjerovatnoćom R (R ≤ 1). Lyapunov A.M. dokazali da se raspodjela srednjih vrijednosti uzorka, a time i njihova odstupanja od opšte srednje vrijednosti, sa dovoljno velikim brojem, približno pridržavaju normalnog zakona raspodjele, pod uvjetom da opća populacija ima konačnu srednju vrijednost i ograničenu varijansu.

Matematički, ova izjava za srednju vrijednost se izražava kao:

a za razlomak, izraz (1) će poprimiti oblik:

gdje - tu je marginalna greška uzorkovanja, što je višekratnik prosječne greške uzorkovanja , a faktor višestrukosti je Studentov kriterijum („faktor pouzdanosti“), koji je predložio W.S. Gosset (pseudonim "Student"); vrijednosti za različite veličine uzoraka pohranjuju se u posebnu tablicu.

Vrijednosti funkcije F(t) za neke vrijednosti t su:

Stoga se izraz (3) može pročitati na sljedeći način: sa vjerovatnoćom P = 0,683 (68,3%) može se tvrditi da razlika između uzorka i opšte srednje vrednosti neće preći jednu vrednost srednje greške m(t=1), sa vjerovatnoćom P = 0,954 (95,4%)— da ne prelazi vrijednost dvije srednje greške m (t = 2) , sa vjerovatnoćom P = 0,997 (99,7%)- neće prelaziti tri vrijednosti m (t = 3) . Dakle, vjerovatnoća da će ova razlika prijeći tri puta vrijednost srednje greške određuje nivo greške i nije više od 0,3% .

U tabeli. 3 prikazuje formule za izračunavanje granične greške uzorkovanja.

Tabela 3. Granična greška uzorkovanja (D) za srednju vrijednost i proporciju (p) za različite vrste promatranja uzorka

Proširivanje rezultata uzorka na populaciju

Krajnji cilj posmatranja uzorka je karakterizacija opće populacije. Za male veličine uzorka, empirijske procjene parametara ( i ) mogu značajno odstupati od njihovih pravih vrijednosti ( i ). Stoga postaje neophodno uspostaviti granice unutar kojih leže prave vrijednosti ( i ) za vrijednosti uzorka parametara ( i ).

Interval povjerenja nekog parametra θ opće populacije naziva se slučajni raspon vrijednosti ovog parametra, koji je s vjerovatnoćom bliskom 1 ( pouzdanost) sadrži pravu vrijednost ovog parametra.

marginalna greška uzorci Δ omogućava vam da odredite granične vrijednosti karakteristika opće populacije i njihovih intervali povjerenja, koji su jednaki:

Zaključak interval povjerenja dobijeno oduzimanjem marginalna greška iz uzorka srednje vrijednosti (udio), a gornje dodavanjem.

Interval povjerenja za srednju vrijednost koristi graničnu grešku uzorkovanja i za dati nivo povjerenja određuje se formulom:

To znači da sa datom vjerovatnoćom R, koji se naziva nivoom pouzdanosti i jedinstveno je određen vrijednošću t, može se tvrditi da prava vrijednost srednje vrijednosti leži u rasponu od , a prava vrijednost udjela je u rasponu od

Prilikom izračunavanja intervala povjerenja za tri standardna nivoa povjerenja P=95%, P=99% i P=99,9% vrijednost odabire . Primjene ovisno o broju stupnjeva slobode. Ako je veličina uzorka dovoljno velika, tada su vrijednosti koje odgovaraju ovim vjerojatnostima t su jednaki: 1,96, 2,58 i 3,29 . Dakle, marginalna greška uzorkovanja nam omogućava da odredimo granične vrijednosti karakteristika opće populacije i njihovih intervala povjerenja:

Distribucija rezultata selektivnog posmatranja na opštu populaciju u socio-ekonomskim studijama ima svoje karakteristike, jer zahteva potpunost reprezentativnosti svih njenih tipova i grupa. Osnova za mogućnost takve distribucije je proračun relativna greška:

gdje Δ % - relativna marginalna greška uzorkovanja; , .

Postoje dvije glavne metode za proširenje promatranja uzorka na populaciju: direktna konverzija i metoda koeficijenata.

Essence direktna konverzija je pomnožiti srednju vrijednost uzorka!!\overline(x) sa veličinom populacije.

Primjer. Neka prosječan broj mališana u gradu bude procijenjen metodom uzorkovanja i iznosi jednu osobu. Ako u gradu ima 1000 mladih porodica, onda se broj potrebnih mjesta u opštinskim jaslicama dobije množenjem ovog prosjeka sa veličinom opšte populacije N = 1000, tj. imaće 1200 mesta.

Metoda koeficijenata preporučljivo je koristiti u slučaju kada se vrši selektivno posmatranje kako bi se razjasnili podaci kontinuiranog posmatranja.

Pri tome se koristi formula:

gdje su sve varijable veličina populacije:

Potrebna veličina uzorka

Tabela 4. Potrebna veličina uzorka (n) za različite tipove organizacije uzorkovanja

Prilikom planiranja uzorkovanja sa unaprijed određenom vrijednošću dozvoljene greške uzorkovanja, potrebno je pravilno procijeniti traženu veličina uzorka. Ovaj iznos se može odrediti na osnovu dozvoljene greške tokom selektivnog posmatranja na osnovu date verovatnoće koja garantuje prihvatljiv nivo greške (uzimajući u obzir način na koji je posmatranje organizovano). Formule za određivanje potrebne veličine uzorka n mogu se lako dobiti direktno iz formula za graničnu grešku uzorkovanja. Dakle, iz izraza za marginalnu grešku:

veličina uzorka je direktno određena n:

Ova formula to pokazuje sa smanjenjem marginalne greške uzorkovanja Δ značajno povećava potrebnu veličinu uzorka, koja je proporcionalna varijansi i kvadratu Studentovog t-testa.

Za konkretan metod organizacije posmatranja, potrebna veličina uzorka se izračunava prema formulama datim u tabeli. 9.4.

Primjeri praktičnih proračuna

Primjer 1. Proračun srednje vrijednosti i intervala povjerenja za kontinuiranu kvantitativnu karakteristiku.

Za procjenu brzine namirenja sa kreditorima u banci, rađen je slučajni uzorak od 10 platnih dokumenata. Ispostavilo se da su njihove vrijednosti jednake (u danima): 10; 3; petnaest; petnaest; 22; 7; osam; jedan; devetnaest; 20.

Obavezno sa vjerovatnoćom P = 0,954 odrediti marginalnu grešku Δ srednja vrijednost uzorka i granice povjerenja prosječnog vremena izračunavanja.

Odluka. Prosječna vrijednost se izračunava po formuli iz tabele. 9.1 za populaciju uzorka

Disperzija se izračunava prema formuli iz tabele. 9.1.

Srednja kvadratna greška dana.

Greška srednje vrijednosti izračunava se po formuli:

one. srednja vrijednost je x ± m = 12,0 ± 2,3 dana.

Pouzdanost srednje vrijednosti je bila

Granična greška se izračunava po formuli iz tabele. 9.3 za ponovni izbor, pošto je veličina populacije nepoznata, i za P = 0,954 nivo samopouzdanja.

Dakle, srednja vrijednost je `x ± D = `x ± 2m = 12,0 ± 4,6, tj. njegova prava vrijednost je u rasponu od 7,4 do 16,6 dana.

Upotreba Studentskog stola. Aplikacija nam omogućava da zaključimo da je za n = 10 - 1 = 9 stepeni slobode dobijena vrijednost pouzdana sa nivoom značajnosti a £ 0,001, tj. rezultirajuća srednja vrijednost se značajno razlikuje od 0.

Primjer 2. Procjena vjerovatnoće (opšti udio) r.

Mehaničkim metodom uzorkovanja istraživanja socijalnog statusa 1000 porodica, otkriveno je da je udio porodica sa niskim primanjima w = 0,3 (30%)(uzorak je bio 2% , tj. n/N = 0,02). Obavezno uz nivo samopouzdanja p = 0,997 definisati indikator R porodice sa niskim primanjima širom regiona.

Odluka. Prema prikazanim vrijednostima funkcije F(t) pronaći za dati nivo pouzdanosti P = 0,997 značenje t=3(vidi formulu 3). Greška graničnog udjela w odrediti po formuli iz tabele. 9.3 za uzorkovanje koje se ne ponavlja (mehaničko uzorkovanje se uvijek ne ponavlja):

Ograničavanje relativne greške uzorkovanja u % bice:

Verovatnoća (opšti udeo) porodica sa niskim primanjima u regionu će biti p=w±Δw, a granice pouzdanosti p se izračunavaju na osnovu dvostruke nejednakosti:

w — Δw ≤ p ≤ w — Δw, tj. prava vrijednost p leži unutar:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Dakle, sa vjerovatnoćom od 0,997, može se tvrditi da se udio porodica sa niskim primanjima među svim porodicama u regionu kreće od 28,6% do 31,4%.

Primjer 3 Izračunavanje srednje vrijednosti i intervala pouzdanosti za diskretnu karakteristiku specificiranu nizom intervala.

U tabeli. 5. Određuje se distribucija aplikacija za izradu narudžbi prema vremenu njihove implementacije od strane preduzeća.

Tabela 5. Distribucija zapažanja prema vremenu nastanka

Odluka. Prosječno vrijeme završetka narudžbe se izračunava po formuli:

Prosječno vrijeme će biti:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mjeseci

Isti odgovor dobijamo ako koristimo podatke o p i iz pretposljednje kolone tabele. 9.5 koristeći formulu:

Imajte na umu da se sredina intervala za posljednju gradaciju nalazi umjetnim dodavanjem širine intervala prethodne gradacije jednakom 60 - 36 = 24 mjeseca.

Disperzija se izračunava po formuli

gdje x i- sredina intervalne serije.

Dakle!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) i standardna greška je .

Greška srednje vrijednosti izračunava se po formuli za mjesece, tj. srednja vrijednost je!!\overline(x) ± m = 23,1 ± 13,4.

Granična greška se izračunava po formuli iz tabele. 9.3 za ponovni odabir jer je veličina populacije nepoznata, za nivo pouzdanosti 0,954:

Dakle, srednja vrijednost je:

one. njegova prava vrijednost je u rasponu od 0 do 50 mjeseci.

Primjer 4 Da bi se utvrdila brzina namirenja sa kreditorima N = 500 preduzeća korporacije u poslovnoj banci, potrebno je sprovesti selektivnu studiju metodom slučajnog nerepetitivnog odabira. Odrediti potrebnu veličinu uzorka n tako da sa vjerovatnoćom P = 0,954 greška srednje vrijednosti uzorka ne prelazi 3 dana, ako su probne procjene pokazale da je standardna devijacija s 10 dana.

Odluka. Za određivanje broja potrebnih studija n koristimo formulu za nerepetitivnu selekciju iz tabele. 9.4:

U njemu se vrijednost t određuje iz za nivo pouzdanosti R = 0,954. Jednako je 2. Srednja kvadratna vrijednost s = 10, veličina populacije N = 500 i marginalna greška srednje vrijednosti Δ x = 3. Zamjenom ovih vrijednosti u formulu dobijamo:

one. dovoljno je napraviti uzorak od 41 preduzeća da bi se procenio traženi parametar - brzina obračuna sa poveriocima.

Dijeli