Eroarea marginală a formulei medii eșantionului. Erori de eșantionare specifice, medii și marginale

Discrepanța dintre valorile indicatorilor obținuți din eșantion și parametrii corespunzători ai populației generale se numește eroare de reprezentativitate. Distingeți erorile de eșantionare sistematice și aleatorii.

Bug-uri aleatorii se explică prin reprezentarea insuficient uniformă în populaţia eşantion a diferitelor categorii de unităţi ale populaţiei generale.

Erori sistematice poate fi asociată cu o încălcare a regulilor de selecție sau a condițiilor de implementare a eșantionului.

Astfel, la sondajul bugetelor gospodăriilor, cadrul de eșantionare a fost construit timp de peste 40 de ani pe baza principiului selecției teritorial-sectoriale, care s-a datorat scopului principal al anchetei bugetare - de a caracteriza nivelul de trai al lucrătorilor, angajaților. și fermierii colectivi. Eșantionul a fost distribuit între regiunile și sectoarele economiei RSFSR proporțional cu putere totală angajat; pentru a crea un eșantion de industrie, a fost folosit un eșantion tipic cu o selecție mecanică de unități în cadrul grupurilor.

Principalul criteriu de selecție a fost salariul mediu lunar. Principiul selecției a asigurat reprezentarea proporțională în setul eșantion de lucrători cu niveluri salariale diferite.

Odată cu apariția noilor grupuri sociale (antreprenori, fermieri, șomeri), reprezentativitatea eșantionului a fost încălcată nu numai din cauza diferențelor cu structura populației generale, ci și din cauza unei erori sistematice apărute din cauza unei nepotriviri între unitatea de prelevare (angajat) și unitatea de observare (gospodărie) . O gospodărie cu mai mult de un membru al familiei care lucrează a fost, de asemenea, mai probabil să fie selectată decât o gospodărie cu un singur lucrător. Familiile neangajate în sectoarele chestionate au căzut în afara gamei unităților selectate (gospodării de pensionari, gospodării independente etc.). A fost dificil de evaluat acuratețea rezultatelor obținute (limitele intervalelor de încredere, erori de eșantionare), deoarece modelele probabilistice nu au fost utilizate în construcția eșantionului.

În 1996–1997 a fost introdusă o abordare fundamental nouă a formării unui eșantion de gospodării. Ca bază pentru implementarea acestuia s-au folosit datele microrecensământului populației din 1994. Populația generală în selecție a fost formată din toate tipurile de gospodării, cu excepția gospodăriilor colective. Și setul de eșantionare a început să fie organizat ținând cont de reprezentativitatea compoziției și a tipurilor de gospodării din cadrul fiecărui subiect al Federației Ruse.

Măsurarea erorilor în reprezentativitatea indicatorilor eșantionului se bazează pe ipoteza naturii aleatorii a distribuției lor la infinit. numere mari mostre.

Cuantificarea fiabilității unui indicator de eșantion este utilizată pentru a vă face o idee despre caracteristica generală. Aceasta se realizează fie pe baza unui indicator eșantion, ținând cont de eroarea sa aleatorie, fie pe baza unei anumite ipoteze (despre valoarea varianței medii, natura distribuției, conexiunea) cu privire la proprietățile populația generală.

Pentru a testa ipoteza, se evaluează consistența datelor empirice cu datele ipotetice.

Mărimea erorii de reprezentativitate aleatoare depinde de:

1) pe dimensiunea eșantionului;
2) gradul de variaţie a trăsăturii studiate în populaţia generală;
3) metoda acceptată de formare a unei populații eșantion.

Există erori medii (standard) și marginale de eșantionare.

Eroare medie caracterizează măsura abaterilor indicatorilor eșantionului față de indicatorii similari ai populației generale.

eroare marginală se obișnuiește să se ia în considerare discrepanța maximă posibilă între eșantion și caracteristicile generale, adică eroare maximă pentru o probabilitate dată de apariție.

În funcție de populația eșantion, este posibil să se evalueze diverși indicatori (parametri) ai populației generale. Cele mai frecvent utilizate scoruri sunt:

- valoarea medie generală a trăsăturii studiate (pentru o trăsătură cantitativă multivalorică);
– cota generală (pentru un semn alternativ).

Principiul de bază al aplicării metodei de eșantionare este asigurarea unei șanse egale pentru toate unitățile populației generale care urmează să fie selectate în populația eșantionată. Cu această abordare, se respectă cerința selecției aleatorii, obiective și, prin urmare, eroarea de eșantionare este determinată în primul rând de dimensiunea acesteia ( P ). Odată cu creșterea acesteia din urmă, valoarea erorii medii scade, caracteristicile populației eșantionului se apropie de caracteristicile populației generale.

Cu același număr de seturi de eșantionare și alte condiții egale, eroarea de eșantionare va fi mai mică în unul dintre ele, care este selectat din populația generală cu o variație mai mică a trăsăturii studiate. O scădere a variației unei trăsături înseamnă o scădere a valorii varianței (pentru o trăsătură cantitativă sau pentru o trăsătură alternativă).

Dependența mărimii erorii de eșantionare de metodele de formare a populației eșantionului este determinată de formulele pentru eroarea medie de eșantionare (Tabelul 5.2).

Să suplimentăm indicatorii din Tabel. 5.2 cu următoarele explicații.

Varianta eșantionului este puțin mai mică decât cea generală; s-a dovedit în statistica matematică că

Tabelul 5.2

Formule pentru calcularea erorii medii de probă mri diferite căi selecţie

Tipul eșantionului
	repetat pt	irepetabil pentru

De fapt Aleatoriu (simplu)
Serial (cu egal
Tipic (proporțional cu dimensiunea grupurilor)

Dacă eșantionul este mare (de ex. P suficient de mare), atunci raportul se apropie de unitate și varianța eșantionului coincide practic cu cea generală.

Eșantionul este considerat necondiționat de mare atunci când n> 100 și necondiționat mic la P < 30. При оценке результатов mostra mica trebuie luate în considerare raportul indicat dintre eșantion și variația generală.

Ele pot fi calculate folosind următoarele formule:

unde este media i a-a serie; este media generală pentru întregul eșantion;

unde este proporția de unități dintr-o anumită categorie în i a-a serie; - ponderea unitatilor din aceasta categorie in intregul esantion; r- numărul de episoade selectate.

4. Pentru a determina eroarea medie a unui eșantion tipic în cazul selectării unităților proporțional cu mărimea fiecărui grup, media dispersiunilor intragrup (- pentru o trăsătură cantitativă, pentru o trăsătură alternativă) acționează ca indicator de variație. . Conform regulii de adunare a variațiilor, valoarea mediei variațiilor intragrup este mai mică decât valoarea variației totale. Valoarea medie posibilă eroare eșantionarea tipică este mai mică decât eroarea unei simple eșantionări aleatorii adecvate.

Selecția combinată este adesea folosită: selecția individuală a unităților este combinată cu selecția de grup, selecția tipică este combinată cu selecția în serie. Cu orice metodă de selecție, cu o anumită probabilitate, se poate argumenta că abaterea mediei (sau ponderii) eșantionului de la media generală (sau ponderea) nu va depăși o anumită valoare, care se numește eroare marginală mostre.

Raportul dintre limita erorii de eșantionare (∆) garantat cu o oarecare probabilitate F(t), iar eroarea medie de eșantionare are forma: sau , unde t – coeficient de încredere, determinat în funcţie de nivelul de probabilitate F(t).

Valorile funcției F(t) Și t sunt determinate pe baza unor tabele matematice special întocmite. Iată câteva dintre cele mai frecvent utilizate:


T

Astfel, eroarea marginală de eșantionare răspunde la întrebarea cu privire la acuratețea eșantionării cu o anumită probabilitate, a cărei valoare depinde de valoarea coeficientului de încredere. t. Da, la t = 1 probabilitate F(t ) abaterea caracteristicilor eșantionului de la cele generale cu valoarea unei singure erori medii este 0,683. În consecință, în medie, din fiecare 1000 de eșantioane, 683 vor da indicatori generalizați (medie, pondere), care se vor diferenția de cei generali prin nu mai mult de o singură eroare medie. La t = 2 probabilitate F(t) este egal cu 0,954, ceea ce înseamnă că din 1000 de eșantioane, 954 vor da indicatori generali care vor diferi de cei generali cu cel mult de două ori eroarea medie a eșantionului etc.

Alături de valoarea absolută a erorii marginale de eșantionare, mai calculăm eroarea relativa care este definit ca procentul erorii marginale de eșantionare față de caracteristica corespunzătoare a eșantionului:

În practică, se obișnuiește să se stabilească valoarea lui ∆, de regulă, la 10% din nivelul mediu așteptat al atributului.

Calculul erorilor medii și marginale de eșantionare vă permite să determinați limitele în care vor fi caracteristicile populației generale:

Limitele în care, cu un grad de probabilitate dat, va fi cuprinsă o valoare necunoscută a indicatorului studiat în populația generală se numesc interval de încredere, și probabilitatea F(t) – probabilitatea de încredere. Cu cât valoarea lui ∆ este mai mare, cu atât intervalul de încredere este mai mare și, în consecință, cu atât acuratețea estimării este mai mică.

Luați în considerare următorul exemplu. Pentru a determina mărimea medie a unui depozit la o bancă, au fost selectate 200 de conturi în valută ale deponenților folosind metoda eșantionării aleatorii repetate. Ca urmare, s-a constatat că valoarea medie a depozitului a fost de 60 de mii de ruble, dispersia a fost de 32. În același timp, 40 de conturi s-au dovedit a fi la cerere. Este necesar, cu o probabilitate de 0,954, să se determine limitele în care se află valoarea medie a depozitului pe conturile în valută la bancă și ponderea conturilor la vedere.

Calculați eroarea medie a mediei eșantionului folosind formula de reselecție

Eroarea marginală a mediei eșantionului cu o probabilitate de 0,954 va fi

În consecință, depozitul mediu în conturile bancare în valută este de peste o mie de ruble:

Cu o probabilitate de 0,954, se poate argumenta că depozitul mediu în conturile bancare în valută variază de la 59.200 la 60.800 de ruble.

Să determinăm ponderea depozitelor la vedere în populația eșantion:

Eroare medie a cotei eșantionului

Eroarea marginală a acțiunii cu o probabilitate de 0,954 va fi

Astfel, ponderea conturilor la cerere în populația generală este cuprinsă în w :

Cu o probabilitate de 0,954, se poate susține că ponderea conturilor la vedere în numărul total de conturi în valută din bancă variază între 14,4 și 25,6%.

În studiile specifice, este important să se stabilească raportul optim între măsura fiabilității rezultatelor obținute și mărimea erorii acceptabile de eșantionare. În acest sens, la organizarea unei observații prin eșantion se pune întrebarea legată de determinarea dimensiunii eșantionului necesar pentru a obține acuratețea necesară a rezultatelor cu o probabilitate dată. Calculul mărimii eșantionului necesar se efectuează pe baza formulelor pentru eroarea marginală de eșantionare în conformitate cu tipul și metoda de selecție (Tabelul 5.3).

Tabelul 5.3

Formule pentru calcularea mărimii eșantionului cu o metodă adecvată de selecție aleatorie

Să continuăm exemplul, care prezintă rezultatele unui sondaj eșantion al conturilor personale ale deponenților bănci.

Este necesar să se determine câte conturi trebuie examinate, astfel încât, cu o probabilitate de 0,977, eroarea în determinarea sumei medii a depozitului să nu depășească 1,5 mii de ruble. Să exprimăm din formula pentru eroarea marginală de eșantionare pentru reselecție indicatorul mărimii eșantionului:

Atunci când se determină dimensiunea eșantionului necesară folosind formulele de mai sus, devine dificil să se găsească valorile lui σ2 și da, deoarece aceste valori pot fi obținute numai după o anchetă prin eșantion. În acest sens, în locul valorilor efective ale acestor indicatori, se înlocuiesc cu cele aproximative, care ar putea fi determinate pe baza oricăror observații din eșantion de probă sau din anchete analitice anterioare.

În cazurile în care statisticianul cunoaște valoarea medie a caracteristicilor studiate (de exemplu, din instrucțiuni, acte legislative etc.) sau limitele în care această caracteristică variază, se poate aplica următorul calcul folosind formule aproximative:

iar produsul w(1 – w) trebuie înlocuit cu valoarea 0,25 (w = 0,5).

Pentru a obține un rezultat mai precis, luați valoarea maximă posibilă a acestor indicatori. Dacă distribuția unei trăsături în populația generală respectă legea normală, atunci intervalul de variație este aproximativ egal cu 6σ (valorile extreme sunt separate de medie cu 3σ pe ambele părți). Prin urmare, dar dacă distribuția este în mod evident asimetrică, atunci .

Cu orice tip de probă, volumul acestuia începe să fie calculat conform formulei de reeșantionare

Dacă, ca rezultat al calculului, cota de selecție ( n ) depășește 5%, atunci calculul se efectuează după formula selecției nerepetitive.

Pentru un eșantion tipic, este necesar să se împartă volumul total al populației eșantionului între tipurile de unități selectate. Calculul numărului de observații din fiecare grup depinde de formele organizatorice menționate anterior ale unui eșantion tipic.

În selecția tipică de unități disproporționat față de numărul de grupuri, numărul total de unități selectate este împărțit la numărul de grupuri, valoarea rezultată dă numărul de selecție din fiecare grup tipic:

Unde k este numărul de grupuri tipice identificate.

La selectarea unităților proporțional cu numărul de grupuri tipice, numărul de observații pentru fiecare grup este determinat de formula

de unde este dimensiunea eșantionului i -a grupa; - volum i -a grupa.

La selectare, ținând cont de variația trăsăturii, procentul eșantionului din fiecare grup trebuie să fie proporțional cu abaterea standard din acest grup (). Calculul numărului () se efectuează conform formulelor

În selecția în serie, numărul necesar de serii selectate este determinat în același mod ca și în selecția aleatorie corectă:

Reselectare

Selecție care nu se repetă

În acest caz, varianțele și erorile de eșantionare pot fi calculate pentru valoarea medie sau proporția trăsăturii.

Când se utilizează observația selectivă, caracteristicile rezultatelor acesteia sunt posibile pe baza unei comparații a limitelor de eroare obținute ale indicatorilor selectivi cu valoarea erorii admisibile.

În acest sens, se pune problema determinării probabilității ca eroarea de eșantionare să nu depășească eroarea admisibilă. Rezolvarea acestei probleme se reduce la calculul bazat pe formula pentru eroarea marginală de eșantionare a cantității t.

Continuând luarea în considerare a unui exemplu de sondaj eșantion al conturilor personale ale clienților băncilor, vom găsi probabilitatea cu care se poate argumenta că eroarea în determinarea mărimii medii a depozitului nu va depăși 785 de ruble:

nivelul de încredere corespunzător este 0,95.

În prezent, practica observației selective include observații statistice efectuate de:

- cadavrele lui Rosstat;
– alte ministere și departamente (de exemplu, monitorizarea întreprinderilor în sistemul Băncii Rusiei).

O binecunoscută generalizare a experienței în organizarea anchetelor prin sondaj ale întreprinderilor mici, populației și gospodăriilor este prezentată în Prevederile metodologice privind statistica. Ele oferă un concept mai larg de observație selectivă decât cel discutat mai sus (Tabelul 5.4).

În practica statistică, sunt utilizate toate cele patru tipuri de eșantioane, prezentate în tabel. 5.4. Cu toate acestea, de obicei se acordă preferință eșantioanelor probabilistice (aleatorie) descrise mai sus, care sunt cele mai obiective, deoarece pot fi utilizate pentru a evalua acuratețea rezultatelor obținute din datele eșantionului în sine.

Tabelul 5.4

Tipuri de mostre

În mostre tip cvasialeator selecția probabilistă se presupune pe baza faptului că expertul care ia în considerare eșantionul îl consideră acceptabil. Un exemplu de utilizare a eșantionării cvasialeatoare în practica statistică este „Sondajul prin eșantionare a întreprinderilor mici pentru a studia procesele sociale în întreprinderile mici”, realizat în 1996 în unele regiuni ale Rusiei. Unitățile de observare (întreprinderile mici) au fost selectate cu experiență, ținând cont de reprezentarea sectoarelor economice din eșantionul deja format al anchetei activităților financiare și economice ale întreprinderilor mici (formularul „Informații privind principalii indicatori ai activităților financiare și economice”. a unei întreprinderi mici”). La rezumarea datelor eșantionului, s-a presupus că eșantionul a fost format prin metoda selecției aleatorii simple.

direct utilizarea judecății expertului este cea mai comună metodă de includere intenționată a unităților într-o probă. Un exemplu de astfel de metodă de selecție este metoda monografică, care presupune obținerea de informații de la o singură unitate de observare, ceea ce este tipic, potrivit organizatorului sondajului - un expert.

Mostre bazate pe selecție direcțională, sunt implementate folosind o procedură obiectivă, dar fără a utiliza un mecanism probabilistic. Este larg cunoscută metoda matricei principale, în care cele mai mari unități de observație (esențiale) sunt incluse în eșantion, oferind contribuția principală la indicator, de exemplu, valoarea totală a unei caracteristici reprezentând scopul principal al anchetei .

În practica statistică, este adesea folosit metoda combinata observatie statistica. Combinația dintre metodele de observare continuă și selectivă are două aspecte:

alternanta in timp;
utilizarea lor simultană (o parte a populației este observată în mod continuu, iar o parte - selectiv).

alternanţă eşantionarea periodică cu anchete sau recensăminte continue relativ rare este necesară pentru a clarifica componenţa populaţiei studiate. În viitor, aceste informații sunt folosite ca bază statistică pentru observarea eșantionului. Exemple sunt recensămintele populației și anchetele prin eșantion în gospodării între ele.

În acest caz, trebuie să rezolvați următoarele sarcini:

- determinarea compozitiei semnelor de observatie continua, asigurand organizarea probei;
– fundamentarea perioadelor de alternanță, i.e. atunci când datele continue nu mai sunt relevante și sunt necesare costuri pentru a le actualiza.

Utilizare simultană în cadrul unei anchete de observații continue și eșantionare se datorează eterogenității populațiilor întâlnite în practica statistică. Acest lucru este valabil mai ales pentru sondaje activitate economică un ansamblu de întreprinderi, care se caracterizează prin distribuții distorsionate ale caracteristicilor studiate, când un anumit număr de unități au caracteristici foarte diferite de cea mai mare parte a valorilor. În acest caz, astfel de unități sunt observate în mod continuu, iar cealaltă parte a populației este observată selectiv.

Cu această organizare a observațiilor, principalele sarcini sunt:

– stabilirea proporţiei optime a acestora;
– dezvoltarea unor metode de evaluare a acurateței rezultatelor.

Un exemplu tipic care ilustrează acest aspect al aplicării metodei combinate este principiu general efectuarea de anchete asupra populației întreprinderilor, conform cărora sondajele populației întreprinderilor mari și mijlocii se efectuează în principal printr-o metodă continuă, iar întreprinderile mici prin metoda eșantionului.

Dezvoltarea ulterioară a metodologiei de eșantionare se realizează atât în combinație cu organizarea observării continue, cât și prin organizarea de anchete speciale, a căror desfășurare este dictată de necesitatea obținerii de informații suplimentare pentru a rezolva probleme specifice. Astfel, organizarea anchetelor în domeniul condițiilor și nivelului de trai al populației este prevăzută în două aspecte:

- componente obligatorii;
– module suplimentare în cadrul sistemului integrat de indicatori.

Componentele obligatorii pot fi anchete anuale de venituri, cheltuieli și consum (asemănătoare anchetelor bugetare gospodăriilor casnice), care includ și indicatori de bază ai condițiilor de viață ale populației. În fiecare an, conform unui plan special, componentele obligatorii ar trebui completate cu anchete (module) unice ale condițiilor de viață ale populației, care vizează un studiu aprofundat al oricărui subiect social selectat din numărul lor total (de exemplu , bunurile gospodăriei, sănătatea, alimentația, educația, condițiile de muncă, condițiile de locuire, timpul liber, mobilitatea socială, securitatea etc.) cu frecvență variabilă, determinată de nevoia de indicatori și oportunități de resurse.

După cum se știe, în statistică există două moduri de observare a fenomenelor de masă, în funcție de caracterul complet al acoperirii obiectului: continuă și necontinuă. O variație a observației discontinue este observația selectivă.

Sub observatie selectiva se înțelege ca o observație necontinuă, în care unități ale populației studiate, selectate aleatoriu, sunt supuse examinării statistice (observării).

Observația selectivă își pune sarcina de a caracteriza întreaga populație de unități pentru partea examinată, sub rezerva tuturor regulilor și principiilor observației statistice și a muncii organizate științific de selecție a unităților.

Setul de unități selectate pentru sondaj în statistică este de obicei numit populația eșantionului , și se numește setul de unități din care se face selecția populația generală . Principalele caracteristici ale populației generale și eșantionului sunt prezentate în Tabelul 1.

Tabelul 1 - Principalele caracteristici ale populației generale și eșantionului

Indicator	Denumirea sau formula
Indicator	Populația	Eșantion de populație
Număr de unități	N	n
Numărul de unități care au o caracteristică	M	m
Proporția de unități cu această caracteristică	p = M/N	ω = m/n
Proporția unităților care nu au această caracteristică	q = 1 - p	1 - w
*Valoarea medie* semn
*Dispersia* semn
Dispersia unei caracteristici alternative (dispersia unei cote)	pq	ω (1 - ω)

La efectuarea observației selective apar erori sistematice și aleatorii. Erorile sistematice apar din cauza încălcării regulilor de selectare a unităților din eșantion. Prin modificarea regulilor de selecție, astfel de erori pot fi eliminate.

Erorile aleatorii apar din cauza naturii discontinue a anchetei. În caz contrar, se numesc erori de reprezentativitate (reprezentativitate). Erorile aleatorii sunt împărțite în erori medii și marginale de eșantionare, care sunt determinate atât la calcularea caracteristicii, cât și la calcularea cotei.

Erorile medie și limită sunt legate de următoarea relație :Δ = tμ, unde Δ este eroarea marginală de eșantionare, μ este eroarea medie de eșantionare, t este factorul de încredere determinat în funcție de nivelul de probabilitate. Tabelul 2 prezintă câteva valori ale lui t luate din teoria probabilității.

Valoarea erorii medii de eșantionare se calculează diferențial în funcție de metoda de selecție și procedura de eșantionare. Principalele formule pentru calcularea erorilor de eșantionare sunt prezentate în Tabelul 3.

Tabelul 3 - Formule de bază pentru calcularea erorilor de eșantionare în selecția repetitivă și nerepetată

Indicator	Denumirea și formula
Indicator	Populația	Eșantion de populație
Eroare medie de caracteristică pentru reeșantionarea aleatorie
Eroare de cotă medie pentru reeșantionarea aleatorie
Limitați eroarea unei caracteristici în cazul reselectării aleatorii
Eroare de cotă marginală în reselectarea aleatorie
Eroare medie a unei caracteristici pentru selecția aleatorie nerepetitivă
Eroare medie de cotă în selecția aleatorie nerepetitivă
Limitați eroarea unei caracteristici cu selecție aleatorie nerepetitivă
Eroare de cotă marginală pentru selecția aleatorie nerepetitivă

Calculul erorilor medii și marginale de eșantionare vă permite să determinați limitele posibile în care vor fi caracteristicile populației generale. .

De exemplu, pentru o medie eșantion, astfel de limite sunt stabilite pe baza următoarelor relații:

Limitele ponderii trăsăturii în populația generală p.

Exemple de rezolvare a problemelor pe tema „Observația prin eșantionare în statistică”

Sarcina 1 . Există informații despre producția de produse (lucrări, servicii) obținute pe baza observării eșantionului de 10% a întreprinderilor din regiune:

Determinați: 1) pentru întreprinderile incluse în eșantion: a) mărimea medie a producției pe întreprindere; b) dispersia volumului producţiei; c) ponderea întreprinderilor cu un volum de producție mai mare de 400 de mii de ruble; 2) pentru regiune în ansamblu, cu o probabilitate de 0,954, limitele în care se poate aştepta: a) volumul mediu de producţie pe întreprindere; b) ponderea întreprinderilor cu un volum de producție de peste 400 de mii de ruble; 3) volumul total de producție din regiune.

Soluţie

Pentru a rezolva problema, extindem tabelul propus.

1) Pentru întreprinderile incluse în eșantion, mărimea medie a producției pe întreprindere

110800/400 = 277 mii de ruble

Se calculează dispersia volumului producției în mod simplificat σ 2 = 35640000/400 - 277 2 = 89100 - 76229 = 12371.

Numărul de întreprinderi al căror volum de producție depășește 400 de mii de ruble. este egal cu 36+12 = 48, iar cota lor este egală cu ω = 48:400 = 0,12 = 12%.

2) Din teoria probabilității se știe că cu o probabilitate P=0,954 factorul de încredere t=2. Eroare marginală de eșantionare

2√12371:400 = 11,12 mii de ruble

Să stabilim limitele mediei generale: 277-11,12 ≤Xav ≤ 277+11,12; 265,88 ≤Xav ≤ 288,12

Eroarea marginală de eșantionare a ponderii întreprinderilor

2√0,12*0,88/400 = 0,03

Să definim limitele cotei generale: 0,12-0,03≤ p ≤0,12+0,03; 0,09≤ p≤0,15

3) Întrucât grupul de întreprinderi considerat reprezintă 10% din numărul total de întreprinderi din regiune, există 4.000 de întreprinderi în regiune în ansamblu. Apoi, volumul total de producție în regiune se află în 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Sarcina 2 . Conform rezultatelor unui audit de control de către organele fiscale a 400 de structuri de afaceri, 140 dintre acestea nu indică în totalitate veniturile supuse impozitării în declarațiile lor fiscale. Determinați în populația generală (pentru întreaga regiune) ponderea structurilor de afaceri care și-au ascuns o parte din veniturile fiscale cu o probabilitate de 0,954.

Soluţie

În funcție de starea problemei, numărul de unități din populația eșantion este n=400, numărul de unități cu caracteristica considerată este m=140, probabilitatea este P=0,954.

Din teoria probabilității se știe că cu probabilitatea P=0,954 factorul de încredere t=2.

Proporția unităților care au atributul indicat este determinată de formula: p=w+∆p, unde w = m/n=140/400=0,35=35%,
iar eroarea limită a caracteristicii ∆p se obține din formula: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Atunci p = 35±5%.

Răspuns : Ponderea structurilor de afaceri care și-au ascuns o parte din venitul fiscal cu o probabilitate de 0,954 este de 35±5%.

Eroare medie de eșantionare este prezentă întotdeauna în studiile prin eșantion și apare datorită faptului că nu sunt anchetate toate unitățile populației statistice, ci doar o parte a acesteia.

Eroarea medie de eșantionare devine eroare marginală Δ atunci când este înmulțit cu factorul de încredere t , care este prestabilit pe baza preciziei de observare necesare. Eroarea marginală vă permite să judecați dimensiunea „adevărată” a parametrului în populația generală cu un anumit grad de probabilitate

Pentru selecția tipică și în serie, atunci când se calculează eroarea de eșantionare în loc de variația totală (σ 2 ) utilizați media variațiilor în interiorul grupului și a varianței între grupuri
, Unde
- variația privată a grupului i, volumul i grupa

Formule pentru eroarea marginală a unui eșantion aleatoriu în determinarea mediei

Pentru re-selectare

Formule pentru eroarea marginală a unui eșantion aleatoriu în determinarea ponderii

Pentru re-selectare

Pentru selecție nerecurentă

Formule pentru mărimea unui eșantion aleatoriu în determinarea valorii medii

Formule pentru numărul de probe aleatorii în determinarea ponderii trăsăturii studiate

Diferența marginală dintre media generală și cea a eșantionului corespunde erorii marginale

Valori de probabilitate și respectiv t sunt în tabelele de distribuție:

Student (în cazul unui eșantion mic)

Formulele de eșantionare aleatorie sunt potrivite și pentru eșantionarea mecanică.

Dacă este necesară rotunjirea, cu prelevare aleatorie - rotunjire în sus, cu prelevare mecanică - rotunjire în jos.

Probă mică

Dacă dimensiunea eșantionului nu este mai mare de 30 de unități, atunci eroarea medie a unui eșantion mic în determinarea valorii medii este calculată prin formula:

Pentru a calcula eroarea unui eșantion mic, se utilizează formula de varianță rafinată

Tipuri de sarcini de eșantionare

definiția erorii de eșantionare,

determinarea marimii esantionului n ,

determinarea probabilității ca media (sau ponderea) eșantionului să se abate de la cea generală cu cel mult o valoare dată t=Δ/μ,

evaluarea caracterului aleatoriu al discrepanțelor în indicatorii observațiilor eșantionului,

transferul caracteristicilor eșantionului către populația generală.

Testarea ipotezei medii și proporționale

Estimarea caracterului aleatoriu al discrepanțelor în indicatorii observațiilor în eșantion

Metode pentru transferul datelor eșantionului către populația generală

metoda de cantarire;

metoda de re-cântărire;

metoda de completare prin selecție aleatorie în clasele de înlocuire.

Erorile sunt sistematice și aleatorii

Unitatea modulară 2 Erori de eșantionare

Deoarece eșantionul acoperă de obicei o parte foarte mică a populației, ar trebui să se presupune că vor exista diferențe între estimare și caracteristica populației pe care o reflectă această estimare. Aceste diferențe se numesc erori de afișare sau erori de reprezentativitate. Erorile de reprezentativitate sunt clasificate în două tipuri: sistematice și aleatorii.

Erori sistematice- aceasta este o supraestimare sau subestimare constantă a valorii devizului în comparație cu caracteristicile populației generale. Motivul apariției unei erori sistematice este nerespectarea principiului echiprobabilității de introducere a fiecărei unități a populației generale în eșantion, adică eșantionul este format din reprezentanți predominant „cel mai rău” (sau „cei mai buni”). a populatiei generale. Respectarea principiului șansei egale ca fiecare unitate să intre în eșantion face posibilă eliminarea completă a acestui tip de eroare.

erori aleatorii - acestea sunt diferențe între estimarea și caracteristica estimată a populației generale, care variază de la eșantion la eșantion ca semn și magnitudine. Motivul apariției erorilor aleatoare este jocul de întâmplare în formarea unui eșantion care este doar o parte a populației generale. Acest tip de eroare este inerentă metodei de eșantionare. Este imposibil să le excludem complet, sarcina este de a prezice amploarea lor posibilă și de a le reduce la minimum. Ordinea acțiunilor legate de aceasta rezultă din luarea în considerare a trei tipuri de erori aleatorii: specifice, medii și extreme.

2.2.1 Specific eroarea este eroarea unei probe prelevate. Dacă media pentru acest eșantion () este o estimare pentru media generală (0) și, presupunând că această medie generală ne este cunoscută, atunci diferența = -0 și va fi eroarea specifică a acestui eșantion. Dacă repetăm eșantionul din această populație generală de mai multe ori, atunci de fiecare dată obținem o nouă valoare a unei erori specifice: ... și așa mai departe. În ceea ce privește aceste erori specifice, putem spune următoarele: unele dintre ele vor coincide ca mărime și semn, adică există o distribuție a erorilor, unele dintre ele vor fi egale cu 0, există o coincidență a estimării și a parametrului. a populației generale;

2.2.2 Eroare medie este rădăcina medie pătrată a tuturor erorilor specifice de estimare posibile întâmplător: , unde este valoarea erorilor specifice diferite; frecvența (probabilitatea) de apariție a unei anumite erori. Eroarea medie a eșantionului arată cât de multă eroare poate fi făcută în medie dacă, pe baza estimării, se face o judecată cu privire la parametrul populației generale. Formula de mai sus relevă conținutul erorii medii, dar nu poate fi folosită pentru calcule practice, fie și doar pentru că presupune cunoașterea parametrului general al populației, ceea ce în sine exclude necesitatea eșantionării.

Calculele practice ale erorii medii a estimării se bazează pe premisa că aceasta (eroarea medie) este în esență abaterea standard a tuturor valorilor posibile ale estimării. Această premisă face posibilă obținerea de algoritmi pentru calcularea erorii medii pe baza datelor unui singur eșantion. În special, eroarea medie a mediei eșantionului poate fi stabilită pe baza următorului raționament. Există o selecție (,… ) formată din unități. Pentru eșantion, media eșantionului este determinată ca o estimare a mediei generale. Fiecare valoare (,… ) sub semnul sumei ar trebui considerată ca o variabilă aleatorie independentă, deoarece prima, a doua etc. unitățile pot prelua oricare dintre valorile prezente în populația generală. Prin urmare, deoarece, după cum se știe, varianța sumei variabilelor aleatoare independente este egală cu suma varianțelor, atunci . Rezultă că eroarea medie pentru media eșantionului va fi egală și este invers legată de mărimea eșantionului (prin rădăcina pătrată a acestuia) și direct proporțional cu abaterea standard a caracteristicii în populația generală. Acest lucru este logic, deoarece media eșantionului este o estimare consistentă pentru media generală și, pe măsură ce dimensiunea eșantionului crește, se apropie în valoare de parametrul estimat al populației generale. Dependența directă a erorii medii de variabilitatea trăsăturii se datorează faptului că, cu cât variabilitatea trăsăturii este mai mare în populația generală, cu atât este mai dificilă construirea unui model adecvat al populației generale pe baza eșantionului. În practică, abaterea standard a unei caracteristici din populația generală este înlocuită cu estimarea acesteia pentru eșantion, iar apoi formula de calcul a erorii medii a mediei eșantionului devine:, ținând cont de părtinirea varianței eșantionului, abaterea standard a probei se calculează prin formula = . Deoarece simbolul n indică dimensiunea eșantionului. , atunci numitorul la calcularea abaterii standard nu ar trebui să folosească dimensiunea eșantionului (n), ci așa-numitul număr de grade de libertate (n-1). Numărul de grade de libertate este înțeles ca numărul de unități din agregat, care poate varia (schimba) în mod liber dacă se definește vreo caracteristică în agregat. În cazul nostru, deoarece se determină media eșantionului, unitățile pot varia liber.

Tabelul 2.2 oferă formule pentru calcularea erorilor medii ale diferitelor estimări ale eșantionului. După cum se poate observa din acest tabel, valoarea erorii medii pentru toate estimările este în părere cu dimensiunea eșantionului și în linie dreaptă cu variabilitate. Acest lucru se poate spune și despre eroarea medie a fracției de eșantion (frecvență). Sub rădăcină se află varianța caracteristicii alternative, stabilită de eșantion ()

Formulele prezentate în tabelul 2.2 se referă la așa-numita selecție aleatorie, repetată, a unităților din eșantion. Cu alte metode de selecție, care vor fi discutate mai jos, formulele vor fi oarecum modificate.

Tabelul 2.2

Formule pentru calcularea erorilor medii ale estimărilor eșantionului

2.2.3 Eroare marginală de eșantionare Cunoașterea estimării și a erorii sale medii este în unele cazuri complet insuficientă. De exemplu, atunci când se utilizează hormoni în hrana animalelor, cunoașterea doar a dimensiunii medii a reziduurilor lor nocive necompuse și a erorii medii înseamnă expunerea consumatorilor de produs la un pericol grav. Aici este nevoie de a determina maximul ( eroare marginală). Atunci când se utilizează metoda de eșantionare, eroarea marginală este stabilită nu sub forma unei valori specifice, ci sub forma unor limite egale.

(intervale) în ambele direcții de la valoarea de evaluare.

Determinarea limitelor erorii marginale se bazează pe caracteristicile distribuției erorilor specifice. Pentru așa-numitele eșantioane mari, al căror număr este mai mare de 30 de unități () , erorile specifice sunt distribuite în conformitate cu legea normală distributie; cu mostre mici () erorile specifice sunt distribuite în conformitate cu legea de distribuție Gosset

(Student). În ceea ce privește erorile specifice în media eșantionului, funcția de distribuție normală are forma: , unde este densitatea de probabilitate a apariției anumitor valori, cu condiția ca , unde sunt mediile eșantionului; - medie generală, - eroare medie pentru media eșantionului. Deoarece eroarea medie () este o valoare constantă, atunci, în conformitate cu legea normală, erorile specifice sunt distribuite, exprimate în fracțiuni din eroarea medie, sau așa-numitele abateri normalizate.

Luând integrala funcției de distribuție normală, se poate stabili probabilitatea ca eroarea să fie închisă într-un anumit interval de t și probabilitatea ca eroarea să depășească acest interval (evenimentul invers). De exemplu, probabilitatea ca eroarea să nu depășească jumătate din eroarea medie (în ambele direcții față de media generală) este 0,3829, ca eroarea să fie conținută într-o eroare medie - 0,6827, 2 erori medii - 0,9545 etc.

Relația dintre nivelul de probabilitate și intervalul de modificare t (și, în cele din urmă, intervalul de modificare a erorii) ne permite să abordăm definirea intervalului (sau limitelor) erorii marginale, legând valoarea acesteia cu probabilitatea de implementare.Probabilitatea de implementare este probabilitatea ca eroarea să fie într-un anumit interval. Probabilitatea de implementare va fi „încrederea” în cazul în care evenimentul opus (eroarea va fi în afara intervalului) are o asemenea probabilitate de apariție care poate fi neglijată. Prin urmare, nivelul de încredere al probabilității este stabilit, de regulă, nu mai mic de 0,90 (probabilitatea evenimentului opus este de 0,10). Cu cât apariția erorilor în afara intervalului stabilit are consecințe mai negative, cu atât ar trebui să fie mai mare nivelul de încredere al probabilității (0,95; 0,99; 0,999 etc.).

După ce ați ales nivelul de încredere al probabilității din tabelul integralei de probabilitate a distribuției normale, ar trebui să găsiți valoarea corespunzătoare a lui t și apoi folosind expresia = determinați intervalul erorii marginale. Semnificația valorii obținute este următoarea: cu nivelul de încredere acceptat al probabilității, eroarea marginală a mediei eșantionului nu va depăși .

Pentru a stabili limitele de eroare marginală pe baza unor eșantioane mari pentru alte estimări (varianță, abatere standard, cote etc.), se utilizează abordarea de mai sus, ținând cont de faptul că se utilizează un algoritm diferit pentru a determina eroarea medie pentru fiecare estimare. .

În ceea ce privește eșantioanele mici (), după cum sa menționat deja, distribuția erorilor de estimare corespunde în acest caz distribuției lui t - Student. Particularitatea acestei distribuții este că, împreună cu eroarea, conține dimensiunea eșantionului ca parametru, sau mai degrabă, nu dimensiunea eșantionului, ci numărul de grade de libertate.Odată cu creșterea dimensiunii eșantionului, t-Student distribuția se apropie de normal, iar la , aceste distribuții practic coincid. Comparând valorile t-Student și t - distribuția normală cu aceeași probabilitate de încredere, putem spune că valoarea t-Student este întotdeauna mai mare decât t - distribuția normală, iar diferențele cresc odată cu scăderea dimensiunii eșantionului şi cu o creştere a nivelului de încredere al probabilităţii. În consecință, atunci când se utilizează eșantioane mici, există marje mai largi de eroare marginală în comparație cu eșantioanele mari, iar aceste limite se extind cu o scădere a dimensiunii eșantionului și o creștere a nivelului de încredere al probabilității.

Populația- un set de unitati care au caracter de masa, tipicitate, uniformitate calitativa si prezenta variatiei.

Populația statistică este formată din obiecte existente material (Angajați, întreprinderi, țări, regiuni), este un obiect.

Unitatea de populație- fiecare unitate specifică populaţia statistică.

Aceeași populație statistică poate fi omogenă într-o caracteristică și eterogenă în alta.

Uniformitate calitativă- asemănarea tuturor unităților populației pentru orice caracteristică și neasemănarea pentru toate celelalte.

Într-o populație statistică, diferențele dintre o unitate a populației și alta sunt de cele mai multe ori de natură cantitativă. Modificările cantitative ale valorilor atributului diferitelor unități ale populației se numesc variație.

Variație caracteristică- modificarea cantitativă a unui semn (pentru un semn cantitativ) în timpul trecerii de la o unitate a populației la alta.

semn este o proprietate caracteristică sau altă caracteristică a unităților, obiectelor și fenomenelor care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Diversitatea și variabilitatea valorii unei caracteristici în unități individuale ale populației se numesc variație.

Caracteristicile atributive (calitative) nu sunt cuantificabile (compunerea populației pe sex). Caracteristicile cantitative au o expresie numerică (compunerea populației pe vârstă).

Indicator- aceasta este o caracteristică generalizatoare cantitativ calitativ a oricărei proprietăți a unităților sau agregatelor în ansamblu în condiții specifice de timp și loc.

Tabloul de punctaj este un set de indicatori care reflectă cuprinzător fenomenul studiat.

De exemplu, luați în considerare salariul:

Semn - salarii
Populația statistică - toți angajații
Unitatea populației este fiecare muncitor
Omogenitate calitativă - salariu acumulat
Variație caracteristică - o serie de numere

Populația generală și eșantionul din ea

Baza este un set de date obținute ca urmare a măsurării uneia sau mai multor caracteristici. Set de obiecte cu adevărat observat, reprezentat statistic printr-o serie de observații variabilă aleatorie, este un prelevarea de probe, și existentul ipotetic (gândit) - populația generală. Populația generală poate fi finită (număr de observații N = const) sau infinit ( N = ∞), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Numărul de observații care alcătuiesc un eșantion se numește marime de mostra. Dacă dimensiunea eșantionului este suficient de mare n→∞) se ia în considerare eșantionul mare, altfel se numește probă volum limitat. Se ia în considerare eșantionul mic, dacă, la măsurarea unei variabile aleatoare unidimensionale, dimensiunea eșantionului nu depășește 30 ( n<= 30 ), iar când se măsoară simultan mai multe ( k) caracteristici într-o relație spațială multidimensională n la k mai puțin decât 10 (n/k< 10) . Formele eșantionului serie de variații dacă membrii săi sunt statisticile comenzilor, adică valorile eșantionului ale variabilei aleatoare X sunt sortate în ordine crescătoare (clasate), valorile atributului sunt numite Opțiuni.

Exemplu. Aproape același set de obiecte alese aleatoriu - băncile comerciale ale unui district administrativ al Moscovei, poate fi considerat ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion din populația generală a tuturor băncilor comerciale din Moscova , precum si un esantion de banci comerciale din tara si etc.

Metode de bază de eșantionare

De fiabilitatea concluziilor statistice și interpretarea semnificativă a rezultatelor depinde reprezentativitate mostre, adică completitudinea și adecvarea prezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăţilor statistice ale populaţiei poate fi organizat în două moduri: utilizând continuuȘi discontinuu. Observație continuă include examinarea tuturor unitati studiat agregate, dar observație necontinuă (selectivă).- doar părți din ea.

Există cinci moduri principale de organizare a eșantionării:

1. selecție aleatorie simplă, în care obiectele sunt extrase aleatoriu din populația generală de obiecte (de exemplu, folosind un tabel sau un generator de numere aleatoare), iar fiecare dintre eșantioanele posibile are o probabilitate egală. Se numesc astfel de mostre de fapt aleatoriu;

2. selecție simplă printr-o procedură obișnuită se realizează folosind o componentă mecanică (de exemplu, datele, zilele săptămânii, numerele apartamentelor, literele alfabetului etc.) iar eșantioanele obținute în acest fel se numesc mecanic;

3. stratificat selecţia constă în faptul că populaţia generală de volum este subdivizată în submulţimi sau straturi (straturi) de volum astfel încât . Straturile sunt obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi pe industrie). În acest caz, eșantioanele sunt numite stratificat(in caz contrar, stratificat, tipic, zonat);

4. metode serial selecția sunt folosite pentru a forma serial sau mostre imbricate. Sunt convenabile dacă este necesar să se examineze simultan un „bloc” sau o serie de obiecte (de exemplu, un lot de mărfuri, produse dintr-o anumită serie sau o populație din diviziunea administrativ-teritorială a țării). Selectarea serii poate fi efectuată în mod aleatoriu sau mecanic. În același timp, se efectuează o cercetare continuă a unui anumit lot de mărfuri sau a unei întregi unități teritoriale (o clădire de locuit sau un sfert);

5. combinate selecția (în trepte) poate combina mai multe metode de selecție simultan (de exemplu, stratificată și aleatorie sau aleatorie și mecanică); se numeste un astfel de esantion combinate.

Tipuri de selecție

De minte există selecție individuală, de grup și combinată. La selecție individuală Unitățile individuale ale populației generale sunt selectate în setul de eșantion, cu selecția grupului sunt grupuri (serii) de unități calitativ omogene și selecție combinată implică o combinație între primul și al doilea tip.

De metodă selectie distinge repetate și nerepetitive probă.

irepetabil numită selecție, în care unitatea care a intrat în eșantion nu revine la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unităţi ale populaţiei generale N redus în timpul procesului de selecție. La repetate selecţie prinsîn eșantion, unitatea după înregistrare este returnată populației generale și, astfel, își păstrează șanse egale, alături de alte unități, de a fi utilizată în continuarea procedurii de selecție; în timp ce numărul de unităţi ale populaţiei generale N rămâne neschimbată (metoda este rar folosită în studiile socio-economice). Cu toate acestea, cu un mare N (N → ∞) formule pentru nerepetat selecția sunt apropiate de cele pentru repetate selecția și acestea din urmă sunt folosite aproape mai des ( N = const).

Principalele caracteristici ale parametrilor populației generale și eșantionului

La baza concluziilor statistice ale studiului se află distribuția unei variabile aleatoare, în timp ce valorile observate (x 1, x 2, ..., x n) se numesc realizări ale variabilei aleatoare X(n este dimensiunea eșantionului). Distribuția unei variabile aleatoare în populația generală este teoretică, de natură ideală, iar analogul eșantionului este empiric distributie. Unele distribuții teoretice sunt date analitic, i.e. lor parametrii determinați valoarea funcției de distribuție în fiecare punct din spațiul valorilor posibile ale variabilei aleatoare. Pentru un eșantion, este dificil, și uneori imposibil, să se determine funcția de distribuție, prin urmare parametrii sunt estimate din date empirice și apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, ipoteza (sau ipoteză) despre tipul de distribuție poate fi atât corectă statistic, cât și eronată. Dar, în orice caz, distribuția empirică reconstruită din eșantion o caracterizează doar aproximativ pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimatași dispersie.

Prin însăși natura lor, distribuțiile sunt continuuȘi discret. Cea mai cunoscută distribuție continuă este normal. Analogi selectivi ai parametrilor și pentru ei sunt: valoarea medie și varianța empirică. Dintre cele discrete în studiile socio-economice, cele mai frecvent utilizate alternativă (dihotomică) distributie. Parametrul de așteptare al acestei distribuții exprimă valoarea relativă (sau acțiune) unități ale populației care au caracteristica studiată (se indică prin litera ); proporţia populaţiei care nu are această caracteristică se notează cu literă q (q = 1 - p). Varianta distribuției alternative are și un analog empiric.

În funcție de tipul de distribuție și de metoda de selectare a unităților de populație, caracteristicile parametrilor de distribuție se calculează diferit. Principalele distribuții teoretice și empirice sunt date în tabel. unu.

Cota de probă k n este raportul dintre numărul de unități ale populației eșantionului și numărul de unități ale populației generale:

k n = n/N.

Cotă de probă w este raportul dintre unitățile care au trăsătura în studiu X la dimensiunea eșantionului n:

w = n n / n.

Exemplu.Într-un lot de mărfuri ce conține 1000 de unități, cu o probă de 5%. fracția de probă k nîn valoare absolută este de 50 de unități. (n = N*0,05); dacă în această probă se găsesc 2 produse defecte, atunci fracția de probă w va fi 0,04 (w = 2/50 = 0,04 sau 4%).

Deoarece populația eșantion este diferită de populația generală, există erori de eșantionare.

Tabelul 1. Principalii parametri ai populației generale și eșantionului

Erori de eșantionare

Cu orice (solide și selective) pot apărea erori de două tipuri: înregistrare și reprezentativitate. Greșeli înregistrare poate avea AleatoriuȘi sistematic caracter. Aleatoriu erorile sunt alcătuite din multe cauze diferite de necontrolat, sunt de natură neintenționată și, de obicei, se echilibrează între ele în combinație (de exemplu, modificări ale citirilor instrumentului din cauza fluctuațiilor de temperatură din cameră).

Sistematic erorile sunt părtinitoare, deoarece încalcă regulile de selectare a obiectelor din eșantion (de exemplu, abateri ale măsurătorilor la modificarea setărilor dispozitivului de măsurare).

Exemplu. Pentru a evalua statutul social al populației din oraș, se preconizează examinarea a 25% dintre familii. Dacă, totuși, selecția fiecărui al patrulea apartament se bazează pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamente cu o cameră), ceea ce va introduce o eroare sistematică și va distorsiona rezultatele; alegerea numărului apartamentului după lot este mai de preferat, deoarece eroarea va fi aleatorie.

Erori de reprezentativitate inerente doar observarii selective, ele nu pot fi evitate si apar ca urmare a faptului ca proba nu o reproduce integral pe cea generala. Valorile indicatorilor obținuți din eșantion diferă de indicatorii acelorași valori în populația generală (sau obținuți în timpul observației continue).

Eroare de eșantionare este diferența dintre valoarea parametrului în populația generală și valoarea eșantionului acestuia. Pentru valoarea medie a unui atribut cantitativ, aceasta este egală cu: , iar pentru cota (atribut alternativ) - .

Erorile de eșantionare sunt inerente numai în observațiile eșantionului. Cu cât aceste erori sunt mai mari, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice și sunt variabile aleatoare, prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionare este o valoare care exprimă abaterea standard a mediei eșantionului de la așteptările matematice. Această valoare, supusă principiului selecției aleatoare, depinde în primul rând de mărimea eșantionului și de gradul de variație al trăsăturii: cu cât variația trăsăturii este mai mare și mai mică (deci, valoarea lui ), cu atât valoarea lui este mai mică. eroarea medie de eșantionare . Raportul dintre variațiile populației generale și eșantionului este exprimat prin formula:

acestea. pentru suficient de mare, putem presupune că . Eroarea medie de eșantionare arată posibilele abateri ale parametrului populației eșantionului față de parametrul populației generale. În tabel. 2 prezintă expresii pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 2. Eroarea medie (m) a mediei eșantionului și proporția pentru diferite tipuri de eșantion

Unde este media variațiilor eșantionului intragrup pentru o caracteristică continuă;

Media dispersiunilor intragrup ale cotei;

— numărul de serii selectate; — numărul total de serii;

unde este media seriei a-lea;

- media generală pe întregul eșantion pentru o caracteristică continuă;

unde este proporția trăsăturii din seria a III-a;

— ponderea totală a trăsăturii pe întregul eșantion.

Cu toate acestea, mărimea erorii medii poate fi apreciată doar cu o anumită probabilitate Р (Р ≤ 1). Lyapunov A.M. a demonstrat că distribuția mediilor eșantionului, și deci abaterile acestora de la media generală, cu un număr suficient de mare, respectă aproximativ legea distribuției normale, cu condiția ca populația generală să aibă o medie finită și o varianță limitată.

Matematic, această afirmație pentru medie este exprimată astfel:

iar pentru fracție, expresia (1) va lua forma:

Unde - mânca eroare marginală de eșantionare, care este un multiplu al erorii medii de eșantionare , iar factorul de multiplicitate este criteriul lui Student („factor de încredere”), propus de W.S. Gosset (pseudonim „Student”); valorile pentru diferite dimensiuni ale eșantionului sunt stocate într-un tabel special.

Valorile funcției Ф(t) pentru unele valori ale lui t sunt:

Prin urmare, expresia (3) poate fi citită astfel: cu probabilitate P = 0,683 (68,3%) se poate susține că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m(t=1), cu probabilitate P = 0,954 (95,4%)— că nu depășește valoarea a două erori medii m (t = 2), cu probabilitate P = 0,997 (99,7%)- nu va depăși trei valori m (t = 3) . Astfel, determină probabilitatea ca această diferență să depășească de trei ori valoarea erorii medii nivelul de eroareși nu este mai mult decât 0,3% .

În tabel. 3 prezintă formulele de calcul al erorii marginale de eșantionare.

Tabelul 3. Eroarea marginală de eșantionare (D) pentru medie și proporție (p) pentru diferite tipuri de observare a eșantionului

Extinderea rezultatelor eșantionului la populație

Scopul final al observării eșantionului este de a caracteriza populația generală. Pentru dimensiunile mici ale eșantionului, estimările empirice ale parametrilor ( și ) se pot abate semnificativ de la valorile lor adevărate ( și ). Prin urmare, devine necesar să se stabilească limitele în care se află valorile adevărate ( și ) pentru valorile eșantion ale parametrilor ( și ).

Interval de încredere al unui parametru θ al populației generale se numește un interval aleator de valori ale acestui parametru, care cu o probabilitate apropiată de 1 ( fiabilitate) conține valoarea adevărată a acestui parametru.

eroare marginală mostre Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încredere, care sunt egale cu:

Concluzie interval de încredere obtinut prin scadere eroare marginală din eșantion înseamnă (cota), iar cea de sus prin adăugarea acesteia.

Interval de încredere pentru medie, folosește eroarea marginală de eșantionare și pentru un anumit nivel de încredere este determinat de formula:

Aceasta înseamnă că cu o probabilitate dată R, care se numește nivelul de încredere și este determinat în mod unic de valoare t, se poate argumenta că adevărata valoare a mediei se află în intervalul de la , iar valoarea reală a acțiunii este în intervalul de la

La calcularea intervalului de încredere pentru cele trei niveluri de încredere standard P=95%, P=99% și P=99,9% valoarea este selectată de . Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t sunt egale: 1,96, 2,58 Și 3,29 . Astfel, eroarea marginală de eșantionare ne permite să determinăm valorile marginale ale caracteristicilor populației generale și intervalele de încredere ale acestora:

Distribuția rezultatelor observației selective către populația generală în studiile socio-economice are propriile sale caracteristici, deoarece necesită caracterul complet al reprezentativității tuturor tipurilor și grupurilor sale. Baza pentru posibilitatea unei astfel de distribuții este calculul eroare relativă:

Unde Δ % - eroare relativă marginală de eșantionare; , .

Există două metode principale pentru extinderea unei observații prin eșantion la populație: conversie directă și metoda coeficienților.

Esență conversie directă este de a înmulți media eșantionului!!\overline(x) cu dimensiunea populației.

Exemplu. Să fie estimat numărul mediu de copii mici din oraș printr-o metodă de eșantionare și valoarea unei persoane. Dacă în oraș sunt 1000 de familii tinere, atunci numărul de locuri necesare în creșa municipală se obține prin înmulțirea acestei medii cu mărimea populației generale N = 1000, adică. va fi de 1200 de locuri.

Metoda coeficienților se recomanda folosirea in cazul in care se efectueaza observatia selectiva pentru a clarifica datele de observatie continua.

În acest sens, se utilizează formula:

unde toate variabilele sunt mărimea populației:

Mărimea eșantionului necesară

Tabelul 4. Mărimea eșantionului necesară (n) pentru diferite tipuri de organizații de eșantionare

Atunci când planificați o anchetă de eșantionare cu o valoare predeterminată a erorii admisibile de eșantionare, este necesar să se estimeze corect valoarea necesară marime de mostra. Această sumă poate fi determinată pe baza erorii admisibile în timpul observației selective pe baza unei probabilități date care garantează un nivel de eroare acceptabil (ținând cont de modul în care este organizată observația). Formulele pentru determinarea dimensiunii necesare a eșantionului n pot fi obținute cu ușurință direct din formulele pentru eroarea marginală de eșantionare. Deci, din expresia pentru eroarea marginală:

dimensiunea eșantionului este direct determinată n:

Această formulă arată că odată cu descreșterea erorii marginale de eșantionare Δ crește semnificativ dimensiunea eșantionului necesară, care este proporțională cu varianța și pătratul testului t Student.

Pentru o metodă specifică de organizare a observației, dimensiunea necesară a eșantionului este calculată conform formulelor date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul valorii medii și al intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua viteza de decontare cu creditorii din bancă, a fost efectuat un eșantion aleatoriu de 10 documente de plată. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; 15; 15; 22; 7; 8; unu; 19; douăzeci.

Obligatoriu cu probabilitate P = 0,954 determina eroarea marginală Δ media eșantionului și limitele de încredere ale timpului mediu de calcul.

Soluţie. Valoarea medie este calculată prin formula din tabel. 9.1 pentru populația eșantion

Dispersia este calculată conform formulei din tabel. 9.1.

Eroarea pătratică medie a zilei.

Eroarea mediei se calculează cu formula:

acestea. valoarea medie este x ± m = 12,0 ± 2,3 zile.

Fiabilitatea mediei a fost

Eroarea limită este calculată prin formula din tabel. 9.3 pentru reselecție, deoarece dimensiunea populației este necunoscută, și pt P = 0,954 nivel de încredere.

Astfel, valoarea medie este `x ± D = `x ± 2m = 12,0 ± 4,6, i.e. adevărata sa valoare se află în intervalul de la 7,4 la 16,6 zile.

Utilizarea tabelului Studentului. Aplicația ne permite să concluzionăm că pentru n = 10 - 1 = 9 grade de libertate valoarea obținută este de încredere cu un nivel de semnificație a £ 0,001, i.e. valoarea medie rezultată este semnificativ diferită de 0.

Exemplul 2. Estimarea probabilității (cota generală) r.

Cu o metodă de eșantionare mecanică de anchetă a statutului social a 1000 de familii, a fost relevat că proporția familiilor cu venituri mici a fost w = 0,3 (30%)(eșantionul a fost 2% , adică n/N = 0,02). Necesar cu nivel de încredere p = 0,997 definiți un indicator R familii cu venituri mici din întreaga regiune.

Soluţie. Conform valorilor funcţiei prezentate Ф(t) găsiți pentru un anumit nivel de încredere P = 0,997 sens t=3(vezi formula 3). Eroare de cotă marginală w determinați prin formula din tabel. 9.3 pentru eșantionarea nerepetată (prelevarea mecanică este întotdeauna nerepetată):

Limitarea erorii relative de eșantionare în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi p=w±Δw, iar limitele de încredere p sunt calculate pe baza inegalității duble:

w — Δw ≤ p ≤ w — Δw, adică adevărata valoare a lui p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate susține că proporția familiilor cu venituri mici în rândul tuturor familiilor din regiune variază de la 28,6% la 31,4%.

Exemplul 3 Calculul valorii medii și al intervalului de încredere pentru o caracteristică discretă specificată de o serie de intervale.

În tabel. 5. Se stabilește repartizarea aplicațiilor pentru producerea comenzilor în funcție de momentul implementării lor de către întreprindere.

Tabelul 5. Distribuția observațiilor în funcție de momentul apariției

Soluţie. Timpul mediu de finalizare a comenzii este calculat prin formula:

Timpul mediu va fi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 luni

Primim același răspuns dacă folosim datele de pe p i din penultima coloană a tabelului. 9.5 folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește prin completarea artificială a acestuia cu lățimea intervalului gradației anterioare egală cu 60 - 36 = 24 luni.

Dispersia se calculează prin formula

Unde x i- mijlocul seriei de intervale.

Prin urmare!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) iar eroarea standard este .

Eroarea mediei este calculată prin formula pentru luni, adică media este!!\overline(x) ± m = 23,1 ± 13,4.

Eroarea limită este calculată prin formula din tabel. 9,3 pentru reselecție deoarece dimensiunea populației este necunoscută, pentru un nivel de încredere de 0,954:

Deci media este:

acestea. adevărata sa valoare se află în intervalul de la 0 la 50 de luni.

Exemplul 4 Pentru a determina viteza decontărilor cu creditorii ai N = 500 de întreprinderi ale corporației într-o bancă comercială, este necesar să se efectueze un studiu selectiv folosind metoda selecției aleatorii nerepetitive. Determinați dimensiunea eșantionului necesar n astfel încât, cu o probabilitate P = 0,954, eroarea mediei eșantionului să nu depășească 3 zile, dacă estimările testului au arătat că abaterea standard s a fost de 10 zile.

Soluţie. Pentru a determina numărul de studii necesare n, folosim formula pentru selecția nerepetitivă din tabel. 9.4:

În ea, valoarea lui t este determinată de la nivelul de încredere P = 0,954. Este egal cu 2. Valoarea pătrată medie s = 10, dimensiunea populației N = 500 și eroarea marginală a mediei Δ x = 3. Înlocuind aceste valori în formulă, obținem:

acestea. este suficient să se facă un eșantion de 41 de întreprinderi pentru a estima parametrul necesar – viteza decontărilor cu creditorii.