A mintaátlag képlet határhibája. Specifikus, átlagos és marginális mintavételi hibák

A mintából nyert mutatók értékei és az általános sokaság megfelelő paraméterei közötti eltérést nevezzük reprezentativitási hiba. Tegyen különbséget a szisztematikus és véletlenszerű mintavételi hibák között.

Véletlen hibák Az általános sokaság különböző kategóriáinak nem kellően egységes reprezentációjával magyarázható a minta sokaságában.

Szisztematikus hibák összefüggésbe hozható a kiválasztási szabályok vagy a minta végrehajtási feltételeinek megsértésével.

Így a háztartások költségvetésének felmérése során a mintavételi keretet több mint 40 évre a területi-ágazati szelekciós elv alapján építettük fel, ami a költségvetési felmérés fő céljának - a dolgozók, a munkavállalók életszínvonalának jellemzésének - köszönhető. és a kolhozok. A mintát arányosan osztottuk el az RSFSR gazdaságának régiói és ágazatai között teljes erő munkavállaló; az iparági minta létrehozásához tipikus mintát használtunk az egységek csoporton belüli mechanikus kiválasztásával.

A fő kiválasztási szempont a havi átlagkereset volt. A kiválasztás elve biztosította az arányos képviseletet a különböző bérszintű munkavállalók mintakészletében.

Az új társadalmi csoportok (vállalkozók, gazdálkodók, munkanélküliek) megjelenésével a minta reprezentativitása nem csak a teljes sokaság szerkezetétől való eltérések miatt sérül, hanem egy szisztematikus hiba is, amely a bázisok közötti eltérésből fakadt. mintavételi egység (alkalmazott) és a megfigyelési egység (háztartás) . Egynél több dolgozó családtagból álló háztartás is nagyobb valószínűséggel került kiválasztásra, mint az egy dolgozós háztartás. A nem foglalkoztatott családok a vizsgált szektorokban kiestek a kiválasztott egységek köréből (nyugdíjas háztartások, egyéni vállalkozói háztartások stb.). A kapott eredmények (konfidenciaintervallumok határai, mintavételi hibák) pontosságát nehéz volt megítélni, mivel a minta felépítésénél nem használtak valószínűségi modelleket.

1996-1997 között alapvetően új megközelítést vezettek be a háztartási minta kialakításában. Lebonyolításánál az 1994-es lakossági mikrocenzus adatait vettük alapul, a kiválasztásban a teljes lakosságot a kollektív háztartások kivételével minden háztartástípus alkotta. A mintavételi készletet úgy kezdték megszervezni, hogy figyelembe vették a háztartások összetételének és típusainak reprezentativitását az Orosz Föderáció egyes alanyokon belül.

A mintamutatók reprezentativitásának hibáinak mérése azon a feltételezésen alapul, hogy végtelen eloszlásuk véletlenszerű. nagy számok minták.

A mintamutató megbízhatóságának számszerűsítése arra szolgál, hogy képet kapjunk az általános jellemzőről. Ezt vagy egy mintamutató alapján, annak véletlenszerű hibájának figyelembevételével, vagy egy bizonyos hipotézis alapján (az átlagos szórás értékéről, az eloszlás természetéről, az összefüggésről) a rendszer tulajdonságaira vonatkozóan. Általános népesség.

A hipotézis teszteléséhez az empirikus adatok és a hipotetikus adatok konzisztenciáját értékeljük.

A véletlenszerű reprezentativitási hiba nagysága a következőktől függ:

  • 1) a minta nagyságáról;
  • 2) a vizsgált tulajdonság variációjának mértéke az általános populációban;
  • 3) a mintapopuláció kialakításának elfogadott módszere.

Vannak átlagos (standard) és marginális mintavételi hibák.

Átlagos hiba a mintamutatók a teljes sokaság hasonló mutatóitól való eltérésének mértékét jellemzi.

határhiba a minta és az általános jellemzők közötti maximális eltérést szokás figyelembe venni, azaz. maximális hiba előfordulásának adott valószínűségére.

A mintapopuláció szerint lehetőség nyílik az általános sokaság különféle mutatóinak (paramétereinek) értékelésére. A leggyakrabban használt pontszámok a következők:

  • - a vizsgált tulajdonság általános átlagértéke (többértékű mennyiségi tulajdonság esetén);
  • – általános részvény (alternatív jelre).

A mintavételi módszer alkalmazásának alapelve, hogy az általános sokaság minden egysége számára egyenlő esélyt biztosítsunk a minta sokaságában való kiválasztásra. Ezzel a megközelítéssel betartjuk a véletlenszerű, objektív szelekció követelményét, ezért a mintavételi hibát elsősorban annak mérete határozza meg ( P ). Ez utóbbi növekedésével az átlagos hiba értéke csökken, a minta sokaság jellemzői megközelítik az általános sokaság jellemzőit.

Ugyanannyi mintavételi halmaz és egyéb feltételek azonossága mellett kisebb lesz a mintavételi hiba abban az esetben, amelyik az általános sokaságból kerül kiválasztásra a vizsgált tulajdonság kisebb variációjával. Egy tulajdonság variációjának csökkenése a variancia értékének csökkenését jelenti (mennyiségi tulajdonságnál vagy alternatív tulajdonságnál).

A mintavételi hiba nagyságának függését a minta sokaság kialakításának módszereitől az átlagos mintavételi hiba képletei határozzák meg (5.2. táblázat).

Kiegészítjük a táblázat mutatóit. 5.2 a következő magyarázatokkal.

A minta szórása valamivel kisebb, mint az általános, ezt a matematikai statisztika igazolja

5.2. táblázat

Képletek az átlagos mintahiba mri kiszámításához különböző módokon kiválasztás

Minta típusa

megismételve

számára megismételhetetlen

Tulajdonképpen

véletlen

(egyszerű)

Sorozatszám

(egyenlővel

Tipikus (a csoportok méretével arányosan)

Ha a minta nagy (pl. P elég nagy), akkor az arány megközelíti az egységet, és a minta szórása gyakorlatilag egybeesik az általánossal.

A minta akkor tekinthető feltétel nélkül nagynak, ha n> 100 és feltétel nélkül kicsi at P < 30. При оценке результатов kis minta figyelembe kell venni a minta és az általános variancia feltüntetett arányát.

A következő képletekkel számíthatók ki:

hol van az átlag én sorozat; a teljes minta általános átlaga;

ahol egy bizonyos kategória egységeinek aránya én sorozat; - az ebbe a kategóriába tartozó egységek részesedése a teljes mintában; r- a kiválasztott epizódok száma.

4. Egy tipikus minta átlagos hibájának meghatározásához az egyes csoportok méretarányos egységek kiválasztásánál a csoporton belüli diszperziók átlaga (- mennyiségi tulajdonságnál alternatív tulajdonságnál) a variáció mutatója. . A varianciaösszeadás szabálya szerint a csoporton belüli eltérések átlagának értéke kisebb, mint a teljes variancia értéke. Középérték lehetséges hiba a tipikus mintavétel kisebb, mint egy egyszerű megfelelő véletlenszerű mintavétel hibája.

Gyakran alkalmazzák a kombinált szelekciót: az egységek egyedi kiválasztását csoportos kiválasztással, a tipikus szelekciót a sorozatos kiválasztással kombinálják. Bármely szelekciós módszerrel, bizonyos valószínűséggel vitatható, hogy a mintaátlag (vagy részesedés) eltérése az általános átlagtól (vagy részesedéstől) nem halad meg egy bizonyos értéket, amelyet ún. határhiba minták.

A mintavételi hibahatár (∆) közötti arány bizonyos valószínűséggel garantált F(t), és az átlagos mintavételi hiba alakja: vagy , ahol t – megbízhatósági együttható, a valószínűség mértékétől függően F(t).

Funkcióértékek F(t) és t speciálisan összeállított matematikai táblázatok alapján határozzák meg. Íme néhány a leggyakrabban használtak közül:

t

A marginális mintavételi hiba tehát bizonyos valószínűséggel válaszol a mintavételi pontosság kérdésére, melynek értéke a konfidencia együttható értékétől függ. t. Igen, at t = 1 valószínűség F(t ) a minta jellemzőinek az általánostól való eltérése egyetlen átlagos hiba értékével 0,683. Ebből következően átlagosan 1000 mintából 683 ad általánosított mutatót (átlag, részesedés), amelyek legfeljebb egyetlen átlagos hibával térnek el az általánosaktól. Nál nél t = 2 valószínűséggel F(t) egyenlő 0,954-gyel, ami azt jelenti, hogy minden 1000 mintából 954 olyan általános mutatókat ad, amelyek az átlagos mintahiba legfeljebb kétszeresével térnek el az általánostól, stb.

A határérték mintavételi hiba abszolút értékével együtt kiszámítjuk a relatív hiba amelyet a mintavételi határhibának a minta megfelelő jellemzőihez viszonyított százalékos arányaként határoznak meg:

A gyakorlatban a ∆ értékét általában az attribútum várható átlagos szintjének 10%-án belül szokás beállítani.

Az átlagos és marginális mintavételi hibák kiszámítása lehetővé teszi, hogy meghatározza azokat a határokat, amelyeken belül az általános sokaság jellemzői:

Azokat a határokat, amelyekben adott valószínűséggel a vizsgált mutatónak az általános sokaságban ismeretlen értéke benne lesz, az ún. megbízhatósági intervallum, és a valószínűség F(t) megbízhatósági valószínűség. Minél nagyobb a ∆ értéke, annál nagyobb a konfidenciaintervallum, és ennek következtében annál kisebb a becslés pontossága.

Tekintsük a következő példát. A banki betét átlagos nagyságának meghatározásához a betétesek 200 devizaszámláját választottam ki ismételt véletlenszerű mintavételezéssel. Ennek eredményeként azt találták, hogy az átlagos betét összege 60 ezer rubel volt, a szóródás pedig 32. Ugyanakkor 40 számla igény szerintinek bizonyult. 0,954-es valószínűséggel meg kell határozni, hogy a banki devizaszámlák átlagos betéti összege és a látra szóló számlák aránya milyen határokon belül helyezkedik el.

Számítsa ki a mintaátlag átlagos hibáját az újrakiválasztási képlet segítségével!

A mintaátlag határhibája 0,954 valószínűséggel lesz

Következésképpen az átlagos betét devizabankszámláin ezer rubelen belül van:

0,954-es valószínűséggel vitatható, hogy a devizabankszámlákon lévő átlagos betét 59 200 és 60 800 rubel között mozog.

Határozzuk meg a látra szóló betétek arányát a minta sokaságában:

A mintamegosztás jelentése hiba

A részvény határhibája 0,954 valószínűséggel lesz

Így a keresleti számlák aránya a lakosságon belül belül van w :

0,954-es valószínűséggel állítható, hogy a keresleti számlák aránya a bankban lévő összes devizaszámlán belül 14,4 és 25,6% között mozog.

Konkrét vizsgálatoknál fontos meghatározni az optimális arányt a kapott eredmények megbízhatóságának mértéke és az elfogadható mintavételi hiba nagysága között. Ennek kapcsán a mintamegfigyelés megszervezése során felmerül a kérdés, hogy milyen mintanagyság szükséges ahhoz, hogy adott valószínűséggel megkapjuk az eredmények megkívánt pontosságát. A szükséges mintanagyság kiszámítása a mintavételi határhibára vonatkozó képletek alapján történik a kiválasztási típusnak és módszernek megfelelően (5.3. táblázat).

5.3. táblázat

Képletek a mintanagyság megfelelő véletlen kiválasztási módszerrel történő kiszámításához

Folytassuk a példát, amely a banki betétesek személyes számláira vonatkozó mintavételes felmérés eredményeit mutatja be.

Meg kell határozni, hogy hány számlát kell megvizsgálni, hogy 0,977 valószínűséggel az átlagos betéti összeg meghatározásának hibája ne haladja meg az 1,5 ezer rubelt. Adjuk meg az újraválasztáshoz szükséges marginális mintavételi hiba képletéből a mintanagyság mutatóját:

A szükséges mintanagyság meghatározásakor a fenti képletekkel nehéz megtalálni a σ2 és igen értékeit, mivel ezeket az értékeket csak mintavételezés után lehet megkapni. Ebben a vonatkozásban ezen mutatók tényleges értékei helyett hozzávetőlegesek kerülnek helyettesítésre, amelyek bármilyen próbamintás megfigyelés vagy analitikus korábbi felmérések alapján meghatározhatók.

Azokban az esetekben, amikor a statisztikus ismeri a vizsgált jellemzők átlagos értékét (például utasításokból, jogalkotási aktusokból stb.) vagy azt a határt, amelyen belül ez a jellemző változik, a következő számítás alkalmazható közelítő képletekkel:

és a w(1 – w) szorzatot 0,25-tel (w = 0,5) kell helyettesíteni.

A pontosabb eredmény érdekében vegye figyelembe ezeknek a mutatóknak a lehető legnagyobb értékét. Ha egy tulajdonság eloszlása ​​az általános populációban megfelel a normál törvénynek, akkor a változási tartomány körülbelül 6σ (a szélső értékeket mindkét oldalon 3σ választja el az átlagtól). Ezért , de ha az eloszlás nyilvánvalóan aszimmetrikus, akkor .

Bármilyen típusú mintánál a térfogatát az újramintavételi képlet szerint kezdik kiszámítani

Ha a számítás eredményeként a kiválasztási részesedés ( n ) meghaladja az 5%-ot, akkor a számítás a nem ismétlődő kiválasztás képlete szerint történik.

Egy tipikus mintához szükséges a mintapopuláció teljes mennyiségét felosztani a kiválasztott egységtípusok között. Az egyes csoportokból származó megfigyelések számának kiszámítása egy tipikus minta korábban említett szervezeti formáitól függ.

A csoportok számával aránytalanul arányosan jellemző egységek kiválasztásánál a kiválasztott egységek teljes számát elosztjuk a csoportok számával, az így kapott érték adja meg az egyes tipikus csoportokból történő kiválasztás számát:

ahol k az azonosított tipikus csoportok száma.

A tipikus csoportok számával arányos egységek kiválasztásakor az egyes csoportok megfigyeléseinek számát a képlet határozza meg

honnan van a minta mérete én -th csoport; - hangerő én -adik csoport.

Kiválasztáskor a tulajdonság variációját figyelembe véve az egyes csoportokból származó minták százalékos arányának arányosnak kell lennie a csoport szórásával (). A szám () kiszámítása a képletek szerint történik

Sorozatválasztásnál a kiválasztott sorozatok szükséges számát ugyanúgy határozzuk meg, mint a megfelelő véletlenszerű kiválasztásnál:

Újraválasztás

Nem ismétlődő kiválasztás

Ebben az esetben a szórások és a mintavételi hibák a tulajdonság átlagértékére vagy arányára számíthatók.

Szelektív megfigyelés esetén eredményeinek jellemzői a szelektív mutatók kapott hibahatárainak a megengedett hiba értékével való összehasonlítása alapján lehetségesek.

Ezzel kapcsolatban felmerül a probléma annak a valószínűségének meghatározása, hogy a mintavételi hiba nem haladja meg a megengedett hibát. Ennek a feladatnak a megoldása a mennyiség határmintavételi hibájának képletén alapuló számításra redukálódik t.

Folytatva a banki ügyfelek személyes számláira vonatkozó minta-felmérés példáját, meg fogjuk találni annak valószínűségét, amellyel vitatható, hogy az átlagos betéti méret meghatározásának hibája nem haladja meg a 785 rubelt:

a megfelelő konfidenciaszint 0,95.

Jelenleg a szelektív megfigyelés gyakorlata magában foglalja a statisztikai megfigyeléseket, amelyeket:

  • - a Rosstat testei;
  • – egyéb minisztériumok és részlegek (például az Oroszországi Bank rendszerében működő vállalkozások felügyelete).

A kisvállalkozások, a lakosság és a háztartások mintavételes felméréseinek szervezésével kapcsolatos tapasztalatok jól ismert általánosítását a Statisztikai Módszertani rendelkezések ismertetik. A szelektív megfigyelés tágabb fogalmát adják, mint azt fentebb tárgyaltuk (5.4. táblázat).

A statisztikai gyakorlatban mind a négy mintatípust használják, amelyeket a táblázatban mutatunk be. 5.4. Általában azonban előnyben részesítik a fentebb ismertetett valószínűségi (véletlenszerű) mintákat, amelyek a legobjektívebbek, mivel ezek segítségével lehet értékelni a minta adataiból kapott eredmények pontosságát.

5.4. táblázat

Mintatípusok

A mintákban kvázi véletlenszerű típus a valószínűségi kiválasztást azon az alapon feltételezzük, hogy a mintát vizsgáló szakértő azt elfogadhatónak tartja. A kvázi véletlenszerű mintavétel statisztikai gyakorlati alkalmazására példa a "Sampling Survey of Small Enterprises to Study Social Processes in Small Business", amelyet 1996-ban végeztek Oroszország egyes régióiban. A megfigyelési egységeket (kisvállalkozások) szakszerűen, a gazdasági ágazatok reprezentációjának figyelembevételével választották ki a kisvállalkozások pénzügyi és gazdasági tevékenységei felmérésének már kialakított mintájából ("Tájékoztatás a pénzügyi-gazdasági tevékenységek főbb mutatóiról" nyomtatvány). egy kisvállalkozásé"). A mintaadatok összesítésekor feltételeztük, hogy a mintahalmazt egyszerű véletlenszerű kiválasztás módszerével alakították ki.

közvetlen szakértői vélemény alkalmazása a leggyakoribb módszer az egységek mintába való szándékos felvételére. Ilyen kiválasztási módszerre példa a monografikus módszer, amely során csak egy megfigyelési egységből nyernek információt, ami jellemző a felmérés szervezője - szakértő szerint.

Minták alapján irányválasztás, objektív eljárással valósítják meg, de valószínűségi mechanizmus alkalmazása nélkül. A fő tömb módszere széles körben ismert, amelyben a legnagyobb (lényeges) megfigyelési egységek kerülnek a mintába, amelyek a fő hozzájárulást adják a mutatóhoz, például a felmérés fő célját képviselő jellemző összértékét. .

A statisztikai gyakorlatban gyakran használják kombinált módszer statisztikai megfigyelés. A folyamatos és szelektív megfigyelési módszerek kombinációjának két aspektusa van:

  • időbeli váltakozás;
  • egyidejű használatuk (a populáció egy részét folyamatosan, egy részét pedig szelektíven figyelik meg).

váltakozás időszakos mintavétel viszonylag ritka folyamatos felmérésekkel vagy népszámlálással szükséges a vizsgált populáció összetételének tisztázásához. A jövőben ezeket az információkat statisztikai alapként használják a minta megfigyeléséhez. Ilyen például a népszámlálás és a közöttük végzett háztartási mintavételezés.

Ebben az esetben a következő feladatokat kell megoldania:

  • – a folyamatos megfigyelés jelei összetételének meghatározása, amelyek biztosítják a minta szervezését;
  • – váltakozási periódusok alátámasztása, i.e. amikor a folyamatos adatok már nem relevánsak, és frissítésük költségekkel jár.

Egyidejű használat a folyamatos és mintavételes megfigyelések egy felmérésének keretein belül a statisztikai gyakorlatban tapasztalható sokaság heterogenitása miatt. Ez különösen igaz a felmérésekre gazdasági aktivitás vállalkozások halmaza, amelyet a vizsgált jellemzők torz eloszlása ​​jellemez, amikor bizonyos számú egység olyan jellemzőkkel rendelkezik, amelyek nagyon eltérnek az értékek nagy részétől. Ebben az esetben az ilyen egységeket folyamatosan, a populáció másik részét pedig szelektíven.

A megfigyelések ilyen megszervezésével a fő feladatok a következők:

  • – optimális arányuk megállapítása;
  • – módszerek kidolgozása az eredmények pontosságának értékelésére.

A kombinált módszer alkalmazásának ezen aspektusát illusztráló tipikus példa az általános elv a vállalkozások sokaságára vonatkozó felmérések lebonyolítása, mely szerint a nagy- és középvállalkozások körében főként folyamatos, a kisvállalkozásoknál pedig mintavételes módszerrel készülnek felmérések.

A mintavételi módszertan továbbfejlesztése mind a folyamatos megfigyelés megszervezésével kombinálva, mind pedig speciális felmérések szervezésével történik, amelyek lebonyolítását a konkrét problémák megoldásához szükséges további információk megszerzésének igénye diktálja. Így a lakosság körülményei és életszínvonala terén végzett felmérések megszervezése két szempont szerint történik:

  • - kötelező összetevők;
  • – további modulok az integrált mutatórendszeren belül.

Kötelező összetevői lehetnek a jövedelmek, kiadások és fogyasztás éves felmérései (hasonlóan a háztartási költségvetési felmérésekhez), amelyek a lakosság életkörülményeinek alapmutatóit is tartalmazzák. A kötelező komponenseket külön terv szerint minden évben ki kell egészíteni a lakosság életkörülményeiről szóló egyszeri felmérésekkel (modulokkal), amelyek célja az összes kiválasztott társadalmi téma beható vizsgálata (pl. , háztartási eszközök, egészségügy, táplálkozás, oktatás, munkakörülmények, lakáskörülmények, szabadidő, szociális mobilitás, biztonság stb.) változó gyakorisággal, a mutatóigény és az erőforrás-képességek függvényében.

Mint ismeretes, a statisztikában a tömegjelenségek megfigyelésének két módja van, az objektum lefedettségének teljességétől függően: folyamatos és nem folyamatos. A nem folyamatos megfigyelés egy változata a szelektív megfigyelés.

Alatt szelektív megfigyelés nem folyamatos megfigyelés alatt értendő, melynek során a vizsgált sokaság véletlenszerűen kiválasztott egységeit statisztikai vizsgálatnak (megfigyelésnek) vetik alá.

A szelektív megfigyelés azt a feladatot tűzi ki maga elé, hogy a vizsgált részre vonatkozóan jellemezze az egységek teljes sokaságát, figyelemmel a statisztikai megfigyelés és az egységek kiválasztásával kapcsolatos tudományosan szervezett munka összes szabályára és elvére.

A statisztikában a felméréshez kiválasztott mértékegységek halmazát általában ún mintapopuláció , és az egységek halmaza, amelyből a kiválasztás történik, meghívásra kerül Általános népesség . Az általános és minta sokaság főbb jellemzőit az 1. táblázat mutatja be.

Asztal 1 - Az általános és minta sokaság főbb jellemzői
IndikátorMegnevezés vagy képlet
Népesség Mintapopuláció
Egységek száma N n
A funkcióval rendelkező egységek száma M m
Az ezzel a tulajdonsággal rendelkező egységek aránya p = M/N ω = m/n
Azon egységek aránya, amelyek nem rendelkeznek ezzel a funkcióval q = 1 - p 1 - w
Átlagos érték jel
Diszperzió jel
Alternatív jellemző szórása (részesedés szórása) pq ω (1 - ω)

A szelektív megfigyelés során szisztematikus és véletlenszerű hibák fordulnak elő. A szisztematikus hibák a mintában szereplő egységek kiválasztására vonatkozó szabályok megsértése miatt merülnek fel. A kiválasztási szabályok megváltoztatásával az ilyen hibák kiküszöbölhetők.

Véletlenszerű hibák a felmérés nem folyamatos jellegéből adódnak. Egyébként reprezentativitási (reprezentativitási) hibáknak nevezzük. A véletlenszerű hibákat átlagos és marginális mintavételi hibákra osztják, amelyeket a jellemző és a részesedés kiszámításakor egyaránt meghatároznak.

Az átlagos és határhibákat a következő összefüggés kapcsolja össze :Δ = tμ, ahol Δ a határmintavételi hiba, μ az átlagos mintavételi hiba, t a valószínűségi szinttől függően meghatározott konfidenciafaktor. A 2. táblázatban a t néhány valószínűségszámítási értéke látható.

Az átlagos mintavételi hiba értéke a kiválasztási módszertől és a mintavételi eljárástól függően eltérően kerül kiszámításra. A mintavételi hibák számításának fő képleteit a 3. táblázat tartalmazza.

3. táblázat - Alapvető képletek az ismétlődő és nem ismétlődő kiválasztás mintavételi hibáinak kiszámításához
IndikátorMegnevezés és képlet
Népesség Mintapopuláció
Átlagos jellemzőhiba véletlenszerű újramintavételezésnél
Átlagos megosztási hiba véletlenszerű újramintavételezésnél
Egy jellemző hibájának korlátozása véletlenszerű újraválasztás esetén
Marginális részesedési hiba a véletlenszerű újrakiválasztásnál
Egy jellemző átlagos hibája véletlenszerű, nem ismétlődő kiválasztás esetén
Átlagos megosztási hiba véletlenszerű, nem ismétlődő kiválasztásnál
Egy jellemző hibájának korlátozása véletlenszerű, nem ismétlődő kiválasztással
A véletlenszerű, nem ismétlődő kiválasztás határrészesedési hibája

Az átlagos és marginális mintavételi hibák kiszámítása lehetővé teszi, hogy meghatározza azokat a lehetséges határokat, amelyekben az általános sokaság jellemzői .

Például egy mintaátlaghoz az ilyen határértékek a következő összefüggések alapján vannak beállítva:

A tulajdonság arányának határai az általános populációban p.

Példák a problémák megoldására a "Mintavételi megfigyelés a statisztikában" témában

1. feladat . A régió vállalkozásainak 10%-os mintavételezése alapján nyert információ áll rendelkezésre a termékek (építési beruházások, szolgáltatások) kibocsátásáról:

Határozza meg: 1) a mintában szereplő vállalkozások esetében: a) az egy vállalkozásra jutó kibocsátás átlagos nagyságát; b) a termelés mennyiségének szórása; c) a 400 ezer rubelnél nagyobb termelési volumenű vállalkozások részesedése; 2) a régió egészére vonatkozóan 0,954 valószínűséggel azokat a határokat, amelyeken belül számítani lehet: a) egy vállalkozásra jutó átlagos termelési volumenre; b) a 400 ezer rubelnél nagyobb termelési volumenű vállalkozások részesedése; 3) a teljes kibocsátás mennyisége a régióban.

Döntés

A probléma megoldásához kibővítjük a javasolt táblázatot.

1) A mintában szereplő vállalkozások esetében a kibocsátás vállalkozásonkénti átlagos nagysága

110800/400 = 277 ezer rubel

A termelés mennyiségének szórását leegyszerűsített módon számítjuk ki σ 2 = 35640000/400 - 277 2 = 89100 - 76229 = 12371.

Azon vállalkozások száma, amelyek termelési volumene meghaladja a 400 ezer rubelt. egyenlő 36+12 = 48, részarányuk pedig ω = 48:400 = 0,12 = 12%.

2) A valószínűségelméletből ismert, hogy P=0,954 valószínűséggel a konfidenciafaktor t=2. Marginális mintavételi hiba

2√12371:400 = 11,12 ezer rubel

Állítsuk be az általános átlag határait: 277-11,12 ≤Xav ≤ 277+11,12; 265,88 ≤Xav ≤ 288,12

A vállalkozások részesedésének határmintavételi hibája

2√0,12*0,88/400 = 0,03

Határozzuk meg az általános részesedés határait: 0,12-0,03≤ p ≤0,12+0,03; 0,09≤ p≤0,15

3) Mivel a vizsgált vállalkozáscsoport a régió összes vállalkozásának 10%-a, így a régióban összesen 4000 vállalkozás működik. Ekkor a teljes kibocsátás mennyisége a régióban 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

2. feladat . 400 vállalkozási struktúra adóhatósági ellenőrzésének eredménye szerint ezek közül 140 nem tünteti fel teljes körűen bevallásában az adóköteles jövedelmet. Határozza meg a teljes népességben (a teljes régióban) azon üzleti struktúrák arányát, amelyek adóbevételeik egy részét elrejtették 0,954-es valószínűséggel!

Döntés

A probléma feltétele szerint a mintapopuláció egységeinek száma n=400, a figyelembe vett jellemzővel rendelkező egységek száma m=140, valószínűsége P=0,954.

A valószínűségelméletből ismert, hogy P=0,954 valószínűség mellett a konfidenciafaktor t=2.

A jelzett attribútummal rendelkező egységek arányát a következő képlet határozza meg: p=w+∆p, ahol w = m/n=140/400=0,35=35%,
és a ∆p jellemző határhibáját a következő képletből kapjuk: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Ekkor p = 35±5%.

Válasz : Az adóbevételük egy részét 0,954-es valószínűséggel elrejtő vállalkozási struktúrák aránya 35±5%.

Átlagos mintavételi hiba mindig jelen van a szelektív vizsgálatokban, és annak köszönhető, hogy a statisztikai sokaságnak nem minden egységét, hanem csak egy részét vizsgálják.

Az átlagos mintavételi hiba lesz határhiba Δ ha megszorozzuk a bizalmi tényezővel t , amely a kívánt megfigyelési pontosság alapján előre be van állítva. A határhiba lehetővé teszi, hogy bizonyos fokú valószínűséggel megítélje a paraméter "igazi" méretét az általános sokaságban

Tipikus és soros kiválasztáshoz, a teljes variancia helyett a mintavételi hiba kiszámításakor 2 ) használja a csoporton belüli és a csoportok közötti variancia átlagát
, ahol
- az i. csoport privát szórása, kötet i csoport

Véletlenszerű minta határhibájának képletei az átlag meghatározásában

Az újraválasztáshoz

A véletlen minta határhibájának képletei a részesedés meghatározásában

Az újraválasztáshoz

Nem ismétlődő kiválasztáshoz

Képletek egy véletlen minta méretére az átlagérték meghatározásában

A véletlen minták számának képletei a vizsgált tulajdonság arányának meghatározásában

Az általános és a mintaátlag közötti határkülönbség a határhibának felel meg

Valószínűségi értékek, ill t az elosztási táblázatokban találhatók:

  • Diák (kis minta esetén)

A véletlenszerű mintavételi képletek mechanikai mintavételre is alkalmasak.

Ha kerekítés szükséges, véletlenszerű mintavétellel - felfelé kerekítéssel, gépi mintavétellel - lefelé kerekítéssel.

Kis minta

Ha a minta mérete nem haladja meg a 30 egységet, akkor egy kis minta átlagos hibáját az átlagérték meghatározásában a következő képlettel számítjuk ki:

Egy kis minta hibájának kiszámításához a finomított varianciaképletet használjuk

A mintavételi feladatok típusai

    a mintavételi hiba meghatározása,

    a minta méretének meghatározása n ,

    annak a valószínűségének meghatározása, hogy a minta átlaga (vagy részaránya) legfeljebb egy adott mértékben tér el az általánostól t=Δ/μ,

    a mintamegfigyelések mutatóiban előforduló eltérések véletlenszerűségének értékelése,

    minta jellemzőinek átadása az általános sokaságnak.

Átlag- és arányhipotézis tesztelése

A minta megfigyelések mutatóiban előforduló eltérések véletlenszerűségének becslése


A mintaadatok általános sokaságba történő átvitelének módszerei

    mérési módszer;

    újramérési módszer;

    véletlenszerű kiválasztással történő kitöltési módszer a helyettesítő osztályokban.

A hibák szisztematikusak és véletlenszerűek

2. moduláris egység Mintavételi hibák

Mivel a minta általában a sokaság nagyon kis részét fedi le, feltételeznünk kell, hogy lesznek eltérések a becslés és a sokaság azon jellemzője között, amelyet ez a becslés tükröz. Ezeket a különbségeket megjelenítési hibának vagy reprezentativitási hibának nevezzük. A reprezentativitási hibákat két típusba soroljuk: szisztematikus és véletlenszerű.

Szisztematikus hibák- ez a becslés értékének állandó felül- vagy alulbecslése az általános sokaság jellemzőihez képest. A szisztematikus hiba megjelenésének oka a teljes sokaság minden egységének a mintába kerülésének egyenlő valószínűségi elvének be nem tartása, vagyis a minta túlnyomórészt „legrosszabb” (vagy „legjobb”) képviselőkből áll. az általános lakosságé. Az egyes egységek mintába kerülésének egyenlő esélye elvének betartása lehetővé teszi az ilyen típusú hibák teljes kiküszöbölését.

Véletlen hibák - ezek az általános sokaság becsült és becsült jellemzője közötti különbségek, amelyek előjelben és nagyságrendben mintánként változnak. A véletlenszerű hibák előfordulásának oka a véletlenek játéka egy olyan minta kialakításában, amely csak egy részét képezi az általános sokaságnak. Ez a fajta hiba a mintavételi módszer velejárója. Teljesen kizárni őket lehetetlen, lehetséges nagyságuk előrejelzése és minimálisra csökkentése a feladat. Az ehhez kapcsolódó műveletek sorrendje háromféle véletlenszerű hiba figyelembevételéből következik: specifikus, közepes és extrém.

2.2.1 Specifikus hiba egy vett minta hibája. Ha ennek a mintának az átlaga () az általános átlag (0) becslése, és feltételezzük, hogy ez az általános átlag ismert, akkor a különbség = -0, és ennek a mintának a fajlagos hibája lesz. Ha sokszor megismételjük a mintát ebből az általános sokaságból, akkor minden alkalommal egy adott hiba új értékét kapjuk: ... stb. Ezekre a konkrét hibákra vonatkozóan a következőket mondhatjuk: egyesek nagyságrendileg és előjelükben egybeesnek, vagyis van hibaeloszlás, van, amelyik egyenlő lesz 0-val, van egybeesés a becslés és a paraméter között. az általános lakosság;

2.2.2 Átlagos hiba az összes véletlenül lehetséges specifikus becslési hiba négyzetes középértéke: , ahol a változó fajlagos hibák értéke; egy adott hiba előfordulásának gyakorisága (valószínűsége). Az átlagos mintahiba azt mutatja meg, hogy átlagosan mekkora hibát követhetünk el, ha a becslés alapján az általános sokaság paraméteréről ítéletet hozunk. A fenti képlet feltárja az átlagos hiba tartalmát, de gyakorlati számításokhoz nem használható, már csak azért is, mert feltételezi az általános sokasági paraméter ismeretét, ami önmagában kizárja a mintavétel szükségességét.



A becslés átlagos hibájának gyakorlati számításai azon a feltevésen alapulnak, hogy ez (az átlagos hiba) lényegében a becslés összes lehetséges értékének szórása. Ez a feltevés lehetővé teszi, hogy egyetlen minta adatai alapján algoritmusokat kapjunk az átlagos hiba kiszámításához. Különösen a mintaátlag átlagos hibája állapítható meg az alábbi érvelés alapján. Van egy kijelölés (,… ), amely egységekből áll. A minta esetében a minta átlagát az általános átlag becsléseként határozzuk meg. Az összegjel alatti minden értéket (,… ) független valószínűségi változónak kell tekinteni, mivel az első, második stb. egységek felvehetik az általános populációban jelenlévő értékek bármelyikét. Ezért Mivel, mint ismeretes, a független valószínűségi változók összegének szórása egyenlő a szórások összegével, akkor . Ebből következik, hogy a mintaátlag átlagos hibája egyenlő lesz, és fordítottan arányos a minta méretével (annak négyzetgyökén keresztül), és egyenes arányban van a jellemző szórásával az általános sokaságban. Ez logikus, mivel a mintaátlag az általános átlag konzisztens becslése, és a minta méretének növekedésével értékében megközelíti az általános sokaság becsült paraméterét. Az átlagos hiba közvetlen függése a tulajdonság változékonyságától abból adódik, hogy minél nagyobb a tulajdonság variabilitása az általános sokaságban, annál nehezebb a minta alapján az általános sokaság megfelelő modelljét felépíteni. A gyakorlatban egy jellemző szórását az általános sokaságban felváltja a mintára vonatkozó becslése, majd a mintaátlag átlagos hibájának számítására szolgáló képlet a következőképpen alakul: miközben figyelembe véve a minta varianciájának torzítását, a minta szórását a = képlettel számítjuk ki. Mivel az n szimbólum a minta méretét jelöli. , akkor a szórás számításánál a nevezőnek nem a mintanagyságot (n), hanem az úgynevezett szabadságfokok számát (n-1) kell használni. A szabadsági fokok számán az aggregátumban lévő egységek számát értjük, amely szabadon változhat (változhat), ha az aggregátumban valamilyen jellemzőt definiálunk. Esetünkben a mintaátlag meghatározása miatt az egységek szabadon változhatnak.

A 2.2. táblázat képleteket ad a különböző mintabecslések átlagos hibáinak kiszámításához. Amint ebből a táblázatból látható, az összes becslés átlagos hibájának értéke benn van Visszacsatolás a minta nagyságával és egy egyenes vonalban változtatható. Ez elmondható a mintafrakció (gyakoriság) átlagos hibájáról is. A gyökér alatt található az alternatív jellemző varianciája, amelyet a minta állapít meg ()

A 2.2. táblázatban megadott képletek a mintában szereplő egységek úgynevezett véletlenszerű, ismételt kiválasztására vonatkoznak. Más kiválasztási módszerekkel, amelyekről az alábbiakban lesz szó, a képletek némileg módosulnak.

2.2. táblázat

Képletek a mintabecslések átlagos hibáinak kiszámításához

2.2.3 Marginális mintavételi hiba A becslés és annak átlagos hibája bizonyos esetekben teljesen nem elegendő. Például a hormonok állati takarmányozásban történő alkalmazásakor a fel nem bomlott káros maradványaik átlagos méretének és az átlagos hibájuknak ismerete komoly veszélynek teszi ki a termék fogyasztóit. Itt meg kell határozni a maximális ( határhiba). A mintavételi módszer használatakor a határhibát nem egy konkrét érték, hanem egyenlő határok formájában állítjuk be

(intervallum) bármelyik irányban az értékelési értéktől.

A határhiba határainak meghatározása a fajlagos hibák eloszlásának jellemzői alapján történik. Az úgynevezett nagy minták esetében, amelyek száma meghaladja a 30 egységet () , a konkrét hibákat a normális törvény terjesztés; kis mintákkal () a konkrét hibákat a Gosset-eloszlási törvénynek megfelelően osztják el

(Diák). A mintaátlag specifikus hibáit tekintve a normál eloszlási függvény alakja: , ahol bizonyos értékek előfordulásának valószínűségi sűrűsége, feltéve, hogy , hol vannak a mintaátlagok; - általános átlag, - a mintaátlag átlaghibája. Mivel az átlagos hiba () egy állandó érték, ezért a normál törvény szerint a fajlagos hibák eloszlása ​​az átlagos hiba töredékében, vagy az úgynevezett normalizált eltérésekben történik.

A normális eloszlásfüggvény integrálját véve megállapítható, hogy a hiba mekkora valószínűséggel záródik be egy t intervallumba, és annak a valószínűsége, hogy a hiba túllép ezen az intervallumon (a fordított esemény). Például annak a valószínűsége, hogy a hiba nem haladja meg az átlagos hiba felét (az általános átlaghoz képest mindkét irányban), 0,3829, a hiba egy átlagos hibán belül lesz - 0,6827, 2 átlagos hiba - 0,9545 stb.

A valószínűség szintje és a t változás intervalluma (és végső soron a hiba változási intervalluma) közötti kapcsolat lehetővé teszi, hogy megközelítsük a határhiba intervallumának (vagy határainak) meghatározását, összekapcsolva annak értékét a valószínűséggel. A megvalósítás valószínűsége annak a valószínűsége, hogy a hiba valamilyen intervallumon belül megtörténik. A megvalósítás valószínűsége "bizalom" lesz abban az esetben, ha az ellenkező esemény (a hiba az intervallumon kívül lesz) olyan előfordulási valószínűséggel rendelkezik, amely elhanyagolható. Ezért a valószínűség megbízhatósági szintje általában nem alacsonyabb, mint 0,90 (az ellenkező esemény valószínűsége 0,10). Minél negatívabb következményekkel jár a megállapított intervallumon kívüli hibák megjelenése, annál magasabbnak kell lennie a valószínűség konfidenciaszintjének (0,95; 0,99; 0,999 stb.).

A normális eloszlás valószínűségi integráljának táblázatából kiválasztva a valószínűség konfidenciaszintjét, meg kell keresni a megfelelő t értékét, majd a = kifejezés segítségével meghatározni a határhiba intervallumát. A kapott érték jelentése a következő: az elfogadott valószínűségi konfidenciaszint mellett a mintaátlag határhibája nem haladja meg a -t.

Más becslések (variancia, szórás, részesedések stb.) nagy mintákon alapuló marginális hibahatárok meghatározásához a fenti megközelítést alkalmazzuk, figyelembe véve azt a tényt, hogy az egyes becslések átlagos hibájának meghatározásához más algoritmust használnak. .

Ami a kis mintákat illeti (), mint már említettük, a becslési hibák eloszlása ​​ebben az esetben megfelel a t - Student eloszlásának. Ennek az eloszlásnak az a sajátossága, hogy a hibával együtt paraméterként tartalmazza a minta méretét, pontosabban nem a minta méretét, hanem a szabadsági fokok számát A minta méretének növekedésével a t-Student eloszlás megközelíti a normált, és -nél ezek az eloszlások gyakorlatilag egybeesnek. A t-Student és a t - normál eloszlás értékeit azonos valószínűséggel összehasonlítva elmondható, hogy a t-Student értéke mindig nagyobb, mint a t - normál eloszlás, és a különbségek a minta méretének csökkenésével nőnek. és a valószínűségi konfidenciaszint növekedésével. Következésképpen kis minták használatakor szélesebb határhiba-határok vannak a nagy mintákhoz képest, és ezek a határok a minta méretének csökkenésével és a valószínűségi konfidenciaszint növekedésével bővülnek.

Népesség- olyan egységek halmaza, amelyek tömegjelleggel, tipikussággal, minőségi egységességgel és változatosság jelenlétével rendelkeznek.

A statisztikai sokaság anyagilag létező objektumokból áll (Alkalmazottak, vállalkozások, országok, régiók), egy objektum.

Népességi egység- minden egyes egység statisztikai sokaság.

Ugyanaz a statisztikai sokaság lehet homogén az egyik jellemzőben, és heterogén a másikban.

Minőségi egységesség- a sokaság összes egységének hasonlósága bármely jellemző tekintetében és eltérés az összes többi esetében.

Egy statisztikai sokaságban a sokaság egy egysége és egy másik egysége közötti különbségek gyakrabban mennyiségi jellegűek. A populáció különböző egységeinek attribútuma értékeinek mennyiségi változásait variációnak nevezzük.

Funkció variáció- egy jel mennyiségi változása (mennyiségi jel esetén) a népesség egyik egységéről a másikra való átmenet során.

jel egy ingatlan jellegzetes vagy az egységek, tárgyak és jelenségek egyéb megfigyelhető vagy mérhető jellemzője. A jeleket mennyiségire és minőségire osztják. Egy jellemző értékének sokféleségét és változékonyságát a sokaság egyes egységeiben ún variáció.

Az attribúciós (minőségi) jellemzők nem számszerűsíthetők (a népesség nemek szerinti összetétele). A mennyiségi jellemzőknek számszerű kifejezésük van (a populáció életkor szerinti összetétele).

Indikátor- ez az egységek vagy aggregátumok bármely tulajdonságának általánosító mennyiségi minőségi jellemzője meghatározott időben és helyen.

Eredménymutató olyan mutatók összessége, amelyek átfogóan tükrözik a vizsgált jelenséget.

Például vegye figyelembe a fizetést:
  • Jel - bérek
  • Statisztikai sokaság – minden alkalmazott
  • A népesség egysége minden dolgozó
  • Minőségi homogenitás - felhalmozott fizetés
  • Funkcióváltozat – számsor

Általános sokaság és minta belőle

Az alap egy vagy több jellemző mérése eredményeként kapott adatok halmaza. Valóban megfigyelt objektumok halmaza, statisztikailag megfigyelések sorozatával valószínűségi változó, egy mintavétel, és a hipotetikusan létező (kigondolt) - Általános népesség. Az általános sokaság véges lehet (megfigyelések száma N = állandó) vagy végtelen ( N = ∞), és az általános sokaságból vett minta mindig korlátozott számú megfigyelés eredménye. A mintát alkotó megfigyelések számát ún minta nagysága. Ha a minta mérete elég nagy n→∞) figyelembe veszi a mintát nagy, egyébként mintának hívják korlátozott mennyiségben. A mintát figyelembe veszik kicsi, ha egy egydimenziós valószínűségi változó mérésekor a minta mérete nem haladja meg a 30 ( n<= 30 ), és ha egyszerre több ( k) jellemzői egy többdimenziós térrelációban n nak nek k kevesebb, mint 10 (n/k< 10) . A mintanyomtatványok variációs sorozat ha tagjai azok rendelési statisztikák, azaz a valószínűségi változó mintaértékei x Növekvő sorrendben vannak rendezve (rangsorolva), az attribútum értékei meghívásra kerülnek lehetőségek.

Példa. Szinte ugyanaz a véletlenszerűen kiválasztott objektumkészlet - Moszkva egyik közigazgatási körzetének kereskedelmi bankjai - tekinthető mintának az ebben a kerületben található összes kereskedelmi bank általános sokaságából, és mintaként Moszkva összes kereskedelmi bankjának általános sokaságából. , valamint az ország kereskedelmi bankjainak mintája stb.

Alapvető mintavételi módszerek

A statisztikai következtetések megbízhatósága és az eredmények értelmes értelmezése attól függ reprezentativitás minták, azaz az általános sokaság tulajdonságainak bemutatásának teljessége és megfelelősége, amelyre vonatkozóan ez a minta reprezentatívnak tekinthető. A sokaság statisztikai tulajdonságainak vizsgálata kétféleképpen szervezhető: felhasználással folyamatosés szakaszos. Folyamatos megfigyelés magában foglalja az összes vizsgálatát egységek tanult aggregátumok, a nem folyamatos (szelektív) megfigyelés- csak részei.

A mintavétel megszervezésének öt fő módja van:

1. egyszerű véletlenszerű kiválasztás, amelyben az objektumokat véletlenszerűen kinyerjük az objektumok általános sokaságából (például egy táblázat vagy véletlenszám-generátor segítségével), és minden lehetséges mintának egyenlő a valószínűsége. Az ilyen mintákat ún valójában véletlenszerű;

2. egyszerű kiválasztás szokásos eljárással mechanikai komponens segítségével történik (például dátumok, hét napjai, lakásszámok, ábécé betűi stb.), és az így kapott mintákat ún. mechanikai;

3. rétegelt A kiválasztás abból áll, hogy a térfogat általános sokaságát részhalmazokra vagy térfogatrétegekre (rétegekre) osztják fel úgy, hogy . A rétegek a statisztikai jellemzőket tekintve homogén objektumok (például a népesség korcsoport vagy társadalmi osztály szerint rétegekre oszlik, a vállalkozások ágazatok szerint). Ebben az esetben a mintákat hívják rétegelt(másképp, rétegzett, tipikus, zónás);

4. módszerek sorozatszám kiválasztást használnak a formázáshoz sorozatszám vagy beágyazott minták. Kényelmesek, ha egy "tömböt" vagy tárgysorozatot kell egyszerre megvizsgálni (például áruszállítmányt, bizonyos sorozat termékeit vagy az ország területi-közigazgatási felosztásában lévő lakosságot). A sorozatok kiválasztása történhet véletlenszerűen vagy mechanikusan. Ezzel egyidejűleg egy bizonyos árutétel, vagy egy teljes területi egység (lakóház vagy negyed) folyamatos felmérése történik;

5. kombinált A (lépcsős) szelekció egyszerre több kiválasztási módszert is kombinálhat (például rétegzett és véletlenszerű vagy véletlenszerű és mechanikus); ilyen mintát hívnak kombinált.

Kiválasztás típusai

Által ész van egyéni, csoportos és kombinált válogatás. Nál nél egyéni kiválasztás az általános sokaság egyes egységeit választjuk ki a mintakészletben, azzal csoport kiválasztása minőségileg homogén egységcsoportok (sorozatok), és kombinált kiválasztás az első és a második típus kombinációját foglalja magában.

Által módszer szelekció megkülönböztetni ismétlődő és nem ismétlődő minta.

Megismételhetetlen szelekciónak nevezzük, amelyben a mintába került egység nem tér vissza az eredeti sokasághoz, és nem vesz részt a további szelekcióban; míg az általános sokaság egységeinek száma N csökkentik a kiválasztási folyamat során. Nál nél megismételt kiválasztás elkapták a mintában a nyilvántartásba vétel utáni egység visszakerül a teljes sokasághoz, és így más egységekkel együtt egyenlő esélyt kap a további kiválasztási eljárásban való felhasználásra; míg az általános sokaság egységeinek száma N változatlan marad (a módszert ritkán alkalmazzák a társadalmi-gazdasági vizsgálatokban). Azonban egy nagy N (N → ∞) képletek megismétletlen a választék közel áll azokhoz megismételt kiválasztása és az utóbbiak szinte gyakrabban használatosak ( N = állandó).

Az általános és minta sokaság paramétereinek főbb jellemzői

A tanulmány statisztikai következtetéseinek alapja egy valószínűségi változó eloszlása, míg a megfigyelt értékek (x 1, x 2, ..., x n) a valószínűségi változó realizációinak nevezzük x(n a minta mérete). Egy valószínűségi változó eloszlása ​​az általános sokaságban elméleti, ideális természetű, mintaanalógja pedig empirikus terjesztés. Néhány elméleti eloszlást analitikusan adunk meg, pl. őket lehetőségek határozza meg az eloszlásfüggvény értékét a valószínűségi változó lehetséges értékei terének minden pontjában. Egy minta esetében nehéz, sőt néha lehetetlen meghatározni az eloszlásfüggvényt lehetőségek empirikus adatokból becsüljük meg, majd behelyettesítjük az elméleti eloszlást leíró analitikus kifejezésbe. Ebben az esetben a feltételezés (ill hipotézis) az eloszlás típusáról statisztikailag helyes és hibás is lehet. De mindenesetre a mintából rekonstruált empirikus eloszlás csak nagyjából jellemzi az igazat. A legfontosabb eloszlási paraméterek a várható értékés diszperzió.

Az eloszlások természetüknél fogva azok folyamatosés diszkrét. A legismertebb folyamatos eloszlás az Normál. A paraméterek és hozzá tartozó szelektív analógjai: átlagérték és empirikus variancia. A társadalmi-gazdasági tanulmányokban a diszkrétek közül a leggyakrabban használt alternatív (dichotóm) terjesztés. Ennek az eloszlásnak a várható paramétere a relatív értéket fejezi ki (ill Ossza meg) a sokaság azon egységei, amelyek rendelkeznek a vizsgált jellemzővel (a betű jelzi); betűvel jelöljük a lakosság azon arányát, amely nem rendelkezik ezzel a tulajdonsággal q (q = 1 - p). Az alternatív eloszlás varianciájának empirikus analógja is van.

Az eloszlás típusától és a populációs egységek kiválasztásának módjától függően az eloszlási paraméterek jellemzőit eltérő módon számítják ki. Az elméleti és empirikus eloszlások főbb jellemzőit a táblázat tartalmazza. egy.

Mintamegosztás k n a minta sokaság egységeinek számának és az általános sokaság egységeinek számának aránya:

k n = n/N.

Mintamegosztás w a vizsgált tulajdonsággal rendelkező egységek aránya x a minta méretéhez n:

w = n n/n.

Példa. 1000 db-ot tartalmazó árutételben, 5%-os mintával mintafrakció k n abszolút értékben 50 egység. (n = N*0,05); ha ebben a mintában 2 hibás terméket találunk, akkor mintafrakció w 0,04 lesz (w = 2/50 = 0,04 vagy 4%).

Mivel a mintapopuláció eltér az általános sokaságtól, vannak mintavételi hibák.

1. táblázat Az általános és mintapopulációk főbb paraméterei

Mintavételi hibák

Bármilyen (szilárd és szelektív) kétféle hiba fordulhat elő: regisztráció és reprezentativitás. Hibák bejegyzés lehet véletlenés szisztematikus karakter. Véletlen a hibák sok különböző ellenőrizhetetlen okból állnak össze, nem szándékos természetűek, és általában kombinációban kiegyenlítik egymást (például a helyiség hőmérséklet-ingadozásai miatti műszerértékek változása).

Szisztematikus a hibák elfogultak, mivel sértik a mintában lévő objektumok kiválasztására vonatkozó szabályokat (például a mérési eltérések a mérőeszköz beállításainak megváltoztatásakor).

Példa. A város lakosságának szociális helyzetének felmérésére a családok 25%-ának vizsgálatát tervezik. Ha azonban minden negyedik lakás kiválasztása a szám alapján történik, akkor fennáll annak a veszélye, hogy csak egy típusú (például egyszobás) lakást választanak ki, ami szisztematikus hibát vezet be és torzítja az eredményeket; A lakásszám sorsolással történő megválasztása előnyösebb, mivel a hiba véletlenszerű lesz.

Reprezentatív hibák csak a szelektív megfigyelésben rejlenek, nem kerülhetők el, és abból fakadnak, hogy a minta nem reprodukálja teljesen az általánost. A mintából nyert mutatók értékei eltérnek az általános sokaság azonos értékeinek (vagy folyamatos megfigyelés során kapott) mutatóitól.

Mintavételi hiba az általános sokaságban szereplő paraméter értéke és mintaértéke közötti különbség. Egy mennyiségi attribútum átlagos értékéhez egyenlő: , a részesedéshez (alternatív attribútum) pedig - .

A mintavételi hibák csak a mintamegfigyelésekben rejlenek. Minél nagyobbak ezek a hibák, annál jobban eltér az empirikus eloszlás az elméletitől. Az empirikus eloszlás paraméterei és valószínűségi változók, ezért a mintavételi hibák is valószínűségi változók, eltérő értéket vehetnek fel a különböző mintákhoz, ezért szokás számolni átlagos hiba.

Átlagos mintavételi hiba a minta átlagának a matematikai elvárástól való szórását kifejező érték. Ez az érték a véletlenszerű szelekció elvének megfelelően elsősorban a minta nagyságától és a tulajdonság variációjának mértékétől függ: minél nagyobb és minél kisebb a tulajdonság variációja (tehát az értéke), annál kisebb a tulajdonság értéke. az átlagos mintavételi hiba. Az általános és a mintapopuláció varianciái közötti arányt a következő képlet fejezi ki:

azok. kellően nagy esetén feltételezhetjük, hogy . Az átlagos mintavételi hiba a minta sokaság paraméterének lehetséges eltéréseit mutatja az általános sokaság paraméterétől. táblázatban. A 2. ábra az átlagos mintavételi hiba kiszámítására szolgáló kifejezéseket mutatja a megfigyelésszervezés különböző módszereihez.

2. táblázat: A minta átlagának átlagos hibája (m) és aránya különböző mintatípusoknál

Hol van egy folytonos jellemző csoporton belüli mintavarianciáinak átlaga;

A részesedés csoporton belüli szórásának átlaga;

— a kiválasztott sorozatok száma, — a sorozatok teljes száma;

,

ahol a th sorozat átlaga;

- a teljes minta általános átlaga egy folytonos jellemző esetében;

,

ahol a tulajdonság aránya a th sorozatban;

— a tulajdonság teljes részesedése a teljes mintában.

Az átlagos hiba nagysága azonban csak bizonyos Р (Р ≤ 1) valószínűséggel ítélhető meg. Ljapunov A.M. bebizonyította, hogy a mintaátlagok eloszlása, és ezáltal az általános átlagtól való eltéréseik kellően nagy számmal, megközelítőleg megfelelnek a normál eloszlási törvénynek, feltéve, hogy az általános sokaság véges átlaggal és korlátozott szórással rendelkezik.

Matematikailag ez az átlagra vonatkozó állítás a következőképpen fejezhető ki:

és a tört esetében az (1) kifejezés a következő formában lesz:

ahol - van marginális mintavételi hiba, ami az átlagos mintavételi hiba többszöröse , a multiplicitástényező pedig a W.S. által javasolt Student-kritérium ("konfidenciafaktor"). Gosset (álnév "diák"); a különböző mintaméretekhez tartozó értékeket egy speciális táblázatban tároljuk.

A Ф(t) függvény értékei t egyes értékeire:

Ezért a (3) kifejezés a következőképpen olvasható: valószínűséggel P = 0,683 (68,3%) vitatható, hogy a minta és az általános átlag közötti különbség nem haladja meg az átlagos hiba egy értékét m(t=1), valószínűséggel P = 0,954 (95,4%)— hogy ne haladja meg a két átlagos hiba értékét m (t = 2) , valószínűséggel P = 0,997 (99,7%)- nem haladja meg a három értéket m (t = 3) .Így annak a valószínűsége, hogy ez a különbség meghaladja az átlagos hiba háromszorosát, meghatározza hibaszintés nem több mint 0,3% .

táblázatban. A 3. ábra a határmintavételi hiba kiszámításának képleteit mutatja.

3. táblázat: Marginális mintavételi hiba (D) az átlaghoz és az arányhoz (p) a különböző típusú mintamegfigyelésekhez

A mintaeredmények kiterjesztése a lakosságra

A mintás megfigyelés végső célja az általános sokaság jellemzése. Kis mintaméretek esetén a paraméterek empirikus becslései ( és ) jelentősen eltérhetnek valódi értéküktől ( és ). Ezért szükségessé válik azoknak a határoknak a meghatározása, amelyeken belül a paraméterek ( és ) mintaértékei esetében a valódi értékek ( és ) vannak.

Megbízhatósági intervallum Az általános sokaság bármely θ paraméterének véletlenszerű értéktartományát nevezzük ennek a paraméternek, amelynek valószínűsége közel 1 ( megbízhatóság) tartalmazza ennek a paraméternek a valódi értékét.

határhiba minták Δ lehetővé teszi a lakosság és azok jellemzőinek határértékeinek meghatározását konfidencia intervallumok, amelyek egyenlőek:

A lényeg megbízhatósági intervallum kivonással kapott határhiba a mintaátlagból (részesedés), a legfelső pedig hozzáadásával.

Megbízhatósági intervallum az átlaghoz a határmintavételi hibát használja, és egy adott megbízhatósági szinthez a következő képlet határozza meg:

Ez azt jelenti, hogy adott valószínűséggel R, amelyet megbízhatósági szintnek neveznek, és az érték egyedileg határozza meg t, vitatható, hogy az átlag valódi értéke a től kezdődő tartományban van , és a részvény valódi értéke a közötti tartományba esik

A három standard konfidenciaszint konfidenciaintervallumának kiszámításakor P=95%, P=99% és P=99,9%értéket a . Alkalmazások a szabadságfokok számától függően. Ha a minta mérete elég nagy, akkor ezeknek a valószínűségeknek megfelelő értékeket kell megadni t egyenlőek: 1,96, 2,58 és 3,29 . Így a marginális mintavételi hiba lehetővé teszi, hogy meghatározzuk az általános sokaság jellemzőinek határértékeit és azok konfidencia intervallumait:

A szelektív megfigyelés eredményeinek az általános populációra való elosztása a társadalmi-gazdasági vizsgálatokban megvannak a maga sajátosságai, hiszen megköveteli valamennyi típusa és csoportja reprezentativitásának teljességét. Az ilyen eloszlás lehetőségének alapja a számítás relatív hiba:

ahol Δ % - relatív marginális mintavételi hiba; , .

Két fő módszer létezik a minta megfigyelésének kiterjesztésére a sokaságra: közvetlen átváltás és együtthatók módszere.

Lényeg közvetlen átalakítás a minta átlagát!!\overline(x) megszorozni a sokaság méretével.

Példa. Legyen egy mintavételi módszerrel becsülve a városban élő kisgyermekek átlagos száma, és egy főre vonatkoztatva. Ha a városban 1000 fiatal család él, akkor az önkormányzati bölcsődében szükséges férőhelyek számát úgy kapjuk meg, hogy ezt az átlagot megszorozzuk az összlakosság számával N = 1000, azaz. 1200 férőhelyes lesz.

Az együtthatók módszere Szelektív megfigyelés esetén célszerű használni a folyamatos megfigyelés adatainak tisztázása érdekében.

Ennek során a következő képletet használják:

ahol minden változó a sokaság méretét jelenti:

Kötelező mintaméret

4. táblázat: Szükséges mintanagyság (n) a különböző típusú mintavételi szervezetekhez

A megengedett mintavételi hiba előre meghatározott értékével végzett mintavételi felmérés tervezésekor helyesen kell megbecsülni a szükséges mintavételi hibát. minta nagysága. Ez az összeg a szelektív megfigyelés során megengedett hiba alapján határozható meg adott valószínűség alapján, amely garantálja az elfogadható hibaszintet (figyelembe véve a megfigyelés megszervezését). A szükséges n mintanagyság meghatározására szolgáló képletek könnyen beszerezhetők közvetlenül a határmintavételi hiba képleteiből. Tehát a határhiba kifejezéséből:

a minta méretét közvetlenül határozzák meg n:

Ez a képlet azt mutatja, hogy csökkenő mintavételi határhibával Δ szignifikánsan megnöveli a szükséges mintanagyságot, ami arányos a varanciával és a Student-féle t-próba négyzetével.

A megfigyelés megszervezésének egy adott módszeréhez a szükséges mintanagyságot a táblázatban megadott képletek alapján számítjuk ki. 9.4.

Gyakorlati számítási példák

1. példa: Folytonos mennyiségi jellemző átlagértékének és konfidenciaintervallumának kiszámítása.

A banki hitelezőkkel való elszámolás sebességének felmérésére 10 fizetési bizonylatból álló véletlenszerű mintát vettek fel. Értékük egyenlőnek bizonyult (napokban): 10; 3; tizenöt; tizenöt; 22; 7; nyolc; egy; tizenkilenc; 20.

Valószínűséggel kötelező P = 0,954 határhibák meghatározása Δ minta átlaga és az átlagos számítási idő konfidenciahatárai.

Döntés. Az átlagértéket a táblázat képletével számítjuk ki. 9.1 a minta sokaságára

A diszperziót a táblázatban szereplő képlet alapján számítjuk ki. 9.1.

A nap átlagos négyzetes hibája.

Az átlag hibáját a következő képlettel számítjuk ki:

azok. középértéke az x ± m = 12,0 ± 2,3 nap.

Az átlag megbízhatósága az volt

A korlátozó hiba kiszámítása a táblázat képletével történik. 9.3 újrakiválasztásra, mivel a populáció nagysága nem ismert, és a P = 0,954 bizalmi szint.

Így az átlagérték `x ± D = `x ± 2m = 12,0 ± 4,6, azaz. valódi értéke 7,4 és 16,6 nap közötti tartományban van.

Diákasztal használata. Az alkalmazás arra enged következtetni, hogy n = 10 - 1 = 9 szabadsági fok esetén a kapott érték megbízható, £0,001 szignifikanciaszinttel, azaz. a kapott átlagérték jelentősen eltér 0-tól.

2. példa. Valószínűség becslése (általános részesedés) r.

1000 család társadalmi helyzetének felmérésével mechanikus mintavételi módszerrel kiderült, hogy az alacsony jövedelmű családok aránya w = 0,3 (30%)(a minta volt 2% , azaz n/N = 0,02). Megbízhatósági szinttel kötelező p = 0,997 mutatót határozzon meg R alacsony jövedelmű családok az egész régióban.

Döntés. A bemutatott függvényértékek szerint Ф(t) keresse meg egy adott megbízhatósági szinthez P = 0,997 jelentése t=3(lásd a 3. képletet). Határrészesedési hiba w táblázat képletével határozzuk meg. 9.3 nem ismétlődő mintavétel esetén (a mechanikus mintavétel mindig nem ismétlődő):

A relatív mintavételi hiba korlátozása % lesz:

Az alacsony jövedelmű családok valószínűsége (általános aránya) a régióban lesz p=w±Δw, és a p konfidenciahatárokat a kettős egyenlőtlenség alapján számítjuk ki:

w — Δw ≤ p ≤ w — Δw, azaz p valódi értéke a következőkben rejlik:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Így 0,997-es valószínűséggel állítható, hogy az alacsony jövedelmű családok aránya a régió összes családja között 28,6% és 31,4% között mozog.

3. példa Egy intervallumsorozat által meghatározott diszkrét jellemző átlagértékének és konfidenciaintervallumának kiszámítása.

táblázatban. 5. Meghatározzák a megrendelések előállítására irányuló kérelmek elosztását a vállalkozás általi végrehajtásuk ütemezése szerint.

5. táblázat A megfigyelések megoszlása ​​az előfordulás időpontja szerint

Döntés. A rendelés átlagos teljesítési idejét a következő képlet számítja ki:

Az átlagos idő a következő lesz:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 hónap

Ugyanezt a választ kapjuk, ha a táblázat utolsó előtti oszlopának p i-re vonatkozó adatait használjuk. 9.5 a következő képlet segítségével:

Vegye figyelembe, hogy az utolsó fokozat intervallumának közepét úgy találjuk meg, hogy mesterségesen kiegészítjük az előző fokozat intervallumának szélességével, amely 60-36 = 24 hónap.

A diszperziót a képlet számítja ki

ahol x i- az intervallumsorozat közepe.

Ezért!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) és a standard hiba .

Az átlag hibáját a képlet alapján számítjuk ki hónapokra, azaz. az átlag!!\overline(x) ± m = 23,1 ± 13,4.

A korlátozó hiba kiszámítása a táblázat képletével történik. 9.3 újraválasztáshoz, mert a populáció mérete ismeretlen, 0,954-es megbízhatósági szinthez:

Tehát az átlag:

azok. valódi értéke 0 és 50 hónap közötti tartományban van.

4. példa A társaság N = 500 vállalatának hitelezőivel való elszámolás sebességének meghatározásához egy kereskedelmi bankban szelektív vizsgálatot kell végezni véletlenszerű, nem ismétlődő kiválasztás módszerével. Határozzuk meg a szükséges n mintanagyságot úgy, hogy P = 0,954 valószínűséggel a mintaátlag hibája ne haladja meg a 3 napot, ha a próbabecslések azt mutatták, hogy az s szórása 10 nap.

Döntés. A szükséges n vizsgálatok számának meghatározásához a táblázatból a nem ismétlődő kiválasztás képletét használjuk. 9.4:

Ebben a t értékét a P = 0,954 konfidenciaszintre határozzuk meg. Ez egyenlő 2-vel. Az átlagos négyzetérték s = 10, a populáció mérete N = 500, és az átlag határhibája Δ x = 3. Ezeket az értékeket behelyettesítve a képletbe, a következőt kapjuk:

azok. elegendő 41 vállalkozásból álló mintát készíteni a szükséges paraméter - a hitelezőkkel való elszámolás sebességének - becsléséhez.

Ossza meg