A t értéke ha. A Student-féle t-próba automatikus számítása

A Student-féle t-próba a hipotézisek statisztikai tesztelésére szolgáló módszerek (statisztikai tesztek) általános elnevezése a Student-féle eloszláson alapulva. A t-próba alkalmazásának leggyakoribb esetei két mintában az átlagok egyenlőségének ellenőrzéséhez kapcsolódnak.

1. A t-próba kialakulásának története

Ezt a kritériumot dolgozták ki William Gosset hogy felmérje a sör minőségét a Guinnessnél. A céggel szembeni, az üzleti titkok felfedésére vonatkozó kötelezettségekkel kapcsolatban Gosset cikke 1908-ban jelent meg a Biometrics folyóiratban „Student” (Student) fedőnéven.

2. Mire használható a Student-féle t-próba?

Az átlagkülönbségek statisztikai szignifikanciájának meghatározására Student-féle t-próbát használunk. Független minták összehasonlításakor egyaránt használható ( például cukorbetegek csoportjai és egészségesek csoportjai), és a kapcsolódó halmazok összehasonlításakor ( pl. ugyanazon betegek átlagos pulzusszáma egy antiarrhythmiás gyógyszer bevétele előtt és után).

3. Mikor használható a Student-féle t-próba?

A Student-féle t-próba alkalmazásához szükséges, hogy az eredeti adatok rendelkezzenek normális eloszlás. Független minták kétmintás vizsgálatának alkalmazása esetén is szükséges a feltétel teljesítése szórások egyenlősége (homoscedaszticitása)..

Ha ezek a feltételek nem teljesülnek, a mintaátlagok összehasonlításakor hasonló módszereket kell alkalmazni. nem paraméteres statisztika, amelyek közül a leghíresebbek Mann-Whitney U-teszt(kétmintás tesztként független mintákhoz), és előjel kritériumÉs Wilcoxon teszt(függő minták esetén használatos).

4. Hogyan számítsuk ki a Student-féle t-próbát?

Az átlagértékek összehasonlításához a Student-féle t-próbát a következőképpen számítjuk ki következő képletet:

ahol M 1- az első összehasonlított sokaság (csoport) számtani átlaga, M 2- a második összehasonlított sokaság (csoport) számtani átlaga, m 1 - átlagos hiba első számtani átlag, m2- a második számtani átlag átlagos hibája.

5. Hogyan értelmezzük a Student-féle t-próba értékét?

A Student-féle t-próba eredő értékét helyesen kell értelmezni. Ehhez tudnunk kell az egyes csoportok tantárgyainak számát (n 1 és n 2). A szabadságfokok számának meghatározása f a következő képlet szerint:

f \u003d (n 1 + n 2) - 2

Ezt követően meghatározzuk a Student-féle t-próba kritikus értékét a szükséges szignifikanciaszinthez (például p=0,05) és adott szám szabadsági fokokat f táblázat szerint ( lásd lentebb).

Összehasonlítjuk a kritérium kritikus és számított értékeit:

Ha a Student-féle t-próba számított értéke egyenlő vagy nagyobb kritikus, a táblázatban található, arra a következtetésre jutottunk, hogy az összehasonlított értékek közötti különbségek statisztikailag szignifikánsak.
Ha a számított Student-féle t-próba értéke Kevésbé táblázatos, ami azt jelenti, hogy az összehasonlított értékek közötti különbségek statisztikailag nem szignifikánsak.

6. Példa a Student-féle t-próba kiszámítására

Egy új vaskészítmény hatékonyságának vizsgálatára két vérszegénységben szenvedő betegcsoportot választottak ki. Az első csoportban a betegek két hétig új gyógyszert, a második csoportban placebót kaptak. Ezt követően megmértük a perifériás vér hemoglobinszintjét. Az első csoportban átlagos szint hemoglobin értéke 115,4±1,2 g/l, a másodikban pedig 103,7±2,3 g/l (az adatok formátumban vannak feltüntetve M±m), az összehasonlított populációk normális eloszlásúak. Az első csoport száma 34, a második 40 beteg volt. Következtetést kell levonni a kapott különbségek statisztikai szignifikanciájáról és az új vaskészítmény hatékonyságáról.

Megoldás: A különbségek szignifikanciájának felmérésére Student-féle t-próbát használunk, amelyet úgy számítunk ki, hogy az átlagok különbségét osztjuk a hibák négyzetével:

A számítások elvégzése után a t-próba értéke 4,51 volt. A szabadságfokok számát a következőképpen kapjuk: (34 + 40) - 2 = 72. A Student-féle t-próba 4,51 kapott értékét összehasonlítjuk a táblázatban feltüntetett p=0,05 kritikus értékkel: 1,993. Mivel a kritérium számított értéke nagyobb, mint a kritikus érték, arra a következtetésre jutottunk, hogy a megfigyelt eltérések statisztikailag szignifikánsak (p szignifikancia szint<0,05).

A statisztikai hipotézis tesztelése lehetővé teszi, hogy a mintaadatok alapján szigorú következtetést vonjon le az általános sokaság jellemzőiről. A hipotézisek különbözőek. Az egyik az átlagos hipotézis ( matematikai elvárás). Lényege, hogy csak a rendelkezésre álló minta alapján helyes következtetést vonjunk le arról, hogy az általános átlag hol lehet vagy nem (a pontos igazságot sosem fogjuk megtudni, de szűkíthetjük a keresési kört).

Le van írva a hipotézisek tesztelésének általános megközelítése, tehát egyenesen a lényegre. Tételezzük fel először, hogy a minta egy normál valószínűségi változók halmazából származik xáltalános átlaggal μ és diszperzió σ2(Tudom, tudom, hogy ez nem történik meg, de nem kell félbeszakítanod!). Ennek a mintának a számtani átlaga nyilvánvalóan maga egy valószínűségi változó. Ha sok ilyen mintát kinyerünk és kiszámítjuk az átlagokat, akkor azok is a matematikai elvárásokkal lesznek μ És

Azután véletlenszerű érték

Felmerül a kérdés: az általános átlag 95%-os valószínűséggel ±1,96-on belül lesz? s x̅. Más szóval, a valószínűségi változók eloszlásai

egyenértékű.

Ezt a kérdést először egy vegyész vetette fel (és oldotta meg), aki a dublini (Írország) Guinness sörgyárban dolgozott. A vegyészt William Seeley Gossetnek hívták, és sörmintákat vett a kémiai elemzéshez. Valamikor úgy tűnik, Williamnek homályos kétségei támadtak az átlagok eloszlását illetően. Kicsit szétterítettebbnek bizonyult, mint egy normál eloszlásnak lennie kellene.

Miután összegyűjtötte a matematikai indoklást és kiszámította az általa felfedezett eloszlási függvény értékeit, William Gosset dublini kémikus jegyzetet írt, amely a Biometrics folyóirat 1908. márciusi számában jelent meg (főszerkesztő - Karl Pearson). . Mivel A Guinness szigorúan megtiltotta a sörfőzés titkainak kiszolgáltatását, Gosset Student álnéven írt alá.

Annak ellenére, hogy K. Pearson már feltalálta az elosztást, ennek ellenére a normalitás általános elképzelése továbbra is dominált. Senki sem gondolta volna, hogy a mintabecslések eloszlása nem normális. Ezért W. Gosset cikke gyakorlatilag észrevétlen és feledésbe merült. És csak Ronald Fisher értékelte Gosset felfedezését. Fischer az új disztribúciót használta munkájában, és adta a nevet Diák t-eloszlása. A hipotézisek tesztelésének kritériuma, ill Student-féle t-próba. A statisztikában tehát "forradalom" következett be, amely a mintaadatok elemzésének korszakába lépett. Ez egy rövid kitérő volt a történelembe.

Lássuk, mit láthatott W. Gosset. Generáljunk 20 ezer normál mintát 6 megfigyelésből átlaggal ( X) 50 és szórása ( σ ) 10. Ezután normalizáljuk a mintaátlagokat a segítségével általános variancia:

Az így kapott 20 ezer átlagot 0,1 hosszúságú intervallumokra csoportosítjuk, és kiszámítjuk a gyakoriságokat. Ábrázoljuk diagramon a mintaátlagok tényleges (Norm) és elméleti (ENorm) frekvenciaeloszlását.

A pontok (megfigyelt frekvenciák) majdnem egybeesnek az egyenessel (elméleti frekvenciák). Ez érthető, mert az adatok ugyanabból az általános sokaságból származnak, és a különbségek csak mintavételi hibák.

Végezzünk egy új kísérletet. Ezzel normalizáljuk az átlagokat minta variancia.

Számoljuk meg újra a frekvenciákat, és ábrázoljuk a diagramon pontok formájában, a standard normál eloszlás vonalát hagyjuk összehasonlításra. Jelöljük az átlagok empirikus gyakoriságát mondjuk betűn keresztül t.

Látható, hogy az eloszlások ezúttal nem nagyon hasonlítanak egymásra. Bezár, igen, de nem ugyanaz. A farok "nehezebb" lett.

Gosset-Student nem rendelkezett az MS Excel legújabb verziójával, de pontosan ezt a hatást vette észre. Miért van így? A magyarázat az, hogy a valószínűségi változó

nemcsak a mintavételi hibától (számlálótól) függ, hanem az átlag (nevező) standard hibájától is, amely szintén valószínűségi változó.

Nézzük meg egy kicsit, milyen eloszlású legyen egy ilyen valószínűségi változó. Először is emlékeznie kell (vagy tanulnia kell) valamit a matematikai statisztikákból. Van egy ilyen Fisher-tétel, amely azt mondja, hogy egy normál eloszlásból származó mintában:

1. közepes Xés a minta variancia s2 független mennyiségek;

2. A minta és az általános variancia hányadosa, szorozva a szabadságfokok számával, eloszlású χ 2(khi-négyzet) azonos számú szabadságfokkal, azaz.

ahol k- a szabadságfokok száma (angolul fokozatok szabadsága (d.f.))

A normál modellek statisztikáiban sok más eredmény is ezen a törvényen alapul.

Térjünk vissza az átlag eloszlásához. Osszuk el a kifejezés számlálóját és nevezőjét!

a σX̅. Kap

A számláló egy szabványos normál valószínűségi változó (jelöljük ξ (xi)). A nevező a Fisher-tételből fejezhető ki.

Ekkor az eredeti kifejezés alakját veszi fel

Ez általánosságban (Diák aránya). Eloszlásfüggvénye már közvetlenül származtatható, mert mindkét valószínűségi változó eloszlása ebben a kifejezésben ismert. Hagyjuk ezt az élvezetet a matematikusokra.

A Student-féle t-eloszlásfüggvénynek elég nehezen érthető képlete van, ezért nincs értelme elemezni. Amúgy senki nem használja, mert. a valószínűségeket a Student-féle eloszlás speciális táblázataiban adjuk meg (néha Student-együttható táblázatnak is nevezik), vagy PC-képletekbe kalapálják.

Tehát új ismeretekkel felvértezve képes lesz arra, hogy megértse a Student elosztásának hivatalos meghatározását.
Egy valószínűségi változó, amely engedelmeskedik a Student eloszlásának k szabadsági fok a független valószínűségi változók aránya

ahol ξ szabványos normál törvény szerint elosztva, és χ 2k terjesztés alá tartozik χ 2 c k szabadsági fokokat.

Így a számtani átlag Student-kritériumának képlete

a tanulói kapcsolat speciális esete

A képletből és a definícióból következik, hogy a Student-féle t-próba eloszlása csak a szabadságfokok számától függ.

Nál nél k> 30 t-próba gyakorlatilag nem tér el a standard normál eloszlástól.

A khi-négyzettől eltérően a t-próba lehet egy- vagy kétfarkú. Általában kétoldali módszert alkalmazunk, feltételezve, hogy az átlagtól való eltérés mindkét irányban előfordulhat. De ha a probléma feltétele csak egy irányba enged eltérni, akkor indokolt egy egyoldalú kritérium alkalmazása. Ez kissé növeli a teljesítményt, tk. rögzített szignifikanciaszinten a kritikus érték kissé megközelíti a nullát.

A Student-féle t-próba alkalmazásának feltételei

Annak ellenére, hogy Student felfedezése egy időben forradalmat hozott a statisztikában, a t-próba még mindig meglehetősen korlátozottan alkalmazható, mert maga abból a feltételezésből származik normális eloszlás kezdeti adatok. Ha az adatok nem normálisak (ami általában így van), akkor a t-próbának többé nem lesz Student-féle eloszlása. Mivel azonban a központi határtétel az átlag még abnormális adatok esetén is gyorsan harang alakú eloszlást kap.

Tekintsük például azokat az adatokat, amelyek határozottan jobbra ferdítenek, mint egy 5 szabadságfokú khi-négyzet eloszlás.

Most hozzunk létre 20 ezer mintát, és figyeljük meg, hogyan változik az átlagok eloszlása a méretüktől függően.

A különbség egészen észrevehető kis mintákban, 15-20 megfigyelésig. De aztán gyorsan eltűnik. Így az eloszlás abnormalitása természetesen nem jó, de nem is kritikus.

Leginkább a t-kritérium „fél” a kiugró értékektől, pl. kóros eltérések. Vegyünk 20 ezer normál mintát 15 megfigyelésből, és adjunk hozzá egy véletlenszerű kiugró értéket néhányhoz.

A kép boldogtalan. Az átlagok tényleges gyakorisága nagyon eltér az elméletitől. A t-elosztás alkalmazása ilyen helyzetben nagyon kockázatos vállalkozássá válik.

Tehát a nem túl kis mintákban (15 megfigyelésből) a t-próba viszonylag ellenálló a kiindulási adatok nem normális eloszlásával szemben. Az adatok kiugró értékei azonban erősen torzítják a t-próba eloszlását, ami viszont statisztikai következtetési hibákhoz vezethet, ezért az anomális megfigyeléseket ki kell küszöbölni. Gyakran minden olyan érték, amely az átlagtól ±2 szóráson kívül esik, kikerül a mintából.

Példa a matematikai elvárás hipotézisének tesztelésére Student-féle t-próbával MS Excelben

Az Excelnek számos funkciója van a t-eloszlással kapcsolatban. Tekintsük őket.

STUDENT.DIST - "klasszikus" baloldali Student-féle t-eloszlás. A bemenet a t-kritérium értéke, a szabadságfokok száma és az opció (0 vagy 1), amely meghatározza, hogy mit kell számolni: a függvény sűrűségét vagy értékét. A kimeneten megkapjuk a sűrűséget, illetve annak valószínűségét, hogy a valószínűségi változó kisebb lesz, mint az argumentumban megadott t-kritérium, azaz. balkezes p-érték.

STUDENT.DIST.2X - kétirányú elosztás. A t-kritérium abszolút értékét (modulo) és a szabadságfokok számát adjuk meg argumentumként. A kimeneten megkapjuk a t-kritérium (modulo) ilyen vagy még nagyobb értékének megszerzésének valószínűségét, azaz. tényleges szignifikancia szint (p-érték).

STUDENT.DIST.RH - jobbkezes t-eloszlás. Tehát 1-HALLGATÓ.ELOSZTÁS(2;5;1) = DIÁK.ELOSZ.PX(2;5) = 0,05097. Ha a t-próba pozitív, akkor a kapott valószínűség a p-érték.

STUDENT.INV - a t-eloszlás bal oldali reciprokának kiszámítására szolgál. Az érv a valószínűség és a szabadsági fokok száma. A kimenetnél megkapjuk az ennek a valószínűségnek megfelelő t-kritérium értékét. A valószínűséget balra számoljuk. Ezért magára a szignifikanciaszintre van szükség a bal farok számára α , jobb oldalra pedig 1 - α .

STUDENT.ORD.2X a kétoldali Student-eloszlás reciproka, azaz. t-teszt értéke (modulo). Bemenetként a szignifikanciaszint is megadásra kerül. α . Csak ezúttal a visszaszámlálás mindkét oldalról egyszerre történik, így a valószínűség két farok között oszlik el. Tehát, STUDENT.OBR (1-0,025; 5) \u003d STUDENT. OBR. 2X (0,05; 5) \u003d 2,57058

A STUDENT.TESZT egy függvény a matematikai elvárások egyenlőségére vonatkozó hipotézis tesztelésére két mintában. Egy csomó számítást helyettesít, mert. elég csak két tartományt megadni adatokkal és még pár paraméterrel. A kimenet p-érték lesz.

DIÁK BIZALMA - az átlag konfidenciaintervallumának kiszámítása, figyelembe véve a t-eloszlást.

Ezt fontold meg esettanulmány. A cég 50 kg-os zsákokba csomagolja a cementet. A véletlennek köszönhetően egyetlen zsákban megengedett némi eltérés a várt tömegtől, de az általános átlag maradjon 50 kg. A minőség-ellenőrzési osztály véletlenszerűen mért le 9 zsákot, és a következő eredményeket kapta: átlagos súly ( X) 50,3 kg volt, szórás (s) - 0,5 kg.

Az eredmény összhangban van azzal a nullhipotézissel, hogy az általános átlag 50 kg? Vagyis véletlenül lehet ilyen eredményt elérni, ha a berendezés megfelelően működik és átlagosan 50 kg töltetet produkál? Ha a hipotézist nem utasítjuk el, akkor a kapott különbség beleillik a véletlenszerű ingadozások tartományába, de ha a hipotézist elvetjük, akkor nagy valószínűséggel a zacskókat kitöltő berendezés beállításaiban történt hiba. Ellenőrizni és beállítani kell.

Egy rövid feltétel az általánosan elfogadott jelölésben így néz ki.

H0: μ = 50 kg

H a: μ ≠ 50 kg

Van okunk feltételezni, hogy a zsákok foglaltságának eloszlása normális eloszlást követ (vagy nem sokban tér el attól). Tehát a matematikai elvárás hipotézisének teszteléséhez használhatja a Student-féle t-próbát. Véletlen eltérések mindkét irányban előfordulhatnak, ezért kétirányú t-próbára van szükség.

Először az özönvíz előtti eszközöket alkalmazzuk: a t-próba manuális kiszámítása és összehasonlítása egy kritikus táblázati értékkel. Becsült t-teszt:

Most határozzuk meg, hogy a kapott szám meghaladja-e a szignifikanciaszinten a kritikus szintet α = 0,05. Használjuk a Student-féle t-eloszlási táblázatot (amely bármely statisztikai tankönyvben elérhető).

Az oszlopok az eloszlás jobb oldalának valószínűségét, a sorok a szabadságfokok számát mutatják. Egy kétoldalas t-próba érdekel bennünket, amelynek szignifikanciaszintje 0,05, ami a jobb oldali szignifikanciaszint felének t-értékével ekvivalens: 1 - 0,05 / 2 = 0,975. A szabadságfokok száma a mintanagyság mínusz 1, azaz. 9 - 1 = 8. A metszéspontban megtaláljuk a t-próba táblázatos értékét - 2,306. Ha a standard normál eloszlást használnánk, akkor a kritikus pont 1,96 lenne, de itt több, mert kis mintákon a t-eloszlás laposabb formája van.

Összehasonlítjuk a tényleges (1,8) és a táblázatos értéket (2,306). A számított kritérium kisebbnek bizonyult, mint a táblázatos. A rendelkezésre álló adatok tehát nem mondanak ellent annak a H 0 hipotézisnek, hogy az általános átlag 50 kg (de nem is igazolják). Ennyit tudhatunk meg a táblázatok segítségével. Természetesen továbbra is megpróbálhatja megtalálni a p-értéket, de ez közelítő lesz. És általában a p-értéket használják a hipotézisek tesztelésére. Tehát térjünk át az Excelre.

Az Excelben nincs kész függvény a t-próba kiszámítására. De ez nem ijesztő, mert a Student-féle t-teszt képlete meglehetősen egyszerű, és könnyen beépíthető közvetlenül egy Excel cellába.

Ugyanaz az 1.8. Először keressük meg a kritikus értéket. Alfát 0,05-öt veszünk, a kritérium kétoldalú. A STUDENT.OBR.2X kétoldali hipotézishez szükségünk van a t-eloszlás inverz értékének függvényére.

A kapott érték levágja a kritikus tartományt. A megfigyelt t-próba nem esik bele, így a hipotézist nem utasítják el.

Ez azonban ugyanaz a hipotézis tesztelésének módja táblázatos értékkel. Tájékoztatóbb lesz a p-érték kiszámítása, pl. annak a valószínűsége, hogy megkapjuk a megfigyelt vagy még nagyobb eltérést az 50 kg-os átlagtól, ha ez a hipotézis helyes. Szüksége lesz egy Student-féle eloszlásfüggvényre a STUDENT.DIST.2X kétirányú hipotézishez.

A P-érték 0,1096, ami több, mint az elfogadható 0,05-ös szignifikanciaszint – nem utasítjuk el a hipotézist. De most már meg tudjuk ítélni a bizonyítékok mértékét. A p-érték meglehetősen közelinek bizonyult ahhoz a szinthez, amikor a hipotézist elutasítják, és ez eltérő gondolatokhoz vezet. Például, hogy a minta túl kicsi volt ahhoz, hogy jelentős eltérést észleljen.

Tegyük fel, hogy egy idő után az ellenőrzési osztály ismét úgy döntött, hogy megvizsgálja, hogyan tartják be a zacskótöltési szabványt. Ezúttal a nagyobb megbízhatóság érdekében nem 9, hanem 25 zsákot választottak ki. Intuitív módon egyértelmű, hogy az átlag szórása csökkenni fog, és így nagyobb az esélye annak, hogy a rendszerben meghibásodást találjanak.

Tegyük fel, hogy a minta átlagának és szórásának ugyanazokat az értékeket kaptuk, mint az első alkalommal (50,3 és 0,5). Számítsuk ki a t-próbát.

A 24 szabadságfok és α = 0,05 kritikus értéke 2,064. Az alábbi képen látható, hogy a t-próba a hipotézis elutasításának területére esik.

Megállapítható, hogy 95%-ot meghaladó megbízhatósági valószínűséggel az általános átlag eltér az 50 kg-tól. Hogy meggyőzőbbek legyünk, nézzük a p-értéket (a táblázat utolsó sora). Az 50-től ekkora vagy még nagyobb eltéréssel átlagot kapni, ha a hipotézis helyes, 0,0062, azaz 0,62%, ami egyetlen méréssel gyakorlatilag lehetetlen. Általában véve a hipotézist elvetjük, mint valószínűtlen.

Konfidenciaintervallum kiszámítása Student-féle t-eloszlás segítségével

A hipotézisvizsgálattal szorosan összefügg egy másik statisztikai módszer – konfidencia intervallumok számítása. Ha a nullhipotézisnek megfelelő érték a kapott intervallumba esik, akkor ez egyenértékű azzal, hogy null hipotézist nincs elutasítva. Ellenkező esetben a hipotézist a megfelelő megbízhatósági szint mellett elvetjük. Egyes esetekben az elemzők egyáltalán nem tesztelik a hipotéziseket klasszikus formában, hanem csak konfidenciaintervallumokat számolnak. Ez a megközelítés lehetővé teszi még több hasznos információ kinyerését.

Számítsuk ki a konfidencia intervallumokat az átlaghoz 9 és 25 megfigyelés esetén. Ehhez az Excel TRUST.STUDENT függvényét fogjuk használni. Furcsa módon itt minden nagyon egyszerű. A függvény argumentumában csak a szignifikanciaszintet kell megadnia α , szórás minta és mintanagyság szerint. A kimeneten megkapjuk a konfidenciaintervallum félszélességét, vagyis azt az értéket, amelyet az átlag mindkét oldalán félre kell tenni. A számítások elvégzése és a vizuális diagram elkészítése után a következőket kapjuk.

Mint látható, egy 9 megfigyelésből álló mintánál az 50-es érték a konfidenciaintervallumba esik (a hipotézist nem utasítják el), 25 megfigyelésnél pedig nem (a hipotézist elvetjük). Ugyanakkor a 25 zacskós kísérletben elmondható, hogy 97,5%-os valószínűséggel az általános átlag meghaladja az 50,1 kg-ot (a konfidencia intervallum alsó határa 50,094 kg). És ez nagyon értékes információ.

Így ugyanazt a problémát háromféleképpen oldottuk meg:

1. Ősi megközelítés, a t-kritérium számított és táblázatos értékének összehasonlítása
2. Modernebb a p-érték kiszámításával, bizonyos fokú bizalom hozzáadásával a hipotézis elutasításához.
3. Még informatívabb, ha kiszámítjuk a konfidencia intervallumot és megkapjuk az általános átlag minimális értékét.

Fontos megjegyezni, hogy a t-próba paraméteres módszerekre vonatkozik, mert normál eloszláson alapul (két paramétere van: átlag és variancia). Ezért a sikeres alkalmazásához legalább a kiindulási adatok hozzávetőleges normalitása és a kiugró értékek hiánya fontos.

Végül azt javaslom, hogy nézzen meg egy videót a Student-féle t-teszthez kapcsolódó számítások elvégzéséről Excelben.

ahol f a szabadság foka, amelyet a következőképpen határozunk meg

Példa . A tanulók két csoportját két különböző módszer szerint képezték ki. A képzés végén egy tesztet kaptak a tanfolyam során. Fel kell mérni, hogy a megszerzett tudásban mennyire jelentősek az eltérések. A vizsgálati eredményeket a 4. táblázat tartalmazza.

4. táblázat

Számítsa ki a minta átlagát, szórását és szórását:

Határozzuk meg t p értékét a t p = 0,45 képlettel!

Az 1. táblázat szerint (lásd a függeléket) a p = 0,01 szignifikanciaszinthez a t k kritikus értéket kapjuk.

Következtetés: mivel a kritérium számított értéke kisebb, mint a 0,45 kritikus érték<2,88 гипотеза Но подтверждается и существенных различий в методиках обучения нет на уровне значимости 0,01.

Algoritmus a Student-féle t-próba kiszámításához függő mérési mintákra

1. Határozza meg a t-kritérium számított értékét a képlet segítségével!

, ahol

2. Számítsa ki az f szabadságfokát!

3. Határozza meg a t-próba kritikus értékét a Függelék 1. táblázata szerint!

4. Hasonlítsa össze a t-kritérium számított és kritikus értékét. Ha a számított érték nagyobb vagy egyenlő, mint a kritikus érték, akkor a két változási mintában az átlagok egyenlőségére vonatkozó hipotézist elvetjük (De). Minden más esetben adott szignifikanciaszinten veszik.

U- kritériumManna- Whitney

A kritérium célja

A kritérium célja, hogy felmérje a különbségeket két nem paraméteres minta között bármely tulajdonság szintjén, mennyiségileg mérve. Lehetővé teszi a kis minták közötti különbségek azonosítását, ha n< 30.

A kritérium leírása

Ez a módszer meghatározza, hogy elég kicsi-e a két sorozat közötti átfedő értékek területe. Minél kisebb ez a terület, annál valószínűbb, hogy jelentősek a különbségek. Az U-kritérium tapasztalati értéke azt tükrözi, hogy mekkora a sorok közötti koincidencia zóna. Ezért minél kisebb az U, annál valószínűbb, hogy a különbségek jelentősek.

Hipotézisek

DE: A 2. csoport jellemzőjének szintje nem alacsonyabb, mint az 1. csoport jellemzőjének szintje.

HI: A 2. csoportban lévő tulajdonság szintje alacsonyabb, mint az 1. csoportban lévő tulajdonság szintje.

Algoritmus a Mann-Whitney-kritérium kiszámításához (u)

Vigye át az alanyok összes adatát egyedi kártyákra.

Jelölje meg az 1. minta alanyainak kártyáit egy színnel, mondjuk pirossal, és a 2. minta összes kártyáját egy másik színnel, például kékkel.

Az összes kártyát egyetlen sorban helyezze el az attribútum növekedési fokának megfelelően, függetlenül attól, hogy melyik mintához tartoznak, mintha egy nagy mintával dolgoznánk.

ahol n 1 az alanyok száma az 1. mintában;

n 2 - az alanyok száma a 2. mintában,

T x - a két randösszeg közül a nagyobb;

n x - a nagyobb rangsorszámú csoport alanyainak száma.

9. Határozza meg az U kritikus értékeit a 2. táblázat szerint (lásd a függeléket).

Ha U emp.> U kr0,05, akkor a But hipotézis elfogadott. Ha U emp. ≤ U cr, akkor a rendszer elutasítja. Hogyan kisebb érték U, annál nagyobb a különbségek megbízhatósága.

Példa. Hasonlítsa össze két tanítási módszer hatékonyságát két csoportban! A vizsgálati eredményeket az 5. táblázat tartalmazza.

5. táblázat

Vigyük át az összes adatot egy másik táblázatba, a második csoport adatait aláhúzással kiemelve, és végezzük el a teljes minta rangsorolását (lásd a rangsoroló algoritmust a 3. feladat útmutatójában).

Értékek

Határozzuk meg két minta rangsorainak összegét, és válasszuk ki közülük a legnagyobbat: T x = 113

Számítsuk ki a kritérium tapasztalati értékét a 2. képlet szerint: U p = 30.

Határozzuk meg a kritérium kritikus értékét p = 0,05 szignifikancia szinten a Függelék 2. táblázata szerint: U k = 19.

Kimenet: hiszen a kritérium számított értékeUnagyobb, mint a kritikus szint p = 0,05 és 30 > 19 szignifikancia szinten, akkor az átlagok egyenlőségének hipotézise elfogadásra kerül, és a tanítási módszerek különbségei jelentéktelenek..

A példa során fiktív információkat fogunk felhasználni, hogy az olvasó önállóan elvégezhesse a szükséges átalakításokat.

Így például a kutatás során tanulmányoztuk az A gyógyszer hatását a B anyag tartalmára (mmol / g-ban) a C szövetben és a D anyag koncentrációjára a vérben (mmol / l-ben) betegeknél. valamilyen E kritérium szerint 3 egyenlő térfogatú csoportra osztva (n = 10). Ennek a fiktív tanulmánynak az eredményei a táblázatban láthatók:

B anyagtartalom, mmol/g			D anyag, mmol/l
B anyagtartalom, mmol/g						koncentráció növekedés

Figyelmeztetjük, hogy a 10-es méretű mintákat az adatok és a számítások megkönnyítése érdekében figyelembe vesszük, a gyakorlatban egy ilyen mintanagyság általában nem elegendő a statisztikai következtetés levonásához.

Példaként vegyük a táblázat 1. oszlopának adatait.

Leíró statisztika

minta átlag

A számtani átlagot, amelyet nagyon gyakran egyszerűen "átlagnak" neveznek, úgy kapjuk meg, hogy az összes értéket összeadjuk, és ezt az összeget elosztjuk a készletben lévő értékek számával. Ez egy algebrai képlet segítségével mutatható ki. Egy x változó n megfigyelésének halmaza ábrázolható x 1 , x 2 , x 3 , ..., x n

A megfigyelések számtani középértékének meghatározására szolgáló képlet ("X-nek kötőjellel" ejtve):

\u003d (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Minta szórása

Az adatok szórásának mérésének egyik módja annak meghatározása, hogy az egyes megfigyelések mennyivel térnek el a számtani átlagtól. Nyilvánvaló, hogy minél nagyobb az eltérés, annál nagyobb a változékonyság, a megfigyelések változékonysága. Ezeknek az eltéréseknek az átlagát azonban nem tudjuk használni szóródás mértékeként, mert a pozitív eltérések kompenzálják a negatív eltéréseket (összegük nulla). A probléma megoldásához minden eltérést négyzetre emelünk, és megkeressük az eltérések négyzetes átlagát; ezt a mennyiséget variációnak vagy diszperziónak nevezzük. Végezzen n megfigyelést x 1, x 2, x 3, ..., x n, átlag ami egyenlő. Kiszámoljuk a diszperziót ezt általában úgy emlegetiks2,ezek a megfigyelések:

Ennek a mutatónak a mintaszórása s 2 = 3,2.

Szórás

A szórás (négyzetes középérték) pozitív Négyzetgyök diszperziótól. Például n megfigyelés így néz ki:

A szórást úgy tekinthetjük, mint a megfigyelések egyfajta átlagos eltérését az átlagtól. Kiszámítása az eredeti adatokkal azonos mértékegységekben (dimenziókban) történik.

s = négyzetméter (s 2) = négyzetméter (3,2) = 1,79.

A variációs együttható

Ha a szórást elosztjuk a számtani átlaggal, és az eredményt százalékban fejezzük ki, akkor megkapjuk a variációs együtthatót.

CV = (1,79 / 13,1) * 100% = 13,7

Minta átlag hiba

1,79/sqrt(10) = 0,57;

Student-féle t együttható (egymintás t-próba)

Az átlagérték és valamilyen ismert m érték különbségére vonatkozó hipotézis tesztelésére szolgál

A szabadsági fokok számát a következőképpen számítjuk ki: f=n-1.

Ebben az esetben az átlag konfidenciaintervalluma a 11,87 és 14,39 közötti határok között van.

95%-os konfidenciaszint esetén m=11,87 vagy m=14,39, azaz = |13,1-11,82| = |13,1-14,38| = 1,28

Ennek megfelelően ebben az esetben a szabadsági fokok száma f = 10 - 1 = 9 és a 95%-os konfidenciaszint t=2,26.

Dialógus Alapstatisztikák és táblázatok

A modulban Alapstatisztika és táblázatok választ Leíró statisztika.

Megnyílik egy párbeszédpanel Leíró statisztika.

A terepen Változók választ 1. csoport.

Megnyomás rendben, eredménytáblázatokat kapunk a kiválasztott változók leíró statisztikai adataival.

Megnyílik egy párbeszédpanel Egymintás t-próba.

Tegyük fel, hogy tudjuk, hogy a B anyag átlagos tartalma a C szövetben 11.

Az eredménytáblázat leíró statisztikákkal és Student-féle t-próbával a következő:

El kellett vetnünk azt a hipotézist, hogy a C szövetben a B anyag átlagos tartalma 11.

Mivel a kritérium számított értéke nagyobb, mint a táblázatos érték (2,26), a nullhipotézist a választott szignifikancia szinten elvetjük, és a minta és az ismert érték közötti különbségeket statisztikailag szignifikánsnak ismerjük el. Így a különbségek létezésére vonatkozó, a Student-féle kritérium alapján levont következtetést ezzel a módszerrel megerősítjük.

A t-tesztet William Gosset (1876-1937) fejlesztette ki, hogy értékelje a sör minőségét az írországi dublini Guinness sörfőzdékben. A céggel szembeni, az üzleti titkok felfedésére vonatkozó kötelezettségekkel kapcsolatban (a Guinness vezetése a statisztikai apparátus ilyen jellegű használatát is figyelembe vette munkája során), Gosset cikke 1908-ban jelent meg a Biometrics folyóiratban „Student” (Student) fedőnéven. .

A hallgatói kritérium az értékek különbségeinek felmérésére irányul átlagos értékek két minta, amelyek a normál törvény szerint vannak elosztva. A kritérium egyik fő előnye alkalmazásának széleskörűsége. y átlag összehasonlítására használható, és előfordulhat, hogy a minták mérete nem egyenlő.

A Student-féle t-próba alkalmazásának feltételei

A Student-féle t-próba alkalmazásához a következő feltételeknek kell teljesülniük:

1. A mérés lehet.
2. Az összehasonlítandó mintákat a normál törvény szerint kell elosztani.

A Student-féle t-próba automatikus számítása

1. lépés

A megfelelő számítás elvégzéséhez ezzel a szkripttel a következőket kell tennie:

1) Válassza ki a számítást leválasztott (független) vagy csatlakoztatott (függő) mintákkal.

2) Az első oszlopba ("1. minta") írja be az első minta, a második oszlopba ("2. minta") a második minta adatait. Az adatok soronként egy számot írnak be; nincs szóköz, hézag stb. Csak számokat kell beírni. Törtszámok egy "." (pont).

3) Az oszlopok kitöltése után kattintson a "2. lépés" gombra a Student-féle t-próba automatikus kiszámításához.