Ipoteze nule și alternative. Metoda de verificare „încredere”.

Deoarece statistica ca metodă de cercetare se ocupă de date în care tiparele de interes pentru cercetător sunt distorsionate de diverși factori aleatori, majoritatea calculelor statistice sunt însoțite de testarea unor ipoteze sau ipoteze despre sursa acestor date.

Ipoteza pedagogică (ipoteza științifică o afirmație despre avantajul unei metode sau alteia) este tradusă în limbajul științei statistice în procesul de analiză statistică și reformulată în cel puțin două ipoteze statistice.

Există două tipuri de ipoteze: primul tip - descriptiv ipoteze care descriu cauzele și posibilele consecințe. Al doilea tip - explicativ : ele dau o explicație a consecințelor posibile din anumite cauze și, de asemenea, caracterizează condițiile în care aceste consecințe vor urma în mod necesar, adică se explică în virtutea factorilor și condițiilor care vor fi această consecință. Ipotezele descriptive nu au previziune, în timp ce ipotezele explicative au. Ipotezele explicative îi conduc pe cercetători să presupună existența unor relații regulate între fenomene, factori și condiții.

Ipotezele din cercetarea pedagogică pot sugera că unul dintre mijloace (sau un grup dintre ele) va fi mai eficient decât alte mijloace. Aici se face o presupunere ipotetică despre eficiența comparativă a mijloacelor, metodelor, metodelor, formelor de educație.

Un nivel mai ridicat de predicție ipotetică este acela că autorul studiului emite ipoteza că un sistem de măsuri nu numai că va fi mai bun decât altul, dar între o serie de sisteme posibile pare optim în ceea ce privește anumite criterii. O astfel de presupunere are nevoie de o dovadă mai riguroasă și deci mai detaliată.

Kulaichev A.P. Metode și instrumente pentru analiza datelor în mediul Windows. Ed. a 3-a, revizuită. si suplimentare - M: InKo, 1999, p. 129-131

Dicționar psihologic-pedagogic pentru profesori și șefi de instituții de învățământ. - Rostov-n / D: Phoenix, 1998, p. 92

5. Principalele probleme ale statisticii aplicate - descrierea datelor, estimarea si testarea ipotezelor

Concepte cheie utilizate în testarea ipotezelor

Ipoteza statistică - orice presupunere privind distribuția necunoscută a variabilelor (elementelor) aleatoare. Iată formulările mai multor ipoteze statistice:

1. Rezultatele observaţiilor au distributie normala cu zero așteptări matematice.
2. Rezultatele observațiilor au o funcție de distribuție N(0,1).
3. Rezultatele observațiilor au o distribuție normală.
4. Rezultatele observațiilor din două eșantioane independente au aceeași distribuție normală.
5. Rezultatele observațiilor din două eșantioane independente au aceeași distribuție.

Există ipoteze nule și alternative. Ipoteza nulă este ipoteza care trebuie testată. O ipoteză alternativă este orice ipoteză validă, alta decât ipoteza nulă. Ipoteza nulă este H 0 , alternativa - H 1(din Ipoteza - „ipoteza” (engleză)).

Alegerea uneia sau alteia ipoteze nule sau alternative este determinată de sarcinile aplicate cu care se confruntă managerul, economistul, inginerul, cercetătorul. Luați în considerare exemple.

Exemplul 11. Fie ipoteza nulă ipoteza 2 din lista de mai sus, iar ipoteza alternativă ipoteza 1. Aceasta înseamnă că situația reală este descrisă printr-un model probabilist, conform căruia rezultatele observațiilor sunt considerate realizări ale variabilelor aleatoare independente distribuite identic. cu o funcție de distribuție N(0,σ), unde parametrul σ este necunoscut statisticianului. În acest model, ipoteza nulă se scrie după cum urmează:

H 0: σ = 1,

si o alternativa ca aceasta:

H 1: σ ≠ 1.

Exemplul 12. Fie ipoteza nulă încă ipoteza 2 din lista de mai sus, iar ipoteza alternativă să fie ipoteza 3 din aceeași listă. Apoi, într-un model probabilistic al unei situații manageriale, economice sau de producție, se presupune că rezultatele observațiilor formează un eșantion dintr-o distribuție normală. N(m, σ) pentru unele valori mși σ. Ipotezele sunt scrise astfel:

H 0: m= 0, σ = 1

(ambele parametrii iau valori fixe);

H 1: m≠ 0 și/sau σ ≠ 1

(adică fie m≠ 0, sau σ ≠ 1, sau ambele m≠ 0 și σ ≠ 1).

Exemplul 13 Lasa H 0 este ipoteza 1 din lista de mai sus și H 1 - ipoteza 3 din aceeași listă. Atunci modelul probabilistic este același ca în exemplul 12,

H 0: m= 0, σ este arbitrară;

H 1: m≠ 0, σ este arbitrară.

Exemplul 14 Lasa H 0 este ipoteza 2 din lista de mai sus, iar conform H 1 rezultatele observaționale au o funcție de distribuție F(X), nu se potrivește cu funcția de distribuție normală standard F(x). Apoi

H 0: F(x) = F(x) pentru toți X(scris ca F(x) ≡ F(x));

H 1: F(x 0) ≠ F (x 0) la unii x 0(adică nu este adevărat că F(x) ≡ F(x)).

Notă. Aici ≡ este semnul coincidenței identice a funcțiilor (adică, coincidența pentru toate valorile posibile ale argumentului X).

Exemplul 15 Lasa H 0 este ipoteza 3 din lista de mai sus, iar conform H 1 rezultatele observaționale au o funcție de distribuție F(X), nefiind normal. Apoi

Pentru unii m, σ;

H 1: pentru orice m, σ există x 0 = x 0(m, σ) astfel încât .

Exemplul 16 Lasa H 0 - ipoteza 4 din lista de mai sus, conform modelului probabilistic se prelevează două eșantioane din populații cu funcții de distribuție F(X) Și G(X), care sunt normale cu parametrii m 1, σ 1 și m 2 , respectiv σ 2 și H 1 - negație H 0 . Apoi

H 0: m 1 = m 2 , σ 1 = σ 2 , și m 1 și σ 1 sunt arbitrare;

H 1: m 1 ≠ m 2 și/sau σ 1 ≠ σ 2 .

Exemplul 17. Fie, în condițiile exemplului 16, se știe în plus că σ 1 = σ 2 . Apoi

H 0: m 1 = m 2, σ > 0 și m 1 și σ sunt arbitrare;

H 1: m 1 ≠ m 2, σ > 0.

Exemplul 18. Lasa H 0 - ipoteza 5 din lista de mai sus, conform modelului probabilistic se prelevează două eșantioane din populații cu funcții de distribuție F(X) Și G(X) respectiv, și H 1 - negație H 0 . Apoi

H 0: F(X) G(X) , Unde F(X)

H 1: F(X) Și G(X) sunt funcții de distribuție arbitrare și

F(X) G(X) cu cineva X.

Exemplul 19. Fie, în condițiile Exemplului 17, se presupune în plus că distribuția funcționează F(X) Și G(X) diferă doar în tură, adică G(X) = F(X- dar) la unii dar. Apoi

H 0: F(X) G(X) ,

Unde F(X) este o funcție de distribuție arbitrară;

H 1: G(X) = F(X- a), a ≠ 0,

Unde F(X) este o funcție de distribuție arbitrară.

Exemplul 20. Fie că, în condițiile Exemplului 14, se știe în plus că conform modelului probabilistic al situației F(X) este o funcție de distribuție normală cu varianță unitară, adică are forma N(m, unu). Apoi

H 0: m = 0 (acestea. F(x) = F(x)

pentru toți X); (scris ca F(x) ≡ F(x));

H 1: m 0

(adică nu este adevărat că F(x) ≡ F(x)).

Exemplul 21.În reglementarea statistică a proceselor tehnologice, economice, manageriale sau de altă natură, luați în considerare un eșantion extras dintr-o populație cu o distribuție normală și varianță cunoscută și ipoteze

H 0: m = m 0 ,

H 1: m= m 1 ,

unde valoarea parametrului m = m 0 corespunde cursului stabilit al procesului, iar trecerea la m= m 1 indică o defecțiune.

Exemplul 22. Cu controlul statistic de acceptare, numărul de unități de produs defecte din eșantion respectă o distribuție hipergeometrică, parametrul necunoscut este p = D/ N este nivelul defectului, unde N- volumul lotului de produse, D- numarul total de unitati defecte din lot. Folosite în documentația de reglementare, tehnică și comercială (standarde, contracte de aprovizionare etc.), planurile de control vizează adesea testarea unei ipoteze.

H 0: p < AQL

H 1: p > LQ,

Unde AQL – nivelul de acceptare al defectuosității, LQ este nivelul defectivității defectelor (evident, AQL < LQ).

Exemplul 23. Ca indicatori ai stabilității unui proces tehnologic, economic, managerial sau de altă natură, sunt utilizate o serie de caracteristici ale distribuțiilor indicatorilor controlați, în special coeficientul de variație v = σ/ M(X). Trebuie testat ipoteza nulă

H 0: v < v 0

sub ipoteza alternativa

H 1: v > v 0 ,

Unde v 0 este o valoare de limită predeterminată.

Exemplul 24. Fie modelul probabilistic a două eșantioane același ca în exemplul 18, să notăm așteptările matematice ale rezultatelor observațiilor din primul și al doilea eșantion M(X) Și M(La) respectiv. În unele situații, ipoteza nulă este testată

H 0: M(X) = M(Y)

împotriva ipotezei alternative

H 1: M(X) ≠ M(Y).

Exemplul 25. S-a notat mai sus mare importanțăîn statistica matematică a funcţiilor de distribuţie simetrică faţă de 0, La verificarea simetriei

H 0: F(- X) = 1 – F(X) pentru toți X, in caz contrar F arbitrar;

H 1: F(- X 0 ) ≠ 1 – F(X 0 ) la unii X 0 , in caz contrar F arbitrar.

În metodele probabilistic-statistice de luare a deciziilor se folosesc și multe alte formulări de probleme pentru testarea ipotezelor statistice. Unele dintre ele sunt discutate mai jos.

Sarcina specifică de a testa o ipoteză statistică este complet descrisă dacă sunt date ipotezele nule și alternative. Alegerea unei metode de testare a unei ipoteze statistice, proprietățile și caracteristicile metodelor sunt determinate atât de ipoteza nulă, cât și de ipoteza alternativă. Pentru a testa aceeași ipoteză nulă sub diferite ipoteze alternative, în general, ar trebui utilizate metode diferite. Deci, în exemplele 14 și 20, ipoteza nulă este aceeași, în timp ce cele alternative sunt diferite. Prin urmare, în condițiile exemplului 14, ar trebui utilizate metode bazate pe criterii de potrivire cu o familie parametrică (tip Kolmogorov sau tip omega-pătrat), iar în condițiile exemplului 20, metode bazate pe testul Student sau testul Cramer-Welch. Daca in conditiile exemplului 14 se foloseste criteriul Studentului, atunci acesta nu va rezolva sarcinile stabilite. Dacă, în condițiile Exemplului 20, folosim un test de bunătate de tip Kolmogorov, atunci, dimpotrivă, va rezolva sarcinile stabilite, deși, poate, mai proaste decât criteriul Studentului special adaptat pentru acest caz.

La prelucrarea datelor reale, alegerea corectă a ipotezelor este de mare importanță. H 0 și H unu . Ipotezele formulate, cum ar fi normalitatea distribuției, trebuie să fie justificate cu atenție, în special prin metode statistice. Rețineți că, în marea majoritate a setărilor aplicate specifice, distribuția rezultatelor observației este diferită de cea normală.

Adeseori apare o situație când forma ipotezei nule decurge din formularea problemei aplicate, iar forma ipotezei alternative nu este clară. În astfel de cazuri, ar trebui să luați în considerare o ipoteză alternativă de cea mai generală formă și să folosiți metode care rezolvă problema pentru toate posibilitățile. H unu . În special, atunci când se testează ipoteza 2 (din lista de mai sus) ca nulă, ar trebui să se utilizeze ca ipoteză alternativă H 1 din exemplul 14, și nu din exemplul 20, dacă nu există justificări speciale pentru normalitatea distribuției rezultatelor observațiilor în cadrul ipotezei alternative.

Anterior

La diferite etape ale cercetării și modelării statistice, devine necesară formularea și verificarea experimentală a anumitor ipoteze (ipoteze) privind natura și amploarea parametrilor necunoscuți ai populației generale (mulților) analizate. De exemplu, cercetătorul face o presupunere: „eșantionul este extras dintr-o populație normală” sau „media generală a populației analizate este egală cu cinci”. Se numesc astfel de presupuneri ipotezele statistice.

Compararea ipotezei enunțate privind populația generală cu datele eșantionului disponibil, însoțită de o evaluare cantitativă a gradului de fiabilitate a concluziei obținute, se realizează folosind unul sau altul criteriu statistic și se numește testarea ipotezelor statistice .

Ipoteza propusă se numește zero (de bază) . Se face referire la el H 0.

În raport cu ipoteza (principală) exprimată, se poate formula oricând alternativă (concurență) asta o contrazice. O ipoteză alternativă (concurentă) este de obicei indicată H 1.

Scopul testării ipotezelor statistice este de a decide asupra validității ipotezei principale pe baza datelor eșantionului H 0.

Dacă ipoteza propusă se reduce la afirmația că valoarea unui parametru necunoscut al populației generale este exact egal cu valoare dată, atunci această ipoteză se numește simplu, de exemplu: „venitul total mediu pe cap de locuitor al populației Rusiei este de 650 de ruble pe lună”; „rata șomajului (ponderea șomerilor în populația activă economic) în Rusia este de 9%”. În alte cazuri, se numește ipoteza complex.

Ca ipoteză nulă H 0 se obişnuieşte să se înainteze o ipoteză simplă, deoarece de obicei este mai convenabil să se verifice o afirmaţie mai riguroasă.

Ipoteze despre forma legii de distribuție a variabilei aleatoare studiate;

Ipoteze despre valorile numerice ale parametrilor populației generale studiate;

Ipoteze despre omogenitatea a două sau mai multe probe sau unele caracteristici ale populațiilor analizate;

Ipoteze despre vedere generala un model care descrie relația statistică dintre caracteristici etc.

Întrucât testarea ipotezelor statistice se realizează pe baza datelor eșantionate, i.e. un set limitat de observatii, decizii privind ipoteza nula H 0 sunt probabiliste. Cu alte cuvinte, o astfel de decizie este inevitabil însoțită de o probabilitate, deși poate foarte mică, de o concluzie eronată în ambele direcții.



Deci, într-o mică parte din cazuri α ipoteza nulă H 0 poate fi respins, în timp ce în realitate este corect în populația generală. O astfel de eroare se numește tastați o eroare . Și probabilitatea sa se numește nivelul de semnificație și desemnează α .

Dimpotrivă, într-o mică parte din cazuri β ipoteza nulă H 0 este acceptată, în timp ce de fapt în populația generală este eronată, iar ipoteza alternativă este adevărată H 1. O astfel de eroare se numește eroare de tip II . Probabilitatea unei erori de al doilea fel este de obicei indicată β . Probabilitate 1-β numit puterea criteriului .

Cu o dimensiune fixă ​​a eșantionului, puteți alege la discreția dvs. valoarea probabilității doar a uneia dintre erori α sau β . O creștere a probabilității unuia dintre ele duce la o scădere a celuilalt. Se obișnuiește să se stabilească probabilitatea unei erori de primul fel α - nivelul de semnificație. De regulă, sunt utilizate niște valori standard ale nivelului de semnificație. α : 0,1; 0,05; 0,025; 0,01; 0,005; 0,001. Apoi, evident, din două criterii caracterizate de aceeași probabilitate α respinge o ipoteză adevărată H 0, ar trebui să o acceptăm pe cea care este însoțită de o eroare mai mică de al doilea fel β , adică mai multă putere. Reducerea probabilității ambelor erori α Și β se poate realiza prin creșterea dimensiunii eșantionului.

Decizie corectă cu privire la ipoteza nulă H 0 poate fi, de asemenea, de două tipuri:

Ipoteza nulă va fi acceptată. H 0, în timp ce de fapt ipoteza nulă este adevărată în populația generală H 0; probabilitatea unei astfel de decizii 1 - α;

Ipoteza nulă H 0 va fi respinsă în favoarea unei alternative H 1, pe când de fapt în populaţia generală ipoteza nulă H 0 respins în favoarea alternativei H 1; probabilitatea unei astfel de decizii 1 - β - puterea criteriului.

Rezultatele deciziei ipotezei nule pot fi ilustrate folosind Tabelul 8.1.

Tabelul 8.1

Ipotezele statistice sunt testate folosind criteriu statistic(să-i spunem generic LA), care este o funcție a rezultatelor observației.

Un criteriu statistic este o regulă (formulă) prin care se determină gradul de discrepanță între rezultatele unei observații pe eșantion și ipoteza enunțată H 0.

Un criteriu statistic, ca orice funcție a rezultatelor observației, este o variabilă aleatorie și, presupunând validitatea ipotezei nule H 0 este supusă unor legi de distribuție teoretice bine studiate (și tabulate) cu densitatea distribuției f(k).

Alegerea criteriului de testare a ipotezelor statistice poate fi efectuată pe baza diferitelor principii. Cel mai des folosit pentru asta principiul raportului de probabilitate, care vă permite să construiți cel mai puternic criteriu dintre toate criteriile posibile. Esența sa se reduce la alegerea unui astfel de criteriu LA cu funcţia de densitate cunoscută f(k) sub rezerva validităţii ipotezei H 0 , astfel încât la un nivel dat de semnificaţie α s-ar putea găsi punctul critic K cr.distribuire f(k), care ar împărți intervalul de valori ale criteriului în două părți: intervalul de valori acceptabile, în care rezultatele observării eșantionului arată cel mai plauzibil și regiunea critică, în care arată rezultatele observației eșantionului mai puţin plauzibilă în raport cu ipoteza nulă H 0.

Dacă un astfel de criteriu LA este ales, iar densitatea distribuției sale este cunoscută, atunci sarcina de a testa ipoteza statistică se reduce la a se asigura că, la un anumit nivel de semnificație, α calculați valoarea observată a criteriului din datele eșantionului Pentru a obl.și determinați dacă este mai mult sau mai puțin plauzibil în raport cu ipoteza nulă H 0.

Testarea fiecărui tip de ipoteze statistice se realizează folosind criteriul adecvat, care este cel mai puternic în fiecare caz particular. De exemplu, testarea ipotezei despre forma legii de distribuție a unei variabile aleatoare poate fi efectuată folosind testul de bunătate a potrivirii lui Pearson. χ 2; verificarea ipotezei despre egalitatea valorilor necunoscute ale variațiilor a două populații generale - folosind criteriul F- Fisher; o serie de ipoteze despre valorile necunoscute ale parametrilor populației generale sunt testate folosind criteriul Z- variabilă aleatoare normală distribuită și criteriu T- Student, etc.

Se numește valoarea criteriului, calculată conform regulilor speciale pe baza datelor eșantionului valoarea observată a criteriului (Pentru a obl.).

Valorile criteriilor împărțind setul de valori criteriale la interval de toleranță(cel mai plauzibil în raport cu ipoteza nulă H 0) Și regiune critică(gamă de valori mai puțin plauzibilă în raport cu tabelele de distribuție a unei variabile aleatoare LA alese ca criteriu sunt numite puncte critice (K cr.).

Zona valorilor acceptabile (aria de acceptare a ipotezei nule H 0) LA H 0 nu este respins.

Zona critică numiți setul de valori al criteriului LA , sub care ipoteza nulă H 0 deviat în favoarea unui rival H 1 .

Distinge unilateral(mâna dreaptă sau stângă) și regiuni critice bilaterale.

Dacă ipoteza concurentă este dreptaci, de exemplu, H 1: a > a 0, atunci regiunea critică este pe partea dreaptă(Figura 1). Sub ipoteza concurenței dreptaci, punctul critic (Pentru cr. pe partea dreaptă) ia valori pozitive.

Dacă ipoteza concurentă este stângaci, de exemplu, H1: a< а 0 , atunci regiunea critică este pe partea stângă(Figura 2). Sub ipoteza concurenței din partea stângă, punctul critic ia valori negative (Pentru a cr. pe partea stângă).

Dacă ipoteza concurentă este dublă, de exemplu, H1: a¹ un 0, atunci regiunea critică este bilateral(Figura 3). Cu o ipoteză concurentă bilaterală, sunt definite două puncte critice (K kr. partea stângăȘi A cr. mana dreapta).


Zona permisă Critică

intervalul de valori

Formularea ipotezelor sistematizează ipotezele cercetătorului și le prezintă într-o manieră clară, concisă. Decizia pe care trebuie să o ia cercetătorul se referă la adevărul sau falsitatea ipotezei statistice. Există două tipuri de ipoteze: științifice și statistice. Științific O ipoteză este o soluție propusă pentru o problemă (enunată ca teoremă). Statistic o ipoteză este pur și simplu o afirmație despre un parametru necunoscut al populației generale (proprietatea unei variabile aleatoare sau a unui eveniment), care este formulată pentru a testa fiabilitatea unei relații și care poate fi verificată în raport cu statisticile eșantionului cunoscute (rezultate ale cercetării, date empirice disponibile). ).

Ipotezele statistice sunt împărțite în nule și alternative, direcționale și nedirecționale. Ipoteza nulă (H 0) aceasta este o ipoteză despre absența diferențelor, absența influenței unui factor, absența unui efect etc.. Acesta este ceea ce se presupune a fi infirmat dacă ne confruntăm cu sarcina de a demonstra semnificația diferențelor. Ipoteza alternativă (H 1) este o ipoteză despre semnificaţia diferenţelor. Acesta este ceea ce se presupune a fi demonstrat, motiv pentru care uneori se numește ipoteză experimentală sau de lucru.

se procedura de prelucrare a datelor cantitative obtinute, care consta in calcularea unor caracteristici statistice si estimări care permit testarea ipotezei nule, se numeste analiza statistica..

Ipotezele nule și alternative pot fi direcționale sau nedirecționale. Ipoteza se numeste regizat dacă conţine o indicaţie a direcţiei diferenţelor. Astfel de ipoteze ar trebui formulate, de exemplu, în cazul în care într-unul dintre grupuri valorile individuale ale subiecților pentru orice caracteristică sunt mai mari, iar în celălalt mai mici, sau este necesar să se demonstreze că într-unul dintre grupuri sub influența oricăror influențe experimentale modificări mai pronunțate decât în ​​celălalt grup. Ipoteza se numeste nedirectional, dacă formularea ei presupune doar definirea diferențelor sau a nediferențelor (fără a indica direcția diferențelor). De exemplu, dacă este necesar să se demonstreze, în două grupuri diferite formele de distribuție a unei trăsături diferă.

Exemple de formulare de ipoteze.

Se numește metoda care este folosită pentru a decide asupra validității unei ipoteze statistice testarea ipotezelor. Principiul de bază al testării ipotezelor este că este prezentată ipoteza nulă. H 0, pentru a încerca să o infirme și, prin urmare, să confirme ipoteza alternativă H1.

La testarea oricărei ipoteze statistice, decizia cercetătorului nu este niciodată luată cu certitudine, întrucât există întotdeauna riscul de a lua o decizie greșită.

De obicei eșantioanele utilizate sunt mici, iar în aceste cazuri probabilitatea de eroare poate fi semnificativă. Există un așa-zis nivel de încredere (nivel de semnificație) diferențe. Aceasta este probabilitatea ca diferențele să fie considerate semnificative, dar de fapt sunt aleatorii. Adică, este probabilitatea de a respinge ipoteza nulă în timp ce aceasta este adevărată.

Când o diferență este considerată semnificativă la nivelul de semnificație de 5% sau la p£0,05, ceea ce se înțelege este că probabilitatea ca până la urmă să nu fie semnificativă este de 0,05 ( Cel mai mic nivel semnificaţie statistică). Dacă o diferență este considerată semnificativă la nivelul de semnificație de 1%, sau la p£0,01, atunci înseamnă că probabilitatea ca aceasta să nu fie semnificativă este de 0,01 (un nivel suficient de semnificație statistică). Dacă diferențele sunt declarate a fi semnificative la nivelul de semnificație de 0,1% sau la p£0,001, atunci înseamnă că probabilitatea ca acestea să nu fie încă semnificative este de 0,001 ( cel mai inalt nivel semnificaţie statistică).

Regula respingerii H 0 și acceptării H 1:

Dacă valoarea empirică a criteriului este egală sau depășește valoarea critică corespunzătoare p £ 0,05, atunci H 0 respins, dar încă neacceptat definitiv H 1.

Dacă valoarea empirică a criteriului este egală sau depășește valoarea critică corespunzătoare p £ 0,01, atunci H 0 respins acceptat H 1.

Pentru a vizualiza regula de decizie, puteți folosi așa-numita „axa de semnificație”.

Dacă nivelul de încredere nu este depășit, atunci se poate considera probabil ca diferența dezvăluită să reflecte într-adevăr starea de fapt a populației. Pentru fiecare metoda statistica acest nivel poate fi găsit în tabelele de distribuție a valorilor critice ale criteriilor corespunzătoare.

T - Criteriul elevului

Este o metodă parametrică utilizată pentru a testa ipotezele despre validitatea diferenței de medii la analiza datelor cantitative în populații cu distribuție normală și cu aceeași varianță. Este bine aplicabil în cazul comparării valorilor mediilor valori aleatorii trăsătură măsurată în grupurile de control și experimentale,în diferite grupe de sex și vârstă, grupuri cu alte caracteristici diferite.

O condiție prealabilă pentru aplicabilitatea metodelor parametrice, inclusiv testul t Student, pentru a demonstra ipotezele statistice este subordonarea distribuţie empirică a caracteristicii studiate la legea distribuţiei normale.

Metoda studentului este diferită pentru eșantioanele independente și dependente.

Independent eșantioanele sunt obținute prin studierea a două grupuri diferite de subiecți (de exemplu, grupul de control și grupul experimental). LA dependent eșantioanele includ, de exemplu, rezultatele aceluiași grup de subiecți înainte și după expunerea la variabila independentă.

Ipoteza testată H 0 este că diferența dintre mediile celor două eșantioane este egală cu zero ( = 0), cu alte cuvinte, aceasta este ipoteza despre egalitatea mediilor (). Ipoteza alternativă H 1 este că această diferență este diferită de zero ( ¹ 0) sau există o diferență în mediile eșantionului ().

Când mostre independente pentru a analiza diferența dintre medii, se utilizează formula: pentru n 1 , n 2 > 30

si formula pentru n 1, n 2< 30, где

Media aritmetică a primului eșantion;

Media valoare aritmetică a doua probă;

s 1 -deviație standard pentru prima probă;

s 2 - abaterea standard pentru a doua probă;

n 1 și n 2 sunt numărul de elemente din primul și al doilea eșantion.

Pentru a afla valoarea critică a lui t, determinăm numărul de grade de libertate:

n \u003d n 1 - 1 + n 2 - 1 \u003d (n 1 + n 2) - 2 \u003d n - 2.

Dacă |t emp | > t cr, atunci renunțăm la ipoteza nulă și acceptăm alternativa, adică considerăm de încredere diferența de medii. Dacă |t emp |< t кр, то разница средних недостоверна.

Când mostre dependente pentru a determina fiabilitatea diferenței de mijloace se folosește următoarea formulă: , Unde

d– diferența dintre rezultatele din fiecare pereche (х i – y i);

å d este suma acestor diferențe parțiale;

å d2 este suma diferențelor parțiale pătrate;

n este numărul de perechi de date.

Numărul de grade de libertate în cazul eșantioanelor dependente pentru determinarea criteriului t va fi egal cu n = n - 1.

Există și alte criterii statistice pentru testarea ipotezelor, atât parametrice, cât și neparametrice. De exemplu, un criteriu matematico-statistic care permite judecarea asemănărilor și diferențelor în dispersiile variabilelor aleatoare se numește criteriu Fisher.

Analiza corelației

În forma sa cea mai generală, sensul „corelației” se referă la o relație reciprocă. Deși, vorbind de corelație, sunt folosiți și termenii „corelație” și „dependență de corelare”, care sunt adesea folosiți ca sinonime.

Sub corelație să înțeleagă schimbările coordonate a două sau mai multe caracteristici, de ex. variabilitatea unei trăsături este într-o anumită corespondență cu variabilitatea alteia.

Dependența de corelație sunt modificările pe care valorile unei caracteristici le fac asupra probabilității de apariție valori diferite alt semn.

Astfel, schimbările coordonate ale trăsăturilor și o corelație între ele care reflectă acest lucru pot indica nu dependența acestor trăsături între ele, ci dependența ambelor trăsături de o a treia trăsătură sau combinație de trăsături care nu au fost luate în considerare în studiu.

Pe baza celor colectate studii statistice datele după prelucrarea lor se trag concluzii despre fenomenele studiate. Aceste concluzii se fac prin prezentarea și testarea ipotezelor statistice.

Ipoteza statistica se numește orice afirmație despre forma sau proprietățile distribuției variabilelor aleatoare observate în experiment. Ipotezele statistice sunt testate prin metode statistice.

Ipoteza care trebuie testată se numește principal (zero)și notat H 0 . Pe lângă zero, există și ipoteza alternativă (concurentă) H 1, negând principalul . Astfel, în urma testului, una și numai una dintre ipoteze va fi acceptată , iar al doilea va fi respins.

Tipuri de erori. Ipoteza propusă este testată pe baza unui studiu al unui eșantion obținut din populația generală. Din cauza caracterului aleatoriu al probei, testul nu trage întotdeauna concluzia corectă. În acest caz, pot apărea următoarele situații:
1. Ipoteza principală este adevărată și este acceptată.
2. Ipoteza principală este adevărată, dar este respinsă.
3. Ipoteza principală nu este adevărată și este respinsă.
4. Ipoteza principală nu este adevărată, dar este acceptată.
În cazul 2, se vorbește despre eroare de primul fel, în acest din urmă caz ​​este eroare de al doilea fel.
Astfel, pentru un eșantion, este acceptat solutie corecta, în timp ce alții greșesc. Decizia se ia în funcție de valoarea unei funcții de eșantionare, numită caracteristică statistică, criteriu statistic sau pur și simplu statistici. Setul de valori ale acestei statistici poate fi împărțit în două subseturi care nu se suprapun:

  • H 0 este acceptat (nu respins), numit zona de acceptare a ipotezelor (zona admisă);
  • subset de valori statistice pentru care ipoteza H 0 este respins (respins) și ipoteza este acceptată H 1 este numit zona critica.

Concluzii:

  1. criteriu numit valoare aleatorie K , care vă permite să acceptați sau să respingeți ipoteza nulă H0 .
  2. La testarea ipotezelor se pot face erori de 2 feluri.
    Eroare de tip I este de a respinge ipoteza H 0 dacă este adevărat („săriți ținta”). Probabilitatea de a face o eroare de tip I se notează cu α și se numește nivelul de semnificație. Cel mai adesea în practică se presupune că α = 0,05 sau α = 0,01.
    Eroare de tip II este că ipoteza H0 este acceptată dacă este falsă („fals pozitiv”). Probabilitatea acestui tip de eroare se notează cu β.

Clasificarea ipotezei

Ipoteza principala H 0 despre valoarea parametrului necunoscut q al distribuției arată de obicei astfel:
H 0: q \u003d q 0.
Ipoteze concurente H 1 poate arăta astfel:
H 1: q < q 0 , H 1:q> q 0 sau H 1: qq 0 .
În consecință, se dovedește partea stângă, partea dreaptă sau bilateral zonele critice. Puncte limită ale regiunilor critice ( puncte critice) se determină din tabelele de distribuție ale statisticilor relevante.

Când se testează o ipoteză, este rezonabil să se reducă probabilitatea de a lua decizii greșite. Probabilitatea de eroare de tip I permisă de obicei notate Ași a sunat nivelul de semnificație. Valoarea sa este de obicei mică ( 0,1, 0,05, 0,01, 0,001 ...). Dar o scădere a probabilității unei erori de tip 1 duce la o creștere a probabilității unei erori de tip 2 ( b), adică dorinta de a accepta numai ipoteze adevarate determina o crestere a numarului de ipoteze corecte respinse. Prin urmare, alegerea nivelului de semnificație este determinată de importanța problemei puse și de severitatea consecințelor unei decizii incorecte.
Testarea unei ipoteze statistice constă în următorii pași:
1) definirea ipotezelor H 0 și H 1 ;
2) selectarea statisticilor și atribuirea nivelului de semnificație;
3) definirea punctelor critice K crși zona critică;
4) calculul valorii statisticilor din eșantion K ex;
5) compararea valorii statisticilor cu regiunea critică ( K crȘi K ex);
6) luarea deciziilor: dacă valoarea statisticii nu este inclusă în regiunea critică, atunci ipoteza este acceptată H 0 și respingeți ipoteza H 1, iar dacă intră în regiunea critică, atunci ipoteza este respinsă H 0 și ipoteza este acceptată H unu . În același timp, rezultatele testării ipotezei statistice trebuie interpretate după cum urmează: dacă ipoteza este acceptată H 1 , atunci o putem considera dovedită, iar dacă acceptăm ipoteza H 0 , apoi s-a recunoscut că nu contrazice rezultatele observațiilor.Cu toate acestea, această proprietate, împreună cu H 0 poate avea alte ipoteze.

Clasificarea testului de ipoteză

Să luăm în considerare în continuare câteva ipoteze statistice diferite și mecanisme de testare a acestora.
eu) Ipoteza mediei generale a distribuției normale cu variație necunoscută. Presupunem că populația generală are o distribuție normală, media și varianța acesteia sunt necunoscute, dar există motive să credem că media generală este egală cu a . La un nivel de semnificație al α, este necesar să se testeze ipoteza H 0: x=a. Ca alternativă, poate fi folosită una dintre cele trei ipoteze discutate mai sus. În acest caz, statistica este o variabilă aleatoare , care are o distribuție Student cu n– 1 grad de libertate. Se determină valoarea experimentală (observată) corespunzătoare t ex t cr H 1: x >a se găsește prin nivelul de semnificație α și numărul de grade de libertate n– 1. Dacă t ex < t cr H 1: x ≠a valoarea critică se găsește de la nivelul de semnificație α / 2 și același număr de grade de libertate. Ipoteza nulă este acceptată dacă | t ex | II) Ipoteza egalității a două medii ale populațiilor generale distribuite arbitrar (eșantioane mari independente). La un nivel de semnificație al α, este necesar să se testeze ipoteza H 0:x≠y. Dacă volumul ambelor probe este mare, atunci putem presupune că mediile eșantionului au o distribuție normală, iar variațiile lor sunt cunoscute. În acest caz, o variabilă aleatoare poate fi folosită ca statistică
,
având o distribuție normală și M(Z) = 0, D(Z) = 1. Se determină valoarea experimentală corespunzătoare z ex. Din tabelul funcției Laplace se găsește valoarea critică z cr. Sub ipoteza alternativă H 1: x >y se găsește din condiție F(z cr) = 0,5 – A. Dacă z ex< z кр , atunci ipoteza nulă este acceptată, în caz contrar se respinge. Sub ipoteza alternativă H 1: x ≠ y valoarea critică se găsește din condiție F(z cr) = 0,5×(1 – A). Ipoteza nulă este acceptată dacă | z ex |< z кр .

III) Ipoteza egalității a două medii ale populațiilor generale distribuite normal, ale căror varianțe sunt necunoscute și aceleași (eșantioane mici independente). La un nivel de semnificație al α, este necesar să se testeze ipoteza principală H 0: x=y . Ca statistică, folosim o variabilă aleatoare
,
care are o distribuție Student cu ( n x + n– 2) grade de libertate. Se determină valoarea experimentală corespunzătoare t ex. Din tabelul punctelor critice ale distribuției Studentului se găsește valoarea critică t cr. Totul este rezolvat similar cu ipoteza (I).

IV) Ipoteza egalității a două varianțe ale populațiilor normal distribuite. În acest caz, la nivel de semnificație A trebuie să testăm ipoteza H 0: D(X) = D(Y). Statistica este o variabilă aleatoare, care are distribuția Fisher-Snedecor cu f 1 = n b– 1 și f 2 = n m- 1 grad de libertate (S 2 b - varianță mare, volumul probei sale n b). Se determină valoarea experimentală (observată) corespunzătoare F ex. valoare critica F cr sub ipoteza alternativa H 1: D(X) > D(Y) se regăsește din tabelul punctelor critice ale distribuției Fisher-Snedecor după nivelul de semnificație Ași numărul de grade de libertate f 1 și f 2. Ipoteza nulă este acceptată dacă F ex < F cr.

Instruire. Pentru calcul, trebuie să specificați dimensiunea datelor sursă.

V) Ipoteza egalității mai multor varianțe ale populațiilor distribuite normal pe eșantioane de aceeași dimensiune. În acest caz, la nivel de semnificație A trebuie să testăm ipoteza H 0: D(X 1) = D(X 2) = …= D(Xl). Statistica este o variabilă aleatorie , care are distribuția Cochran cu grade de libertate f = n– 1 și l (n- dimensiunea fiecărei probe, l este numărul de mostre). Această ipoteză este testată în același mod ca și cea anterioară. Se folosește tabelul punctelor critice ale distribuției Cochran.

vi) Ipoteza despre semnificația corelației.În acest caz, la nivel de semnificație A trebuie să testăm ipoteza H 0: r= 0. (Dacă coeficientul de corelație este egal cu zero, atunci mărimile corespunzătoare nu sunt legate între ele). În acest caz, statistica este o variabilă aleatorie
,
avand o distributie Student cu f = n– 2 grade de libertate. Verificarea acestei ipoteze se realizează în mod similar cu verificarea ipotezei (I).

Instruire. Specificați cantitatea de date sursă.

VII) Ipoteza despre valoarea probabilității de apariție a unui eveniment. Cheltuit suficient un numar mare de n procese independente în care evenimentul DAR s-a întâmplat m o singura data. Există motive să credem că probabilitatea ca acest eveniment să apară într-un singur proces este egală cu p 0. Necesar la nivel de semnificație A testați ipoteza că probabilitatea unui eveniment DAR egală cu probabilitatea ipotetică p 0. (Deoarece probabilitatea este estimată prin frecvența relativă, ipoteza testată poate fi formulată diferit: frecvența relativă observată și probabilitatea ipotetică diferă semnificativ sau nu).
Numărul de încercări este destul de mare, deci frecvența relativă a evenimentului DAR distribuite conform legii normale. Dacă ipoteza nulă este adevărată, atunci valoarea ei așteptată este p 0, și varianța . În conformitate cu aceasta, ca statistică, alegem o variabilă aleatorie
,
care este distribuit aproximativ conform legii normale cu așteptare matematică zero și varianță unitară. Această ipoteză este testată exact în același mod ca și în cazul (I).

Instruire. Pentru calcul, trebuie să completați datele inițiale.

Acțiune