Ipotesi nulla e alternative. Metodo di verifica "Fiducia".

Poiché la statistica come metodo di ricerca si occupa di dati in cui i modelli di interesse per il ricercatore sono distorti da vari fattori casuali, la maggior parte dei calcoli statistici sono accompagnati da testare alcune ipotesi o ipotesi sulla fonte di questi dati.

Ipotesi pedagogica (ipotesi scientifica un'affermazione sul vantaggio di un metodo o di un altro) viene tradotta nel linguaggio della scienza statistica nel processo di analisi statistica e riformulata in almeno due ipotesi statistiche.

Ci sono due tipi di ipotesi: il primo tipo - descrittivo ipotesi che descrivono cause e possibili conseguenze. Il secondo tipo - esplicativo : danno una spiegazione delle possibili conseguenze da determinate cause e caratterizzano anche le condizioni in cui queste conseguenze seguiranno necessariamente, cioè è spiegato in virtù di quali fattori e condizioni sarà questa conseguenza. Le ipotesi descrittive non hanno preveggenza, mentre le ipotesi esplicative sì. Le ipotesi esplicative portano i ricercatori a presumere l'esistenza di determinate relazioni regolari tra fenomeni, fattori e condizioni.

Le ipotesi nella ricerca pedagogica possono suggerire che uno dei mezzi (o un gruppo di essi) sarà più efficace di altri mezzi. Qui si fa un'ipotesi ipotetica sull'efficacia comparativa di mezzi, metodi, metodi, forme di educazione.

Un livello più alto di predizione ipotetica è che l'autore dello studio ipotizza che un sistema di misure non solo sarà migliore di un altro, ma tra un numero di possibili sistemi sembra ottimale in termini di determinati criteri. Una tale congettura necessita di una dimostrazione più rigorosa e quindi più dettagliata.

Kulaichev A.P. Metodi e strumenti per l'analisi dei dati in ambiente Windows. ed. 3°, rivisto. e aggiuntivo - M: InKo, 1999, pp. 129-131

Dizionario psicologico-pedagogico per insegnanti e dirigenti di istituzioni educative. - Rostov-n / D: Phoenix, 1998, pagina 92

5. Principali problemi della statistica applicata - descrizione dei dati, stima e verifica delle ipotesi

Concetti chiave utilizzati nei test di ipotesi

Ipotesi statistica - qualsiasi ipotesi riguardante la distribuzione incognita di variabili casuali (elementi). Ecco le formulazioni di diverse ipotesi statistiche:

1. I risultati delle osservazioni hanno una distribuzione normale con zero aspettativa matematica.
2. I risultati delle osservazioni hanno una funzione di distribuzione N(0,1).
3. I risultati delle osservazioni hanno una distribuzione normale.
4. I risultati delle osservazioni in due campioni indipendenti hanno la stessa distribuzione normale.
5. I risultati delle osservazioni in due campioni indipendenti hanno la stessa distribuzione.

Ci sono ipotesi nulle e alternative. L'ipotesi nulla è l'ipotesi da verificare. Un'ipotesi alternativa è ogni ipotesi valida diversa dall'ipotesi nulla. L'ipotesi nulla è H0, alternativa - H 1(da Ipotesi - "ipotesi" (inglese)).

La scelta dell'una o dell'altra ipotesi nulla o alternativa è determinata dai compiti applicati che devono affrontare il manager, l'economista, l'ingegnere, il ricercatore. Considera degli esempi.

Esempio 11. Lascia che l'ipotesi nulla sia l'ipotesi 2 dall'elenco sopra e l'ipotesi alternativa sia l'ipotesi 1. Ciò significa che la situazione reale è descritta da un modello probabilistico, secondo il quale i risultati delle osservazioni sono considerati come realizzazioni di variabili casuali indipendenti distribuite in modo identico con una funzione di distribuzione N(0,σ), dove il parametro σ è sconosciuto allo statistico. In questo modello, l'ipotesi nulla è scritta come segue:

H 0: σ = 1,

e un'alternativa come questa:

H 1: σ ≠ 1.

Esempio 12. Sia l'ipotesi nulla ancora l'ipotesi 2 dell'elenco precedente e l'ipotesi alternativa sia l'ipotesi 3 dello stesso elenco. Quindi, in un modello probabilistico di una situazione gestionale, economica o produttiva, si assume che i risultati delle osservazioni formino un campione da una distribuzione normale N(m, σ) per alcuni valori m e σ. Le ipotesi si scrivono così:

H 0: m= 0, σ = 1

(entrambi i parametri assumono valori fissi);

H 1: m≠ 0 e/o σ ≠ 1

(cioè o m≠ 0, o σ ≠ 1, o entrambi m≠ 0 e σ ≠ 1).

Esempio 13 Permettere H 0 è l'ipotesi 1 dell'elenco precedente, e H 1 - ipotesi 3 della stessa lista. Allora il modello probabilistico è lo stesso dell'esempio 12,

H 0: m= 0, σ è arbitrario;

H 1: m≠ 0, σ è arbitrario.

Esempio 14 Permettere H 0 è l'ipotesi 2 dall'elenco sopra, e secondo H 1 risultati osservazionali hanno una funzione di distribuzione F(X), non corrisponde alla funzione di distribuzione normale standard F(x). Quindi

H 0: F(x) = F(x) per tutti X(scritto come F(x) ≡ F(x));

H 1: F(x 0) ≠ F (x 0) a un certo x 0(cioè non è vero che F(x) ≡ F(x)).

Nota. Qui ≡ è il segno dell'identica coincidenza di funzioni (cioè coincidenza per tutti i possibili valori dell'argomento X).

Esempio 15 Permettere H 0 è l'ipotesi 3 dall'elenco sopra, e secondo H 1 risultati osservazionali hanno una funzione di distribuzione F(X), non essere normale. Quindi

Per alcuni m, σ;

H 1: per qualsiasi m, σ c'è x 0 = x 0(m, σ) tale che .

Esempio 16 Permettere H 0 - ipotesi 4 dall'elenco di cui sopra, secondo il modello probabilistico, si prelevano due campioni da popolazioni con funzioni di distribuzione F(X) e G(X), che sono normali con i parametri m 1 , σ 1 e m 2 , σ 2 rispettivamente, e H 1 - negazione H 0. Quindi

H 0: m 1 = m 2 , σ 1 = σ 2 , e m 1 e σ 1 sono arbitrari;

H 1: m 1 ≠ m 2 e/o σ 1 ≠ σ 2 .

Esempio 17. Sia, nelle condizioni dell'Esempio 16, inoltre noto che σ 1 = σ 2 . Quindi

H 0: m 1 = m 2 , σ > 0, e m 1 e σ sono arbitrari;

H 1: m 1 ≠ m 2 , σ > 0.

Esempio 18. Permettere H 0 - ipotesi 5 dall'elenco di cui sopra, secondo il modello probabilistico, si prelevano due campioni da popolazioni con funzioni di distribuzione F(X) e G(X) rispettivamente, e H 1 - negazione H 0. Quindi

H 0: F(X) G(X) , dove F(X)

H 1: F(X) e G(X) sono funzioni di distribuzione arbitrarie, e

F(X) G(X) con qualche X.

Esempio 19. Si assuma inoltre, nelle condizioni dell'Esempio 17, che la distribuzione funzioni F(X) e G(X) differiscono solo nel turno, cioè G(X) = F(X- un) a un certo un. Quindi

H 0: F(X) G(X) ,

dove F(X) è una funzione di distribuzione arbitraria;

H 1: G(X) = F(X- a), a ≠ 0,

dove F(X) è una funzione di distribuzione arbitraria.

Esempio 20. Sia, nelle condizioni dell'Esempio 14, inoltre noto che secondo il modello probabilistico della situazione F(X) è una funzione di distribuzione normale con varianza unitaria, cioè ha la forma N(m, uno). Quindi

H 0: m = 0 (quelli. F(x) = F(x)

per tutti X); (scritto come F(x) ≡ F(x));

H 1: m 0

(cioè non è vero che F(x) ≡ F(x)).

Esempio 21. Nella regolazione statistica dei processi tecnologici, economici, gestionali o di altro tipo, si consideri un campione tratto da una popolazione con distribuzione normale e varianza nota, e ipotesi

H 0: m = m 0 ,

H 1: m= m 1 ,

dove valore del parametro m = m 0 corrisponde al corso stabilito del processo e al passaggio a m= m 1 indica un guasto.

Esempio 22. Con il controllo statistico di accettazione, il numero di unità di prodotto difettose nel campione obbedisce a una distribuzione ipergeometrica, il parametro sconosciuto è p = D/ Nè il livello di difetto, dove N- il volume del lotto di prodotti, D- il numero totale di unità difettose nel lotto. Utilizzati nella documentazione normativa, tecnica e commerciale (norme, contratti di fornitura, ecc.), i piani di controllo sono spesso volti a verificare un'ipotesi

H 0: p < AQL

H 1: p > LQ,

dove AQL – livello di accettazione della difettosità, LQ è il livello di difettosità dei difetti (ovviamente, AQL < LQ).

Esempio 23. Come indicatori della stabilità di un processo tecnologico, economico, gestionale o altro, vengono utilizzate alcune caratteristiche delle distribuzioni di indicatori controllati, in particolare il coefficiente di variazione v = σ/ M(X). Necessità di verificare l'ipotesi nulla

H 0: v < v 0

nell'ipotesi alternativa

H 1: v > v 0 ,

dove v 0 è un valore limite predeterminato.

Esempio 24. Sia il modello probabilistico di due campioni lo stesso dell'Esempio 18, indichiamo le aspettative matematiche dei risultati delle osservazioni nel primo e nel secondo campione M(X) e M(In) rispettivamente. In alcune situazioni, l'ipotesi nulla viene verificata

H 0: M(X) = M(Y)

contro l'ipotesi alternativa

H 1: M(X) ≠ M(Y).

Esempio 25. È stato notato sopra Grande importanza nella statistica matematica delle funzioni di distribuzione simmetriche rispetto a 0, Quando si controlla la simmetria

H 0: F(- X) = 1 – F(X) per tutti X, altrimenti F arbitrario;

H 1: F(- X 0 ) ≠ 1 – F(X 0 ) a un certo X 0 , altrimenti F arbitrario.

Nei metodi decisionali probabilistico-statistici vengono utilizzate anche molte altre formulazioni di problemi per testare ipotesi statistiche. Alcuni di essi sono discussi di seguito.

Il compito specifico di verificare un'ipotesi statistica è pienamente descritto se vengono fornite le ipotesi nulle e alternative. La scelta di un metodo per verificare un'ipotesi statistica, le proprietà e le caratteristiche dei metodi sono determinate sia dall'ipotesi nulla che da quella alternativa. Per verificare la stessa ipotesi nulla sotto diverse ipotesi alternative, in generale, dovrebbero essere usati metodi diversi. Quindi, negli esempi 14 e 20, l'ipotesi nulla è la stessa, mentre quelle alternative sono diverse. Pertanto, nelle condizioni dell'esempio 14, dovrebbero essere utilizzati metodi basati su criteri di adattamento con una famiglia parametrica (tipo Kolmogorov o tipo omega-quadrato) e nelle condizioni dell'esempio 20, metodi basati sul test di Student o sul test di Cramer-Welch. Se, nelle condizioni dell'esempio 14, viene utilizzato il criterio dello Studente, allora non risolverà i compiti impostati. Se, nelle condizioni dell'Esempio 20, utilizziamo un criterio di bontà di adattamento di tipo Kolmogorov, allora, al contrario, risolverà i compiti stabiliti, anche se, forse, peggiore del criterio di Student appositamente adattato per questo caso.

Quando si elaborano dati reali, è di grande importanza giusta scelta ipotesi H 0 e H uno . Le ipotesi fatte, come la normalità della distribuzione, devono essere accuratamente giustificate, in particolare con metodi statistici. Si noti che nella stragrande maggioranza delle impostazioni applicate specifiche, la distribuzione dei risultati dell'osservazione è diversa dal normale.

Spesso si verifica una situazione in cui la forma dell'ipotesi nulla deriva dalla formulazione del problema applicato, ma la forma dell'ipotesi alternativa non è chiara. In tali casi, si dovrebbe considerare un'ipotesi alternativa della forma più generale e utilizzare metodi che risolvano il problema per tutto il possibile H uno . In particolare, quando si verifica l'ipotesi 2 (dall'elenco sopra) come nulla, si dovrebbe usare come ipotesi alternativa H 1 dall'esempio 14, e non dall'esempio 20, se non sussistono particolari giustificazioni per la normalità della distribuzione dei risultati delle osservazioni sotto l'ipotesi alternativa.

Precedente

Nelle diverse fasi della ricerca statistica e della modellizzazione, diventa necessario formulare e verificare sperimentalmente alcune ipotesi (ipotesi) riguardanti la natura e l'entità dei parametri sconosciuti della popolazione generale analizzata (insiemi). Ad esempio, il ricercatore fa un'ipotesi: "il campione è tratto da una popolazione normale" oppure "la media generale della popolazione analizzata è pari a cinque". Tali ipotesi sono chiamate ipotesi statistiche.

Il confronto dell'ipotesi dichiarata riguardante la popolazione generale con i dati campionari disponibili, accompagnato da una valutazione quantitativa del grado di affidabilità della conclusione risultante, viene effettuato utilizzando l'uno o l'altro criterio statistico ed è chiamato testare ipotesi statistiche .

L'ipotesi proposta è chiamata zero (base) . Viene comunemente indicato H0.

In relazione all'ipotesi espressa (principale), si può sempre formulare alternativo (concorrente) che lo contraddice. Di solito viene indicata un'ipotesi alternativa (concorrente). H 1.

Lo scopo del test di ipotesi statisticheè decidere sulla validità dell'ipotesi principale sulla base di dati campionari H0.

Se l'ipotesi avanzata si riduce all'affermazione che il valore di un parametro sconosciuto della popolazione generale è esattamente uguale a dato valore, allora viene chiamata questa ipotesi semplice, ad esempio: "il reddito totale pro capite medio della popolazione russa è di 650 rubli al mese"; "il tasso di disoccupazione (la quota dei disoccupati nella popolazione economicamente attiva) in Russia è del 9%" . In altri casi, l'ipotesi è chiamata complesso.

Come ipotesi nulla H0è consuetudine avanzare una semplice ipotesi, perché di solito è più conveniente controllare un'affermazione più rigorosa.

Ipotesi sulla forma della legge di distribuzione della variabile aleatoria in studio;

Ipotesi sui valori numerici dei parametri della popolazione generale studiata;

Ipotesi sull'omogeneità di due o più campioni o su alcune caratteristiche delle popolazioni analizzate;

Ipotesi su vista generale un modello che descrive la relazione statistica tra le caratteristiche, ecc.

Poiché la verifica delle ipotesi statistiche viene effettuata sulla base di dati campionari, cioè un insieme limitato di osservazioni, decisioni riguardanti l'ipotesi nulla H0 sono probabilistici. In altre parole, una tale decisione è inevitabilmente accompagnata da alcune, anche se forse molto piccole, probabilità di una conclusione errata in entrambe le direzioni.



Quindi, in una piccola frazione di casi α ipotesi nulla H0 può essere rifiutato, mentre in realtà è giusto nella popolazione generale. Un tale errore viene chiamato digitare un errore . E la sua probabilità è chiamata livello di significatività e designare α .

Viceversa, in una piccola frazione di casi β ipotesi nulla H0è accettato, mentre di fatto nella popolazione generale è erroneo, e l'ipotesi alternativa è vera H 1. Un tale errore viene chiamato errore di tipo II . Di solito si indica la probabilità di un errore del secondo tipo β . Probabilità 1-β chiamato la forza del criterio .

Con una dimensione campionaria fissa, puoi scegliere a tua discrezione il valore di probabilità di uno solo degli errori α o β . Un aumento della probabilità di uno di essi porta a una diminuzione dell'altro. È consuetudine impostare la probabilità di un errore del primo tipo α - livello di significatività. Di norma, alcuni valori standard livello di significatività α : 0,1; 0,05; 0,025; 0,01; 0,005; 0,001. Poi, ovviamente, da due criteri caratterizzati dalla stessa probabilità α rifiutare un'ipotesi vera H0, si dovrebbe accettare quello che è accompagnato da un errore minore del secondo tipo β , cioè. più potenza. Ridurre la probabilità di entrambi gli errori α e β può essere ottenuto aumentando la dimensione del campione.

Decisione corretta sull'ipotesi nulla H0 possono essere anche di due tipi:

L'ipotesi nulla sarà accettata. H0, mentre in effetti l'ipotesi nulla è vera nella popolazione generale H0; probabilità di una tale decisione 1 - α;

Ipotesi nulla H0 sarà respinto a favore di un'alternativa H 1, mentre di fatto nella popolazione generale l'ipotesi nulla H0 respinto a favore dell'alternativa H 1; probabilità di una tale decisione 1 - β - potenza del criterio.

I risultati della decisione sull'ipotesi nulla possono essere illustrati utilizzando la Tabella 8.1.

Tabella 8.1

Le ipotesi statistiche sono verificate utilizzando criterio statistico(chiamiamola genericamente Per), che è una funzione dei risultati dell'osservazione.

Un criterio statistico è una regola (formula) mediante la quale viene determinato il grado di discrepanza tra i risultati di un'osservazione campionaria e l'ipotesi dichiarata H 0.

Un criterio statistico, come ogni funzione dei risultati dell'osservazione, è una variabile casuale e, assumendo la validità dell'ipotesi nulla H0 è soggetto a una legge di distribuzione teorica ben studiata (e tabulata) con densità di distribuzione f(k).

La scelta del criterio per verificare le ipotesi statistiche può essere effettuata sulla base di vari principi. Il più delle volte usato per questo il principio del rapporto di verosimiglianza, che ti consente di costruire il criterio più potente tra tutti i criteri possibili. La sua essenza si riduce alla scelta di un tale criterio Per con funzione di densità nota f(k) subordinatamente alla validità dell'ipotesi H 0 , quindi ad un dato livello di significatività α si potrebbe trovare il punto critico K cre.distribuzione f(k), che dividerebbe l'intervallo di valori del criterio in due parti: l'intervallo di valori accettabili, in cui i risultati dell'osservazione campionaria sembrano più plausibili, e la regione critica, in cui i risultati dell'osservazione campionaria sembrano meno plausibile rispetto all'ipotesi nulla H0.

Se un tale criterio Per si sceglie e si conosce la densità della sua distribuzione, allora il compito di verificare l'ipotesi statistica si riduce a garantire che, a un dato livello di significatività, α calcolare il valore osservato del criterio dai dati del campione Ad obl. e determinare se è più o meno plausibile rispetto all'ipotesi nulla H0.

La verifica di ogni tipo di ipotesi statistica viene effettuata utilizzando il criterio appropriato, che è il più potente in ogni caso particolare. Ad esempio, la verifica dell'ipotesi sulla forma della legge di distribuzione di una variabile casuale può essere eseguita utilizzando il test di bontà dell'adattamento di Pearson χ 2; verifica dell'ipotesi sull'uguaglianza dei valori sconosciuti delle varianze di due popolazioni generali - utilizzando il criterio F- Pescatore; utilizzando il criterio vengono testate una serie di ipotesi su valori sconosciuti dei parametri delle popolazioni generali Z- variabile casuale distribuita normale e criterio T- Studente, ecc.

Viene chiamato il valore del criterio, calcolato secondo regole speciali basate su dati campionari il valore osservato del criterio (Ad obl.).

Valori dei criteri dividendo l'insieme dei valori dei criteri per intervallo di tolleranza(più plausibile rispetto all'ipotesi nulla H0) e area critica(range di valori meno plausibili in relazione a tabelle di distribuzione di una variabile aleatoria Per scelti come criterio sono chiamati punti critici (K cr.).

L'area dei valori accettabili (l'area di accettazione dell'ipotesi nulla H 0) Per H0 non viene rifiutato.

Zona critica chiama l'insieme dei valori del criterio Per , in base alla quale l'ipotesi nulla H0 deviato a favore di un rivale H 1 .

Distinguere unilaterale(mano destra o mano sinistra) e regioni critiche bilaterali.

Se l'ipotesi concorrente è destrorsa, ad esempio, H 1: a > a 0, allora la regione critica è lato destro(Figura 1). Sotto l'ipotesi concorrente destrorsa, il punto critico (Al cr. lato destro) assume valori positivi.

Se l'ipotesi concorrente è mancina, ad esempio, H 1: a< а 0 , allora la regione critica è lato sinistro(Figura 2). Sotto l'ipotesi concorrente di sinistra, il punto critico prende valori negativi (Per cr. lato sinistro).

Se l'ipotesi concorrente è a due lati, per esempio, H 1: a¹ uno 0, allora la regione critica è bilaterale(Figura 3). Con un'ipotesi concorrente a due lati, vengono definiti due punti critici (K kr. lato sinistro e A cr. mano destra).


Area consentita Critico

gamma di valori

La formulazione di ipotesi sistematizza le ipotesi del ricercatore e le presenta in modo chiaro e conciso. La decisione che il ricercatore deve prendere riguarda la verità o la falsità dell'ipotesi statistica. Esistono due tipi di ipotesi: scientifica e statistica. Scientifico Un'ipotesi è una proposta di soluzione a un problema (espresso come un teorema). Statistico un'ipotesi è semplicemente un'affermazione su un parametro sconosciuto della popolazione generale (proprietà di una variabile casuale o di un evento), che è formulata per verificare l'affidabilità della relazione e che può essere verificata rispetto a statistiche campionarie note (risultati della ricerca, dati empirici disponibili ).

Le ipotesi statistiche si dividono in nulle e alternative, direzionali e non direzionali. Ipotesi nulla (H 0) questa è un'ipotesi sull'assenza di differenze, sull'assenza dell'influenza di un fattore, sull'assenza di un effetto, ecc.. Questo è ciò che dovrebbe essere confutato se ci troviamo di fronte al compito di provare il significato delle differenze. Ipotesi alternativa (H 1)è un'ipotesi sul significato delle differenze. Questo è ciò che dovrebbe essere dimostrato, motivo per cui a volte viene chiamata ipotesi sperimentale o di lavoro.

se stessa la procedura di elaborazione dei dati quantitativi ottenuti, che consiste nel calcolare alcune caratteristiche statistiche e stime che consentono di verificare l'ipotesi nulla, è chiamata analisi statistica.

Le ipotesi nulle e alternative possono essere direzionali o non direzionali. L'ipotesi è chiamata dirette se contiene un'indicazione della direzione delle differenze. Tali ipotesi dovrebbero essere formulate, ad esempio, nel caso in cui in uno dei gruppi i valori individuali dei soggetti per qualsiasi caratteristica siano superiori, e nell'altro inferiori, oppure sia necessario dimostrare che in uno dei gruppi sotto l'influenza di eventuali influenze sperimentali cambiamenti più pronunciati rispetto all'altro gruppo. L'ipotesi è chiamata non direzionale, se la sua formulazione presuppone solo la definizione di differenze o non differenze (senza indicare la direzione delle differenze). Ad esempio, se è necessario dimostrare, in due diversi gruppi le forme di distribuzione di una caratteristica differiscono.

Esempi di formulazione di ipotesi.

Viene chiamato il metodo utilizzato per decidere sulla validità di un'ipotesi statistica verifica di ipotesi. Il principio di base del test di ipotesi è che l'ipotesi nulla viene avanzata. H0, per tentare di confutarla e quindi confermare l'ipotesi alternativa H 1 .

Quando si verifica un'ipotesi statistica, la decisione del ricercatore non è mai presa con certezza, poiché c'è sempre il rischio di prendere la decisione sbagliata.

Solitamente i campioni utilizzati sono piccoli e in questi casi la probabilità di errore può essere significativa. C'è un cosiddetto livello di confidenza (livello di significatività) differenze. Questa è la probabilità che le differenze siano considerate significative, ma in realtà sono casuali. Cioè, è la probabilità di rifiutare l'ipotesi nulla mentre è vera.

Quando si dichiara che le differenze sono significative al livello di significatività del 5%, o a p£0,05, ciò che si intende è che la probabilità che dopo tutto non siano significative è 0,05 ( livello più basso significato statistico). Se una differenza viene dichiarata significativa al livello di significatività dell'1%, oa p£0,01, significa che la probabilità che non sia significativa dopo tutto è 0,01 (un livello sufficiente di significatività statistica). Se le differenze sono dichiarate significative al livello di significatività dello 0,1%, o a p£0,001, significa che la probabilità che non siano ancora significative è 0,001 ( il livello più alto significato statistico).

La regola del rifiuto H 0 e dell'accettazione H 1:

Se il valore empirico del criterio è uguale o superiore al valore critico corrispondente a p £ 0,05, allora H0 rifiutato, ma non ancora definitivamente accettato H 1.

Se il valore empirico del criterio è uguale o superiore al valore critico corrispondente a p £ 0,01, allora H0 rifiutato accettato H 1.

Per visualizzare la regola decisionale si può utilizzare il cosiddetto "asse di significatività".

Se il livello di confidenza non viene superato, si può ritenere probabile che la differenza rivelata rifletta realmente lo stato delle cose nella popolazione. Per tutti metodo statistico questo livello è riscontrabile nelle tabelle di distribuzione dei valori critici dei criteri corrispondenti.

T - Criterio dello studente

Si tratta di un metodo parametrico utilizzato per verificare ipotesi sulla validità della differenza di media quando si analizzano dati quantitativi in ​​popolazioni con distribuzione normale e con la stessa varianza. È ben applicabile nel caso di confrontare i valori delle medie valori casuali tratto misurato nel gruppo di controllo e sperimentale, in diversi gruppi di sesso ed età, gruppi con altre caratteristiche differenti.

Un prerequisito per l'applicabilità dei metodi parametrici, incluso il t-test di Student, per dimostrare ipotesi statistiche è la subordinazione distribuzione empirica della caratteristica in studio alla legge della distribuzione normale.

Il metodo di Student è diverso per i campioni indipendenti e dipendenti.

Indipendente i campioni sono ottenuti studiando due diversi gruppi di soggetti (ad esempio gruppi di controllo e gruppi sperimentali). Per dipendente i campioni includono, ad esempio, i risultati dello stesso gruppo di soggetti prima e dopo l'esposizione alla variabile indipendente.

L'ipotesi verificata H 0 è che la differenza tra le medie dei due campioni sia uguale a zero ( = 0), in altre parole, questa è l'ipotesi sull'uguaglianza delle medie (). L'ipotesi alternativa H 1 è che questa differenza sia diversa da zero ( ¹ 0) o che vi sia una differenza nelle medie campionarie ().

quando campioni indipendenti per analizzare la differenza delle medie si usa la formula: per n 1 , n 2 > 30

e formula per n 1 , n 2< 30, где

Media aritmetica del primo campione;

Media valore aritmetico secondo campione;

s 1 - deviazione standard per il primo campione;

s 2 - deviazione standard per il secondo campione;

n 1 e n 2 sono il numero di elementi nel primo e nel secondo campione.

Per trovare il valore critico di t, determiniamo il numero di gradi di libertà:

n \u003d n 1 - 1 + n 2 - 1 \u003d (n 1 + n 2) - 2 \u003d n - 2.

Se |t emp | > t cr, allora scartiamo l'ipotesi nulla e accettiamo quella alternativa, cioè consideriamo affidabile la differenza delle medie. Se |t emp |< t кр, то разница средних недостоверна.

quando campioni dipendenti per determinare l'affidabilità della differenza nei mezzi viene utilizzato seguente formula: , dove

d– la differenza tra i risultati in ciascuna coppia (х i – y i);

å dè la somma di queste differenze parziali;

å d2è la somma delle differenze parziali al quadrato;

nè il numero di coppie di dati.

Il numero di gradi di libertà nel caso di campioni dipendenti per determinare il criterio t sarà pari a n = n - 1.

Esistono altri criteri statistici per verificare le ipotesi, sia parametriche che non parametriche. Per esempio, un criterio matematico-statistico che permette di giudicare le somiglianze e le differenze nelle dispersioni di variabili casuali è chiamato criterio di Fisher.

Analisi di correlazione

Nella sua forma più generale, il significato di "correlazione" si riferisce a una relazione reciproca. Anche se, parlando di correlazione, vengono utilizzati anche i termini "correlazione" e "dipendenza dalla correlazione", che sono spesso usati come sinonimi.

Sotto correlazione comprendere le modifiche coordinate di due o più funzioni, ad es. la variabilità di un tratto è in qualche corrispondenza con la variabilità di un altro.

Dipendenza di correlazione sono le modifiche che i valori di una caratteristica apportano alla probabilità di occorrenza valori diversi un altro segno.

Pertanto, i cambiamenti coordinati nei tratti e la correlazione tra loro che riflette questo può indicare non la dipendenza di questi tratti tra loro, ma la dipendenza di entrambi questi tratti da qualche terzo tratto o combinazione di tratti non considerati nello studio.

In base alla raccolta studi statistici dati dopo la loro elaborazione, si traggono conclusioni sui fenomeni studiati. Queste conclusioni sono tratte proponendo e testando ipotesi statistiche.

Ipotesi statistica viene chiamata qualsiasi affermazione sulla forma o sulle proprietà della distribuzione di variabili casuali osservate nell'esperimento. Le ipotesi statistiche sono verificate con metodi statistici.

Viene chiamata l'ipotesi da verificare principale (zero) e indicato H 0. Oltre a zero, c'è anche ipotesi alternativa (concorrente) H 1 , negando il principale . Pertanto, a seguito del test, verrà accettata una ed una sola delle ipotesi , e il secondo sarà rifiutato.

Tipi di errore. L'ipotesi avanzata viene verificata sulla base di uno studio su un campione ottenuto dalla popolazione generale. A causa della casualità del campione, il test non trae sempre la conclusione corretta. In questo caso possono verificarsi le seguenti situazioni:
1. L'ipotesi principale è vera ed è accettata.
2. L'ipotesi principale è vera, ma è respinta.
3. L'ipotesi principale non è vera ed è respinta.
4. L'ipotesi principale non è vera, ma è accettata.
Nel caso 2, si parla di errore del primo tipo, in quest'ultimo caso lo è errore del secondo tipo.
Pertanto, per un campione, è accettato la decisione giusta, mentre altri si sbagliano. La decisione viene presa in base al valore di una funzione di campionamento, chiamata caratteristica statistica, criterio statistico o semplicemente statistiche. L'insieme dei valori di questa statistica può essere suddiviso in due sottoinsiemi non sovrapposti:

  • H 0 è accettato (non rifiutato), chiamato area di accettazione delle ipotesi (area ammissibile);
  • sottoinsieme di valori statistici per i quali l'ipotesi H 0 è rifiutato (rifiutato) e l'ipotesi è accettata H 1 è chiamato area critica.

Conclusioni:

  1. criterio chiamato valore casuale K, che permette di accettare o rifiutare l'ipotesi nulla H0.
  2. Quando si verificano ipotesi, possono essere commessi errori di 2 tipi.
    Errore di tipo Iè rifiutare l'ipotesi H 0 se è vero ("salta destinazione"). La probabilità di commettere un errore di tipo I è indicata con α e viene chiamata livello di significatività. Molto spesso in pratica si presume che α = 0,05 o α = 0,01.
    Errore di tipo IIè che l'ipotesi H0 è accettata se è falsa ("falso positivo"). La probabilità di questo tipo di errore è indicata con β.

Classificazione delle ipotesi

Ipotesi principale H 0 circa il valore del parametro sconosciuto q della distribuzione di solito appare così:
H 0: q \u003d q 0.
Ipotesi in competizione H 1 potrebbe assomigliare a questo:
H 1: q < q 0 , H 1:q> q 0 o H 1: qq 0 .
Di conseguenza, risulta lato sinistro, lato destro o bilaterale aree critiche. Punti di confine delle regioni critiche ( punti critici) è determinato dalle tavole di distribuzione delle statistiche pertinenti.

Quando si verifica un'ipotesi, è ragionevole ridurre la probabilità di prendere decisioni sbagliate. Probabilità di errore di tipo I consentita solitamente indicato un e chiamato livello di significatività. Il suo valore è generalmente piccolo ( 0,1, 0,05, 0,01, 0,001 ...). Ma una diminuzione della probabilità di un errore di tipo 1 porta ad un aumento della probabilità di un errore di tipo 2 ( b), cioè. il desiderio di accettare solo ipotesi vere provoca un aumento del numero di ipotesi corrette rifiutate. Pertanto, la scelta del livello di significatività è determinata dall'importanza del problema posto e dalla gravità delle conseguenze di una decisione errata.
Testare un'ipotesi statistica consiste nei seguenti passaggi:
1) definizione di ipotesi H 0 e H 1 ;
2) selezione delle statistiche e assegnazione del livello di significatività;
3) definizione dei punti critici K cre e area critica;
4) calcolo del valore delle statistiche dal campione K es;
5) confronto del valore statistico con la regione critica ( K cre e K es);
6) processo decisionale: se il valore della statistica non è compreso nella regione critica, l'ipotesi è accettata H 0 e rifiutare l'ipotesi H 1 , e se entra nella regione critica, l'ipotesi viene respinta H 0 e l'ipotesi è accettata H uno . Allo stesso tempo, i risultati della verifica dell'ipotesi statistica dovrebbero essere interpretati come segue: se l'ipotesi è accettata H 1 , allora possiamo considerarlo provato, e se accettiamo l'ipotesi H 0 , quindi è stato riconosciuto che non contraddice i risultati delle osservazioni.Tuttavia, questa proprietà, insieme a H 0 può avere altre ipotesi.

Classificazione del test di ipotesi

Consideriamo ulteriormente diverse ipotesi statistiche e meccanismi per verificarle.
IO) Ipotesi della media generale della distribuzione normale con varianza sconosciuta. Assumiamo che la popolazione generale abbia una distribuzione normale, la sua media e varianza sono sconosciute, ma c'è motivo di ritenere che la media generale sia uguale a a . A un livello di significatività di α, è necessario verificare l'ipotesi H 0: x=a. In alternativa, può essere utilizzata una delle tre ipotesi sopra discusse. In questo caso, la statistica è una variabile casuale , che ha una distribuzione di Student con n– 1 gradi di libertà. Viene determinato il valore sperimentale (osservato) corrispondente t es t cre H 1: x >a si trova dal livello di significatività α e dal numero di gradi di libertà n– 1. Se t es < t cre H 1: x ≠a il valore critico è ricavato dal livello di significatività α / 2 e altrettanti gradi di libertà. L'ipotesi nulla è accettata se | t ex | II) L'ipotesi dell'uguaglianza di due medie di popolazioni generali distribuite arbitrariamente (grandi campioni indipendenti). A un livello di significatività di α, è necessario verificare l'ipotesi H 0:x≠y. Se il volume di entrambi i campioni è grande, possiamo supporre che le medie campionarie abbiano una distribuzione normale e le loro varianze siano note. In questo caso, una variabile casuale può essere utilizzata come statistica
,
avere una distribuzione normale, e M(Z) = 0, D(Z) = 1. Viene determinato il valore sperimentale corrispondente z es. Dalla tabella della funzione di Laplace si trova il valore critico z cre. Sotto l'ipotesi alternativa H 1: x >y si trova dalla condizione F(z cre) = 0,5 – un. Se una z es< z кр , allora l'ipotesi nulla viene accettata, altrimenti viene respinta. Sotto l'ipotesi alternativa H 1: x ≠ y il valore critico è ricavato dalla condizione F(z cre) = 0,5×(1 – un). L'ipotesi nulla è accettata se | z ex |< z кр .

III) L'ipotesi dell'uguaglianza di due medie di popolazioni generali normalmente distribuite, le cui varianze sono sconosciute e uguali (piccoli campioni indipendenti). Ad un livello di significatività di α, è necessario verificare l'ipotesi principale H 0: x=y . Come statistica, utilizziamo una variabile casuale
,
che ha una distribuzione Student con ( nx + n– 2) gradi di libertà. Viene determinato il valore sperimentale corrispondente t es. Dalla tabella dei punti critici della distribuzione di Student si ricava il valore critico t cre. Tutto è risolto in modo simile all'ipotesi (I).

IV) L'ipotesi dell'uguaglianza di due varianze di popolazioni normalmente distribuite. In questo caso, a livello di significatività un bisogno di verificare l'ipotesi H 0: D(X) = D(Y). La statistica è una variabile casuale , che ha la distribuzione di Fisher-Snedecor con f 1 = nb– 1 e f 2 = nm- 1 gradi di libertà (S 2 b - grande varianza, il volume del suo campione nb). Viene determinato il valore sperimentale (osservato) corrispondente F es. valore critico F cre nell'ipotesi alternativa H 1: D(X) > D(Y) è ricavato dalla tabella dei punti critici della distribuzione Fisher-Snedecor per livello di significatività un e il numero di gradi di libertà f 1 e f 2. L'ipotesi nulla è accettata se F es < F cre.

Istruzione. Per il calcolo, è necessario specificare la dimensione dei dati di origine.

V) L'ipotesi dell'uguaglianza di più varianze di popolazioni normalmente distribuite su campioni della stessa dimensione. In questo caso, a livello di significatività un bisogno di verificare l'ipotesi H 0: D(X 1) = D(X 2) = …= D(Xl). La statistica è una variabile casuale , che ha la distribuzione di Cochran con gradi di libertà f = n– 1 e l (n- la dimensione di ogni campione, lè il numero di campioni). Questa ipotesi è verificata allo stesso modo della precedente. Viene utilizzata la tabella dei punti critici della distribuzione di Cochran.

vi) Ipotesi sul significato della correlazione. In questo caso, a livello di significatività un bisogno di verificare l'ipotesi H 0: r= 0. (Se il coefficiente di correlazione è uguale a zero, le quantità corrispondenti non sono correlate tra loro). In questo caso, la statistica è una variabile casuale
,
avere una distribuzione di Student con f = n– 2 gradi di libertà. La verifica di questa ipotesi viene effettuata in modo simile alla verifica dell'ipotesi (I).

Istruzione. Specificare la quantità di dati di origine.

VII) Ipotesi sul valore della probabilità di accadimento di un evento. Speso abbastanza un gran numero di n prove indipendenti in cui l'evento MA accaduto m una volta. Vi è motivo di ritenere che la probabilità che questo evento si verifichi in una prova sia uguale a p 0. Richiesto a livello di significatività un verificare l'ipotesi che la probabilità di un evento MA uguale alla probabilità ipotetica p 0. (Poiché la probabilità è stimata dalla frequenza relativa, l'ipotesi verificata può essere formulata in un altro modo: la frequenza relativa osservata e la probabilità ipotetica differiscono significativamente o meno).
Il numero di prove è abbastanza grande, quindi la frequenza relativa dell'evento MA distribuito da legge normale. Se l'ipotesi nulla è vera, allora lo è il suo valore atteso p 0 e la varianza. In base a ciò, come statistica, scegliamo una variabile casuale
,
che è distribuito approssimativamente secondo la legge normale con aspettativa matematica zero e varianza unitaria. Questa ipotesi è verificata esattamente allo stesso modo del caso (I).

Istruzione. Per il calcolo è necessario compilare i dati iniziali.

Condividere