Il valore di t se. Calcolo automatico del t-test di Student

​ Il test t di Student è un nome generico per una classe di metodi per la verifica statistica di ipotesi (test statistici) basati sulla distribuzione di Student. I casi più comuni di applicazione del test t sono relativi alla verifica dell'uguaglianza delle medie in due campioni.

1. Storia dello sviluppo del t-test

Questo criterio è stato sviluppato William Gosset per valutare la qualità della birra alla Guinness. In connessione con l'obbligo per l'azienda di non rivelare segreti commerciali, l'articolo di Gosset fu pubblicato nel 1908 sulla rivista Biometrics con lo pseudonimo di "Studente" (Studente).

2. A cosa serve il test t di Student?

Il test t di Student viene utilizzato per determinare la significatività statistica delle differenze medie. Può essere utilizzato sia nei casi di confronto di campioni indipendenti ( ad esempio, gruppi di pazienti con diabete mellito e gruppi di sani), e quando si confrontano insiemi correlati ( ad esempio, la frequenza cardiaca media negli stessi pazienti prima e dopo l'assunzione di un farmaco antiaritmico).

3. Quando può essere utilizzato il t-test di Student?

Per applicare il t-test di Student è necessario che siano presenti i dati originali distribuzione normale. Nel caso di applicazione di un test a due campioni per campioni indipendenti, è anche necessario soddisfare la condizione uguaglianza (omoscedasticità) delle varianze.

Se queste condizioni non sono soddisfatte, quando si confrontano le medie campionarie, dovrebbero essere utilizzati metodi simili. statistica non parametrica, tra i quali i più famosi sono Test U di Mann-Whitney(come test a due campioni per campioni indipendenti) e criterio del segno e Prova di Wilcoxon(usato in caso di campioni dipendenti).

4. Come calcolare il test t di Student?

Per confrontare i valori medi, il test t di Student viene calcolato da seguente formula:

dove M1- media aritmetica della prima popolazione confrontata (gruppo), M2- media aritmetica della seconda popolazione confrontata (gruppo), m 1 - errore medio prima media aritmetica, m2- l'errore medio della seconda media aritmetica.

5. Come interpretare il valore del test t di Student?

Il valore risultante del test t di Student deve essere interpretato correttamente. Per fare ciò, abbiamo bisogno di conoscere il numero di soggetti in ciascun gruppo (n 1 e n 2). Trovare il numero di gradi di libertà f secondo la seguente formula:

f \u003d (n 1 + n 2) - 2

Successivamente, determiniamo il valore critico del test t di Student per il livello di significatività richiesto (ad esempio, p=0,05) e a dato numero gradi di libertà f secondo la tabella ( vedi sotto).

Confrontiamo i valori critici e calcolati del criterio:

  • Se il valore calcolato del test t di Student uguale o maggiore critico, che si trova nella tabella, concludiamo che le differenze tra i valori confrontati sono statisticamente significative.
  • Se il valore del t-test di Student calcolato meno tabulare, il che significa che le differenze tra i valori confrontati non sono statisticamente significative.

6. Un esempio di calcolo del t-test di Student

Per studiare l'efficacia di un nuovo preparato di ferro, sono stati selezionati due gruppi di pazienti con anemia. Nel primo gruppo, i pazienti hanno ricevuto un nuovo farmaco per due settimane e nel secondo gruppo hanno ricevuto un placebo. Successivamente, è stato misurato il livello di emoglobina nel sangue periferico. Nel primo gruppo livello medio l'emoglobina era pari a 115,4±1,2 g/l e nel secondo - 103,7±2,3 g/l (i dati sono presentati nel formato M±m), le popolazioni confrontate hanno una distribuzione normale. Il numero del primo gruppo era 34 e il secondo - 40 pazienti. È necessario trarre una conclusione sulla significatività statistica delle differenze ottenute e sull'efficacia della nuova preparazione di ferro.

Soluzione: Per valutare la significatività delle differenze, utilizziamo il t-test di Student, calcolato come differenza tra le medie divisa per la somma degli errori al quadrato:

Dopo aver eseguito i calcoli, il valore del t-test era pari a 4,51. Troviamo il numero di gradi di libertà come (34 + 40) - 2 = 72. Confrontiamo il valore ottenuto dal test t di Student 4.51 con il valore critico a p=0.05 indicato nella tabella: 1.993. Poiché il valore calcolato del criterio è maggiore del valore critico, concludiamo che le differenze osservate sono statisticamente significative (livello di significatività p<0,05).

Testare un'ipotesi statistica consente di trarre una conclusione rigorosa sulle caratteristiche della popolazione generale sulla base di dati campione. Le ipotesi sono diverse. Uno di questi è l'ipotesi media ( aspettativa matematica). La sua essenza è trarre una conclusione corretta su dove la media generale può o non può essere basata solo sul campione disponibile (non sapremo mai la verità esatta, ma possiamo restringere il cerchio di ricerca).

Viene descritto l'approccio generale alla verifica delle ipotesi, in modo diretto al punto. Assumiamo innanzitutto che il campione sia tratto da un normale insieme di variabili casuali X con media generale μ e dispersione σ2(Lo so, lo so che questo non accade, ma non c'è bisogno che mi interrompa!). La media aritmetica di questo campione è ovviamente di per sé una variabile casuale. Se estraiamo molti di questi campioni e calcoliamo le medie per loro, avranno anche l'aspettativa matematica μ e

Quindi valore casuale

Sorge la domanda: la media generale con una probabilità del 95% sarà entro ±1,96 s x̅. In altre parole, sono le distribuzioni di variabili casuali

equivalente.

Per la prima volta questa domanda è stata sollevata (e risolta) da un chimico che lavorava presso la fabbrica di birra Guinness a Dublino (Irlanda). Il nome del farmacista era William Seeley Gosset e prelevò campioni di birra per l'analisi chimica. A un certo punto, a quanto pare, William iniziò ad avere vaghi dubbi sulla distribuzione delle medie. Si è rivelato essere un po' più diffuso di quanto dovrebbe essere una distribuzione normale.

Dopo aver raccolto una giustificazione matematica e calcolato i valori della funzione di distribuzione da lui scoperta, il chimico di Dublino William Gosset scrisse una nota che fu pubblicata nel numero di marzo 1908 della rivista Biometrics (redattore capo - Karl Pearson) . Perché La Guinness proibiva severamente di svelare i segreti della produzione della birra, Gosset firmò con lo pseudonimo di Student.

Nonostante il fatto che K. Pearson avesse già inventato la distribuzione, tuttavia, l'idea generale di normalità dominava ancora. Nessuno avrebbe pensato che la distribuzione delle stime campionarie potesse non essere normale. Pertanto, l'articolo di W. Gosset è rimasto praticamente inosservato e dimenticato. E solo Ronald Fisher ha apprezzato la scoperta di Gosset. Fischer ha utilizzato la nuova distribuzione nel suo lavoro e le ha dato il nome Distribuzione t di Student. Il criterio per verificare le ipotesi, rispettivamente, è diventato T-test di studente. Quindi c'è stata una "rivoluzione" nella statistica, che è entrata nell'era dell'analisi dei dati del campione. Era una breve digressione nella storia.

Vediamo cosa poteva vedere W. Gosset. Generiamo 20mila campioni normali da 6 osservazioni con media ( X) 50 e deviazione standard ( σ ) 10. Quindi normalizziamo i mezzi di campionamento utilizzando varianza generale:

Raggruppiamo le 20mila medie risultanti in intervalli di 0,1 lunghezze e calcoliamo le frequenze. Tracciamo le distribuzioni di frequenza effettive (Norm) e teoriche (ENorm) delle medie campionarie su un diagramma.

I punti (frequenze osservate) coincidono quasi con la linea (frequenze teoriche). Questo è comprensibile, perché i dati sono presi dalla stessa popolazione generale e le differenze sono solo errori di campionamento.

Facciamo un nuovo esperimento. Normalizziamo le medie usando varianza di campionamento.

Contiamo di nuovo le frequenze e tracciamole sul diagramma come punti, lasciando la linea della distribuzione normale standard per il confronto. Indichiamo la frequenza empirica delle medie, diciamo, attraverso la lettera t.

Si può notare che le distribuzioni questa volta non sono molto simili. Vicino, sì, ma non lo stesso. Le code sono diventate più "pesanti".

Gosset-Student non aveva l'ultima versione di MS Excel, ma questo è esattamente l'effetto che ha notato. Perché è così? La spiegazione è che la variabile casuale

dipende non solo dall'errore di campionamento (numeratore), ma anche dall'errore standard della media (denominatore), che è anche una variabile casuale.

Scopriamo un po' quale distribuzione dovrebbe avere una tale variabile casuale. Innanzitutto, devi ricordare (o imparare) qualcosa dalle statistiche matematiche. Esiste un tale teorema di Fisher, che dice che in un campione da una distribuzione normale:

1. medio X e varianza campionaria s2 sono quantità indipendenti;

2. Il rapporto tra il campione e la varianza generale, moltiplicato per il numero dei gradi di libertà, ha una distribuzione χ 2(chi-quadrato) con lo stesso numero di gradi di libertà, cioè

dove K- il numero di gradi di libertà (in inglese gradi di libertà (d.f.))

Molti altri risultati nelle statistiche dei modelli normali si basano su questa legge.

Torniamo alla distribuzione della media. Dividi il numeratore e il denominatore dell'espressione

sul σX̅. Ottenere

Il numeratore è una normale variabile casuale standard (denotiamo ξ (xi)). Il denominatore può essere espresso dal teorema di Fisher.

Quindi l'espressione originale assumerà la forma

Questo è in termini generali (rapporto di studenti). È già possibile derivare direttamente la sua funzione di distribuzione, perché le distribuzioni di entrambe le variabili casuali in questa espressione sono note. Lasciamo questo piacere ai matematici.

La funzione di distribuzione t di Student ha una formula abbastanza difficile da capire, quindi non ha senso analizzarla. Ad ogni modo, nessuno lo usa, perché. le probabilità sono date in speciali tabelle della distribuzione di Student (a volte chiamate tabelle dei coefficienti di Student), oppure sono martellate in formule PC.

Quindi, armato di nuove conoscenze, sarai in grado di comprendere la definizione ufficiale della distribuzione degli studenti.
Una variabile casuale che obbedisce alla distribuzione di Student con K gradi di libertà è il rapporto di variabili casuali indipendenti

dove ξ distribuito secondo la legge normale standard, e χ 2k soggetto a distribuzione χ 2 c K gradi di libertà.

Quindi, la formula per il criterio di Student per la media aritmetica

è un caso speciale della relazione studentesca

Dalla formula e dalla definizione consegue che la distribuzione del test t di Student dipende solo dal numero di gradi di libertà.

In K> 30 t-test praticamente non differisce dalla distribuzione normale standard.

A differenza del chi quadrato, il test t può essere a una o due code. Di solito viene utilizzato a due code, supponendo che la deviazione possa verificarsi in entrambe le direzioni dalla media. Ma se la condizione del problema consente una deviazione solo in una direzione, allora è ragionevole applicare un criterio unilaterale. Questo aumenta leggermente la potenza, tk. a un livello di significatività fisso, il valore critico si avvicina leggermente a zero.

Condizioni per l'applicazione del t-test di Student

Nonostante il fatto che la scoperta di Student un tempo abbia fatto una rivoluzione nella statistica, il t-test è ancora piuttosto limitato nella sua applicabilità, perché stesso deriva dal presupposto di distribuzione normale dati iniziali. Se i dati non sono normali (come di solito accade), il test t non avrà più una distribuzione di Student. Tuttavia, a causa della centrale teorema limite la media, anche per dati anomali, acquisisce rapidamente una distribuzione a campana.

Si consideri, ad esempio, dati che presentano un'inclinazione pronunciata a destra, come una distribuzione chi-quadrato con 5 gradi di libertà.

Ora creiamo 20mila campioni e osserviamo come cambia la distribuzione dei mezzi a seconda della loro dimensione.

La differenza è abbastanza evidente in piccoli campioni fino a 15-20 osservazioni. Ma poi scompare rapidamente. Pertanto, l'anomalia della distribuzione non è, ovviamente, buona, ma non critica.

Soprattutto, il criterio t ha "paura" dei valori anomali, ad es. deviazioni anomale. Prendiamo 20mila campioni normali di 15 osservazioni e aggiungiamo un valore anomalo casuale ad alcune di esse.

L'immagine è infelice. Le frequenze effettive delle medie sono molto diverse da quelle teoriche. Usare la distribuzione t in una situazione del genere diventa un'impresa molto rischiosa.

Quindi, in campioni non molto piccoli (da 15 osservazioni), il t-test è relativamente resistente alla distribuzione non normale dei dati iniziali. Ma i valori anomali nei dati distorcono fortemente la distribuzione del test t, che, a sua volta, può portare a errori di inferenza statistica, quindi le osservazioni anomale dovrebbero essere eliminate. Spesso, tutti i valori che non rientrano di ±2 deviazioni standard dalla media vengono rimossi dal campione.

Un esempio di verifica dell'ipotesi di aspettativa matematica utilizzando il test t di Student in MS Excel

Excel ha diverse funzioni relative alla distribuzione t. Consideriamoli.

STUDENT.DIST - "classica" distribuzione t di Student sul lato sinistro. L'input è il valore del criterio t, il numero di gradi di libertà e l'opzione (0 o 1) che determina ciò che deve essere calcolato: la densità o il valore della funzione. In uscita, otteniamo, rispettivamente, la densità o la probabilità che la variabile casuale sia minore del criterio t specificato nell'argomento, cioè valore p per mancini.

STUDENT.DIST.2X - distribuzione bidirezionale. Il valore assoluto (modulo) del criterio t e il numero di gradi di libertà sono dati come argomento. In uscita, otteniamo la probabilità di ottenere tale o anche più valore del criterio t (modulo), cioè livello di significatività effettivo (valore p).

STUDENT.DIST.RH - distribuzione t destrorsa. Quindi, 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PX(2;5) = 0,05097. Se il test t è positivo, la probabilità risultante è il valore p.

INV.STUDENTE - utilizzato per calcolare il reciproco sinistro della distribuzione t. L'argomento è la probabilità e il numero di gradi di libertà. In uscita, otteniamo il valore del criterio t corrispondente a questa probabilità. La probabilità è contata a sinistra. Pertanto, il livello di significatività stesso è necessario per la coda sinistra α , e per la destra 1 - α .

STUDENT.ORD.2X è il reciproco della distribuzione di Student a due code, cioè valore t-test (modulo). Il livello di significatività viene fornito anche come input. α . Solo che questa volta, il conto alla rovescia è da entrambi i lati allo stesso tempo, quindi la probabilità è distribuita su due code. Quindi, STUDENTE.OBR (1-0,025; 5) \u003d STUDENTE.OBR.2X (0,05; 5) \u003d 2,57058

STUDENT.TEST è una funzione per verificare l'ipotesi sull'uguaglianza delle aspettative matematiche in due campioni. Sostituisce un mucchio di calcoli, perché. è sufficiente specificare solo due intervalli con dati e un paio di parametri in più. L'output sarà il valore p.

FIDUCIA DELLO STUDENTE - calcolo dell'intervallo di confidenza della media, tenendo conto della distribuzione t.

Considera questo argomento di studio. L'azienda confeziona cemento in sacchi da 50 kg. Per caso, in un unico sacco, è consentita una certa deviazione dalla massa prevista, ma la media generale dovrebbe rimanere di 50 kg. Il reparto controllo qualità ha pesato casualmente 9 sacchi ottenendo i seguenti risultati: peso medio ( X) ammontava a 50,3 kg, la deviazione standard ( S) - 0,5 kg.

Il risultato è coerente con l'ipotesi nulla che la media generale sia di 50 kg? In altre parole, è possibile ottenere un risultato del genere per puro caso, se l'attrezzatura funziona correttamente e produce un ripieno medio di 50 kg? Se l'ipotesi non viene rifiutata, la differenza risultante si inserisce nell'intervallo delle fluttuazioni casuali, ma se l'ipotesi viene rifiutata, molto probabilmente si è verificato un guasto nelle impostazioni dell'apparato che riempie i sacchetti. Deve essere controllato e regolato.

Una breve condizione nella notazione generalmente accettata è simile a questa.

H0: μ = 50 kg

H a: μ ≠ 50 kg

Vi sono ragioni per presumere che la distribuzione dell'occupazione del bagaglio segua una distribuzione normale (o non differisca molto da essa). Quindi, per verificare l'ipotesi dell'aspettativa matematica, puoi usare il test t di Student. Deviazioni casuali possono verificarsi in entrambe le direzioni, quindi è necessario un test t a due code.

Innanzitutto, applichiamo mezzi antidiluviani: calcolando manualmente il test t e confrontandolo con un valore critico della tabella. Test t stimato:

Ora determiniamo se il numero risultante va oltre il livello critico a livello di significatività α = 0,05. Usiamo la tabella di distribuzione t di Student (disponibile in qualsiasi libro di testo di statistica).

Le colonne mostrano la probabilità del lato destro della distribuzione, le righe mostrano il numero di gradi di libertà. Siamo interessati a un test t a due code con un livello di significatività di 0,05, che equivale al valore t per metà del livello di significatività a destra: 1 - 0,05 / 2 = 0,975. Il numero di gradi di libertà è la dimensione del campione meno 1, cioè 9 - 1 = 8. All'intersezione, troviamo il valore tabulare del test t - 2,306. Se usiamo la distribuzione normale standard, il punto critico sarebbe 1,96, ma qui è di più, perché La distribuzione t su piccoli campioni ha una forma più appiattita.

Confrontiamo il valore effettivo (1,8) e quello tabulare (2,306). Il criterio calcolato è risultato inferiore a quello tabulare. Pertanto, i dati disponibili non contraddicono l'ipotesi H 0 che la media generale sia di 50 kg (ma non lo dimostrano nemmeno). Questo è tutto ciò che possiamo scoprire usando le tabelle. Ovviamente puoi ancora provare a trovare il valore p, ma sarà approssimativo. E, di regola, il valore p viene utilizzato per verificare le ipotesi. Passiamo quindi a Excel.

Non esiste una funzione già pronta per calcolare il test t in Excel. Ma questo non è spaventoso, perché la formula del test t di Student è abbastanza semplice e può essere facilmente compilata direttamente in una cella di Excel.

Ottenuto lo stesso 1.8. Cerchiamo prima di tutto il valore critico. Prendiamo alfa 0,05, il criterio è bilaterale. Abbiamo bisogno di una funzione del valore inverso della distribuzione t per l'ipotesi a due code STUDENT.OBR.2X.

Il valore risultante taglia la regione critica. Il test t osservato non rientra in esso, quindi l'ipotesi non viene respinta.

Tuttavia, questo è lo stesso modo di verificare un'ipotesi con un valore di tabella. Sarà più informativo calcolare il p-value, cioè la probabilità di ottenere la deviazione osservata o anche maggiore dalla media di 50 kg se questa ipotesi è corretta. Avrai bisogno di una funzione di distribuzione di Student per l'ipotesi a due code STUDENT.DIST.2X.

Il valore P è uguale a 0,1096, che è più del livello di significatività accettabile di 0,05 - non rifiutiamo l'ipotesi. Ma ora possiamo giudicare il grado di evidenza. Il valore p è risultato essere abbastanza vicino al livello quando l'ipotesi è stata respinta, e questo porta a pensieri diversi. Ad esempio, che il campione era troppo piccolo per rilevare una deviazione significativa.

Supponiamo che dopo un po' il reparto di controllo abbia deciso di nuovo di controllare come è stato mantenuto lo standard di riempimento del sacco. Questa volta, per una maggiore affidabilità, non sono state selezionate 9, ma 25 borse. È intuitivamente chiaro che la diffusione della media diminuirà e, quindi, le possibilità di trovare un guasto nel sistema aumentano.

Diciamo che la prima volta sono stati ottenuti gli stessi valori della media e della deviazione standard per il campione (rispettivamente 50,3 e 0,5). Calcoliamo il t-test.


Il valore critico per 24 gradi di libertà e α = 0,05 è 2,064. L'immagine seguente mostra che il t-test rientra nell'area del rifiuto dell'ipotesi.

Si può concludere che con una probabilità di confidenza superiore al 95%, la media generale differisce da 50 kg. Per essere più convincenti, diamo un'occhiata al valore p (l'ultima riga della tabella). La probabilità di ottenere una media con questa o anche una deviazione maggiore da 50, se l'ipotesi è corretta, è 0,0062, ovvero 0,62%, che è quasi impossibile con una singola misurazione. In generale, rifiutiamo l'ipotesi come improbabile.

Calcolo di un intervallo di confidenza utilizzando la distribuzione t di Student

Strettamente correlato alla verifica delle ipotesi è un altro metodo statisticocalcolo degli intervalli di confidenza. Se il valore corrispondente all'ipotesi nulla rientra nell'intervallo ottenuto, ciò equivale al fatto che ipotesi nulla non viene rifiutato. In caso contrario, l'ipotesi viene respinta con il livello di confidenza appropriato. In alcuni casi, gli analisti non verificano affatto le ipotesi nella forma classica, ma calcolano solo gli intervalli di confidenza. Questo approccio consente di estrarre informazioni ancora più utili.

Calcoliamo gli intervalli di confidenza per la media a 9 e 25 osservazioni. Per questo usiamo Funzione Excel FIDUCIA STUDENTE. Qui, stranamente, tutto è abbastanza semplice. Negli argomenti della funzione, è necessario specificare solo il livello di significatività α , deviazione standard per campione e dimensione del campione. In output, otteniamo la metà dell'intervallo di confidenza, ovvero il valore che deve essere accantonato su entrambi i lati della media. Dopo aver eseguito i calcoli e disegnato un diagramma visivo, otteniamo quanto segue.

Come si vede, con un campione di 9 osservazioni il valore di 50 rientra nell'intervallo di confidenza (l'ipotesi non viene rifiutata), e con 25 osservazioni non cade (l'ipotesi viene rifiutata). Allo stesso tempo, nell'esperimento con 25 sacchi, si può sostenere che con una probabilità del 97,5%, la media generale supera i 50,1 kg (il limite inferiore dell'intervallo di confidenza è 50,094 kg). E questa è un'informazione piuttosto preziosa.

Abbiamo quindi risolto lo stesso problema in tre modi:

1. Un approccio antico, confrontando il valore calcolato e tabulare del criterio t
2. Più moderno calcolando il p-value, aggiungendo un grado di confidenza nel rifiutare l'ipotesi.
3. Ancora più informativo calcolando l'intervallo di confidenza e ottenendo il valore minimo della media generale.

È importante ricordare che il t-test si riferisce a metodi parametrici, perché basato su una distribuzione normale (ha due parametri: media e varianza). Pertanto, per la sua applicazione di successo, sono importanti almeno la normalità approssimativa dei dati iniziali e l'assenza di valori anomali.

Infine, propongo di guardare un video su come eseguire i calcoli relativi al t-test di Student in Excel.

dove f è il grado di libertà, che è definito come

Esempio . Due gruppi di studenti sono stati formati secondo due metodi differenti. Al termine della formazione, durante il corso è stato svolto un test. È necessario valutare quanto siano significative le differenze nelle conoscenze acquisite. I risultati del test sono presentati nella tabella 4.

Tabella 4

Calcola la media campionaria, la varianza e la deviazione standard:

Determinare il valore di t p con la formula t p = 0,45

Secondo la tabella 1 (vedi Appendice), troviamo il valore critico t k per il livello di significatività p = 0,01

Conclusione: poiché il valore calcolato del criterio è inferiore al valore critico di 0,45<2,88 гипотеза Но подтверждается и существенных различий в методиках обучения нет на уровне значимости 0,01.

Algoritmo per il calcolo del t-test di Student per campioni dipendenti di misure

1. Determinare il valore calcolato del criterio t utilizzando la formula

, dove

2. Calcolare il grado di libertà f

3. Determinare il valore critico della prova t secondo la tabella 1 dell'appendice.

4. Confronta i valori calcolati e critici del criterio t. Se il valore calcolato è maggiore o uguale al valore critico, l'ipotesi di uguaglianza delle medie nei due campioni di variazione viene rifiutata (But). In tutti gli altri casi si assume un determinato livello di significatività.

u- criterioManna- Whitney

Scopo del criterio

Il criterio è volto a valutare le differenze tra due campioni non parametrici in termini di livello di qualsiasi tratto, misurato quantitativamente. Consente di individuare differenze tra piccoli campioni quando n< 30.

Descrizione del criterio

Questo metodo determina se l'area di sovrapposizione dei valori tra due serie è sufficientemente piccola. Più piccola è questa area, più è probabile che le differenze siano significative. Il valore empirico del criterio U riflette l'ampiezza della zona di coincidenza tra le righe. Pertanto, più piccola è la U, più è probabile che le differenze siano significative.

Ipotesi

MA: Il livello della funzione nel gruppo 2 non è inferiore al livello della funzione nel gruppo 1.

HI: Il livello del tratto nel gruppo 2 è inferiore al livello del tratto nel gruppo 1.

Algoritmo per il calcolo del criterio di Mann-Whitney (u)

    Trasferire tutti i dati dei soggetti su singole carte.

    Segna le carte dei soggetti del campione 1 con un colore, diciamo rosso, e tutte le carte del campione 2 con un altro, ad esempio il blu.

    Disponi tutte le carte in un'unica riga in base al grado di crescita dell'attributo, indipendentemente dal campione a cui appartengono, come se stessimo lavorando con un campione grande.


dove n 1 è il numero di soggetti nel campione 1;

n 2 - il numero di soggetti nel campione 2,

T x - la maggiore delle due somme rand;

n x - il numero di soggetti nel gruppo con una maggiore somma di gradi.

9. Determinare i valori critici di U secondo la tabella 2 (vedi Appendice).

Se U emp.> U kr0.05, l'ipotesi Ma è accettata. Se U emp. ≤ U cr, viene rifiutato. Come meno valore U, maggiore è l'affidabilità delle differenze.

Esempio. Confronta l'efficacia di due metodi di insegnamento in due gruppi. I risultati del test sono presentati nella tabella 5.

Tabella 5

Trasferiamo tutti i dati in un'altra tabella, evidenziando con una sottolineatura i dati del secondo gruppo e facciamo il ranking del campione totale (vedi l'algoritmo di ranking nelle linee guida per il task 3).

I valori

Trova la somma dei ranghi di due campioni e scegli il più grande di essi: T x = 113

Calcoliamo il valore empirico del criterio secondo la formula 2: U p = 30.

Determiniamo il valore critico del criterio dalla Tabella 2 dell'Appendice ad un livello di significatività p = 0,05: U k = 19.

Conclusione: dal valore calcolato del criteriouè maggiore del livello critico al livello di significatività p = 0,05 e 30 > 19, allora si accetta l'ipotesi dell'uguaglianza dei mezzi e le differenze nei metodi di insegnamento sono insignificanti.

Nel corso dell'esempio, utilizzeremo informazioni fittizie in modo che il lettore possa effettuare autonomamente le trasformazioni necessarie.

Quindi, ad esempio, nel corso della ricerca, abbiamo studiato l'effetto del farmaco A sul contenuto della sostanza B (in mmol/g) nel tessuto C e la concentrazione della sostanza D nel sangue (in mmol/l) nei pazienti diviso secondo un criterio E in 3 gruppi di uguale volume (n = 10). I risultati di questo studio fittizio sono riportati nella tabella:

Contenuto di sostanza B, mmol/g

Sostanza D, mmol/l

aumento della concentrazione


Ci teniamo a segnalarvi che i campioni di dimensione 10 sono da noi considerati per facilità di presentazione dei dati e dei calcoli; in pratica, una tale dimensione del campione di solito non è sufficiente per trarre una conclusione statistica.

A titolo di esempio, consideriamo i dati della 1a colonna della tabella.

Statistiche descrittive

campione medio

La media aritmetica, che molto spesso viene indicata semplicemente come "media", si ottiene sommando tutti i valori e dividendo tale somma per il numero di valori nell'insieme. Questo può essere mostrato usando una formula algebrica. Un insieme di n osservazioni di una variabile x può essere rappresentato come x 1 , x 2 , x 3 , ..., x n

La formula per determinare la media aritmetica delle osservazioni (pronunciata "X con un trattino"):

\u003d (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Varianza di campionamento

Un modo per misurare la dispersione dei dati è determinare quanto ogni osservazione devia dalla media aritmetica. Ovviamente, maggiore è la deviazione, maggiore è la variabilità, la variabilità delle osservazioni. Tuttavia, non possiamo utilizzare la media di queste deviazioni come misura della dispersione, perché le deviazioni positive compensano le deviazioni negative (la loro somma è zero). Per risolvere questo problema, quadra ogni deviazione e trova la media delle deviazioni al quadrato; questa quantità è chiamata variazione o dispersione. Prendi n osservazioni x 1, x 2, x 3, ..., x n, media che è uguale. Calcoliamo la dispersione questo, di solito indicato comes2,queste osservazioni:

La varianza campionaria di questo indicatore è s 2 = 3,2.

Deviazione standard

La deviazione standard (quadrato medio della radice) è positiva Radice quadrata dalla dispersione. Ad esempio, n osservazioni, appare così:

Possiamo pensare alla deviazione standard come una sorta di deviazione media delle osservazioni dalla media. Viene calcolato nelle stesse unità (dimensioni) dei dati originali.

s = sqrt (s 2) = sqrt (3,2) = 1,79 .

Il coefficiente di variazione

Se dividi la deviazione standard per la media aritmetica ed esprimi il risultato in percentuale, ottieni il coefficiente di variazione.

CV = (1,79 / 13,1) * 100% = 13,7

Esempio di errore medio

1,79/sqrt(10) = 0,57;

Coefficiente di Student t (t-test su un campione)

Viene utilizzato per verificare l'ipotesi sulla differenza tra il valore medio e un valore noto m

Il numero di gradi di libertà è calcolato come f=n-1.

In questo caso, l'intervallo di confidenza per la media è compreso tra i limiti di 11,87 e 14,39.

Per il livello di confidenza del 95%, m=11,87 o m=14,39, ovvero = |13,1-11,82| = |13.1-14.38| = 1,28

Di conseguenza, in questo caso, per il numero di gradi di libertà f = 10 - 1 = 9 e il livello di confidenza del 95% t=2,26.

Finestra di dialogo Statistiche e tabelle di base

Nel modulo Statistiche e tabelle di base scegliere Statistiche descrittive.

Si aprirà una finestra di dialogo Statistiche descrittive.

In campo Variabili scegliere Gruppo 1.

Premendo OK, otteniamo tabelle di risultati con statistiche descrittive delle variabili selezionate.

Si aprirà una finestra di dialogo T-test a un campione.

Supponiamo di sapere che il contenuto medio di sostanza B nel tessuto C è 11.

La tabella dei risultati con le statistiche descrittive e il t-test di Student è la seguente:

Abbiamo dovuto respingere l'ipotesi che il contenuto medio di sostanza B nel tessuto C sia 11.

Poiché il valore calcolato del criterio è maggiore di quello tabulare (2.26), l'ipotesi nulla viene rifiutata al livello di significatività prescelto e le differenze tra il campione e il valore noto sono riconosciute come statisticamente significative. Pertanto, la conclusione sull'esistenza di differenze, fatta utilizzando il criterio di Student, viene confermata utilizzando questo metodo.

Il t-test è stato sviluppato da William Gosset (1876-1937) per valutare la qualità della birra nei birrifici Guinness di Dublino, in Irlanda. In connessione con gli obblighi nei confronti dell'azienda per la non divulgazione di segreti commerciali (la dirigenza della Guinness considerava tale uso dell'apparato statistico nel loro lavoro), l'articolo di Gosset fu pubblicato nel 1908 sulla rivista "Biometrics" con lo pseudonimo di "Student" ( Alunno).

Il criterio dello studente è volto a valutare le differenze nei valori valori medi due campioni che sono distribuiti secondo la legge normale. Uno dei principali vantaggi del criterio è l'ampiezza della sua applicazione. Può essere utilizzato per confrontare y significa e i campioni potrebbero non essere di dimensioni uguali.

Condizioni per l'applicazione del t-test di Student

Per applicare il t-test di Student, devono essere soddisfatte le seguenti condizioni:

1. La misurazione può essere.
2. I campioni da confrontare devono essere distribuiti a norma di legge.

Calcolo automatico del t-test di Student

Passo 1

Per eseguire un calcolo corretto utilizzando questo script, è necessario:

1) Selezionare il calcolo per il caso con campioni disconnessi (indipendenti) o collegati (dipendenti).

2) Immettere nella prima colonna ("Campione 1") i dati del primo campione e nella seconda colonna ("Campione 2") i dati del secondo campione. I dati vengono inseriti un numero per riga; senza spazi, vuoti, ecc. Vengono inseriti solo i numeri. Numeri frazionari vengono inseriti con un "." (punto).

3) Dopo aver compilato le colonne, fare clic sul pulsante "Fase 2" per calcolare automaticamente il t-test di Student.

Condividere