Come analizzare piccoli campioni e descrivere i risultati. Bootstrap, piccoli campioni, applicazione nell'analisi dei dati

Quando si controlla la qualità dei beni nella ricerca economica, l'esperimento può essere condotto sulla base di un piccolo campione.

Sotto piccolo campioneè intesa come un'indagine statistica non continua, in cui la popolazione campionaria è formata da un numero relativamente piccolo di unità della popolazione generale. Il volume di un piccolo campione di solito non supera le 30 unità e può arrivare fino a 4-5 unità.

Nel commercio, si ricorre a una dimensione minima del campione quando un campione ampio non è possibile o non è pratico (ad esempio, se lo studio comporta il deterioramento o la distruzione dei campioni in esame).

Il valore dell'errore di un piccolo campione è determinato da formule diverse dalle formule per l'osservazione di un campione con una dimensione del campione relativamente grande (n>100). Errore medio di un piccolo campione u(mu)m.v. calcolato con la formula:

um.v \u003d radice (Gsquare (m.v.) . / n),

dove Gsquare(m.v.) è la varianza di un piccolo campione. *questo è il sigma*

Secondo la formula (il numero c'è) abbiamo:

G0quadrato=Gquadrato *n/ (n-1).

Ma poiché con un piccolo campione n/(n-1) è significativo, il calcolo della varianza di un piccolo campione viene effettuato tenendo conto del cosiddetto numero di gradi di libertà. Il numero di gradi di libertà è inteso come il numero di opzioni che possono assumere valori arbitrari senza modificare il valore medio. Quando si determina la varianza Gsquare, il numero di gradi di libertà è n-1:

Gsquare (m.v.) \u003d sum (xi-x (con una linea ondulata)) / (n-1).

L'errore marginale di un piccolo campione Dm.v. (segno del triangolo) è determinato dalla formula:

In questo caso, il valore del coefficiente di confidenza t dipende non solo dalla probabilità di confidenza data, ma anche dal numero di unità campionarie n. Per i singoli valori di t e n, la probabilità di confidenza di un piccolo campione è determinata da apposite tabelle di Student, in cui sono fornite le distribuzioni delle deviazioni standardizzate:

t= (x(con una linea ondulata) –x(con una linea)) / Gm.v.

Le tabelle degli studenti sono fornite nei libri di testo di statistica matematica. Ecco alcuni valori di queste tabelle che caratterizzano la probabilità che l'errore marginale di un piccolo campione non superi t volte l'errore medio:

St=P[(x(con una linea ondulata) –x(con una linea)

All'aumentare della dimensione del campione, la distribuzione di Student si avvicina alla distribuzione normale e a 20 differisce già poco dalla distribuzione normale.

Quando si effettuano piccole indagini campionarie, è importante tenere presente che minore è la dimensione del campione, maggiore è la differenza tra la distribuzione dello Studente e distribuzione normale. Con una dimensione minima del campione (n=4), questa differenza è molto significativa, il che indica una diminuzione dell'accuratezza dei risultati di un piccolo campione.

Attraverso un piccolo campione in commercio si risolvono alcuni problemi pratici, primo fra tutti la fissazione di un limite entro il quale si colloca la media generale del tratto oggetto di studio.

Poiché quando si esegue un piccolo campione, il valore di 0,95 o 0,99 viene praticamente preso come probabilità di confidenza, quindi per determinare l'errore di campionamento marginale Dm.v. Vengono utilizzate le seguenti letture di distribuzione dello Studente.

Campioni in cui l'osservazione copre un numero esiguo di unità (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

L'errore marginale di un piccolo campione è determinato dalla formula:

Errore medio di un piccolo campione:

dove è la varianza di un piccolo campione:

dove è il valore medio della caratteristica nel campione;

Numero di gradi di libertà

Coefficiente di confidenza di un piccolo campione, che dipende non solo da una data probabilità di confidenza, ma anche dal numero di unità campionarie.

La probabilità che la media generale rientri in determinati limiti è determinata dalla formula

dove è il valore della funzione di Student.

Per calcolare il coefficiente di confidenza, il valore della funzione è determinato dalla formula:

Quindi, secondo la tabella di distribuzione dello Studente (vedi Appendice 4), a seconda del valore della funzione e del numero di gradi, il valore viene determinato.

La funzione viene utilizzata anche per determinare le probabilità che la deviazione normalizzata effettiva non superi il valore della tabella.


Argomento 7. Studio statistico della relazione: Il concetto di connessione statistica. Tipi e forme di connessione statistica. Compiti di studio statistico della relazione dei fenomeni. Caratteristiche dei legami dei fenomeni socio-economici. Metodi di base dello studio statistico delle relazioni.

correlazione - una relazione che non compare in ogni singolo caso, ma nella massa dei casi in valori medi sotto forma di trend.

Studio statistico mira a ottenere un modello di dipendenza per il suo uso pratico. La soluzione di questo problema viene eseguita nella sequenza seguente.

1. Analisi logica dell'essenza del fenomeno oggetto di studio e delle relazioni di causa ed effetto. Di conseguenza, l'indicatore di performance è impostato (y), fattori del suo cambiamento, caratterizzati da indicatori (x (, x 2, x 3,..., X"). Relazione di due caratteristiche (A e X) chiamata correlazione di coppia. Viene chiamata l'influenza di diversi fattori sulla caratteristica effettiva correlazione multipla.

Nella direzione generale della comunicazione può essere dritto e inversione. Con collegamenti diretti con un aumento del tratto X anche il segno aumenta si, con rovescio - con un segno di aumento X cartello A diminuisce.

2. Raccolta delle informazioni primarie e verifica dell'omogeneità e della distribuzione normale. Per valutare l'omogeneità della popolazione viene utilizzato il coefficiente di variazione per caratteristiche fattoriali

L'insieme è considerato omogeneo se il coefficiente di variazione non supera il 33%. Verifica della normalità della distribuzione dei segni dei fattori studiati ( x ( , x 2 , x 3 ,..., X") effettuata utilizzando la regola dei tre sigma. I risultati del test per la distribuzione normale devono essere presentati in forma tabellare.

Statistiche di piccoli campioni

È generalmente accettato che l'inizio di S. m. o, come viene spesso chiamata, statistica “small n”, è stata stabilita nel primo decennio del 20° secolo dalla pubblicazione dell'opera di W. Gosset, in cui collocava la t-distribution postulata dallo “studente” che in seguito ha guadagnato fama mondiale. All'epoca, Gosset lavorava come statistico per i birrifici della Guinness. Uno dei suoi compiti era quello di analizzare lotti successivi di botti di birra stout appena prodotta. Per ragioni che in realtà non ha mai spiegato, Gosset sperimentò l'idea di ridurre notevolmente il numero di campioni prelevati da un largo numero botti nei magazzini del birrificio, per il controllo selettivo della qualità del facchino. Questo lo ha portato a postulare la distribuzione t. Poiché la carta dei birrifici della Guinness vietava ai propri dipendenti di pubblicare i risultati dello studio, Gosset ha pubblicato i risultati del suo esperimento confrontando il controllo della qualità del campionamento utilizzando una distribuzione t di piccoli campioni e una distribuzione z tradizionale (distribuzione normale) in modo anonimo, sotto il pseudonimo "Studente" (Studente - da dove deriva la distribuzione del nome t-Studente).

distribuzione t. La teoria della distribuzione t, come la teoria della distribuzione z, viene utilizzata per testare ipotesi nulla che i due campioni sono semplicemente campioni casuali della stessa popolazione e quindi le statistiche calcolate (es. media e deviazione standard) essendo stime imparziali dei parametri della popolazione generale. Tuttavia, a differenza della teoria della distribuzione normale, la teoria della distribuzione t per piccoli campioni non richiede conoscenze a priori o stime esatte aspettativa matematica e varianza della popolazione generale. Inoltre, sebbene testare la differenza tra le medie di due grandi campioni per la significatività statistica richieda un'assunzione fondamentale sulla distribuzione normale delle caratteristiche della popolazione, la teoria della distribuzione t non richiede assunzioni sui parametri.

È noto che le caratteristiche normalmente distribuite sono descritte da un'unica curva: la curva gaussiana, che soddisfa la seguente equazione:

Con una distribuzione t, un'intera famiglia di curve è rappresentata dalla seguente formula:

Ecco perché l'equazione per t include la funzione gamma, che in matematica significa che al variare di n questa equazione soddisferà un'altra curva.

Gradi di libertà

Nell'equazione per t, n indica il numero di gradi di libertà (df) associati alla stima della varianza della popolazione (S2), che è il secondo momento di qualsiasi funzione generatrice di momenti, come l'equazione per la distribuzione t. In S., il numero di gradi di libertà indica quante caratteristiche sono rimaste libere dopo il loro utilizzo parziale in un particolare tipo di analisi. In una distribuzione t, una delle deviazioni dalla media campionaria è sempre fissa, poiché la somma di tutte queste deviazioni deve essere uguale a zero. Ciò influisce sulla somma dei quadrati nel calcolo della varianza campionaria come stima imparziale del parametro S2 e porta al fatto che si ottiene df uguale al numero misurazioni meno uno per ogni campione. Quindi, nelle formule e nelle procedure per calcolare la statistica t per verificare l'ipotesi nulla df = n - 2.

Divisione F-spazio. L'ipotesi nulla verificata dal t-test è che i due campioni siano stati estratti casualmente dalla stessa popolazione o siano stati estratti casualmente da due diverse popolazioni con la stessa varianza. Ma cosa succede se è necessario analizzare più gruppi? La risposta a questa domanda è stata cercata per vent'anni dopo che Gosset ha scoperto la distribuzione t. Due dei più importanti statistici del 20° secolo sono stati direttamente coinvolti nella sua produzione. Uno: il più grande statistico inglese R. A. Fisher, che ha proposto la prima teoria. formulazioni, il cui sviluppo ha portato alla distribuzione F; il suo lavoro sulla teoria dei piccoli campioni, sviluppando le idee di Gosset, fu pubblicato a metà degli anni '20 (Fisher, 1925). Un altro è George Snedecor, uno dei primi statistici americani, che ha sviluppato un modo per confrontare due campioni indipendenti di qualsiasi dimensione calcolando il rapporto di due stime della varianza. Ha chiamato questo rapporto il rapporto F, dopo Fischer. Risultati della ricerca. Snedekor ha portato al fatto che la distribuzione F iniziò a essere specificata come la distribuzione del rapporto di due statistiche c2, ciascuna con i propri gradi di libertà:

Da qui nacque il classico lavoro di Fisher sull'analisi della varianza, una tecnica statistica esplicitamente orientata all'analisi di piccoli campioni.

La distribuzione campionaria F (dove n = df) è rappresentata dalla seguente equazione:

Come nel caso della distribuzione t, la funzione gamma indica che esiste una famiglia di distribuzioni che soddisfa l'equazione per F. In questo caso, tuttavia, l'analisi include due quantità di df: il numero di gradi di libertà per il numeratore e per il denominatore del rapporto F.

Tabelle per la stima delle statistiche t e F. Quando si verifica l'ipotesi nulla utilizzando C. in base alla teoria dei campioni di grandi dimensioni, di solito è richiesta solo una tabella di riferimento: la tabella delle deviazioni normali (z), che consente di determinare l'area sotto la curva normale tra due valori qualsiasi di z sull'asse x. Tuttavia, le tabelle per le distribuzioni t e F sono necessariamente presentate in una serie di tabelle, poiché queste tabelle si basano su distribuzioni multiple risultanti dalla variazione del numero di gradi di libertà. Sebbene le distribuzioni t e F siano distribuzioni di densità di probabilità, come la distribuzione normale per grandi campioni, differiscono da quest'ultima per i quattro momenti usati per descriverle. La distribuzione t, ad esempio, è simmetrica (notare t2 nella sua equazione) per tutti i df, ma diventa sempre più con un picco al diminuire della dimensione del campione. Le curve con picco (con curtosi maggiore del normale) tendono ad essere meno asintotiche (cioè più vicine all'asse x alle estremità della distribuzione) rispetto alle curve con curtosi normale, come la curva gaussiana. Questa differenza porta a notevoli discrepanze tra i punti sull'asse x corrispondenti ai valori di t e z. Con df = 5 e livello bilaterale a pari a 0,05, t = 2,57, mentre il corrispondente z = 1,96. Pertanto, t = 2,57 indica una significatività statistica al livello del 5%. Tuttavia, nel caso di una curva normale, z = 2,57 (più precisamente 2,58) indicherebbe già un livello di significatività statistica dell'1%. Confronti simili possono essere effettuati con la distribuzione F, poiché t è uguale a F quando il numero di campioni è due.

Cosa costituisce un "piccolo" campione?

Un tempo veniva sollevata la domanda su quanto grande dovesse essere il campione per essere considerato piccolo. Semplicemente non c'è una risposta definitiva a questa domanda. Tuttavia, è consuetudine considerare df = 30 come un confine condizionale tra un campione piccolo e uno grande.La base di questa decisione alquanto arbitraria è il risultato del confronto della distribuzione t con la distribuzione normale. Come notato sopra, la discrepanza tra i valori di t e z tende ad aumentare al diminuire e diminuire all'aumentare df. Infatti, t inizia ad avvicinarsi a z molto prima del caso limite quando t = z per df = ∞. Un semplice esame visivo dei valori tabulari di t consente di vedere che questa approssimazione diventa abbastanza veloce, a partire da df = 30 e oltre. I valori comparativi di t (a df = 30) e z sono rispettivamente: 2,04 e 1,96 per p = 0,05; 2,75 e 2,58 per p = 0,01; 3,65 e 3,29 per p = 0,001.

Altre statistiche per campioni "piccoli".

Sebbene i test statistici come t e F siano specificamente progettati per essere applicati a piccoli campioni, sono ugualmente applicabili a campioni di grandi dimensioni. Ce ne sono però molti altri. metodi statistici, destinato all'analisi di piccoli campioni e spesso utilizzato a tale scopo. Intendono i cosiddetti. metodi non parametrici o senza distribuzione. Fondamentalmente, le S. che compaiono in questi metodi sono destinate ad essere applicate a misurazioni ottenute utilizzando scale che non soddisfano la definizione di rapporto o scale di intervallo. Molto spesso si tratta di misurazioni ordinali (rango) o nominali. S. non parametrici non richiedono ipotesi sui parametri della distribuzione, in particolare rispetto alle stime della varianza, perché le scale ordinali e nominali escludono il concetto stesso di varianza. Per questo motivo, i metodi non parametrici vengono utilizzati anche per misurazioni ottenute utilizzando scale di intervallo e di rapporto quando vengono analizzati piccoli campioni ed esiste la possibilità che vengano violate le ipotesi di base necessarie per l'applicazione dei metodi parametrici. Tra questi C., che possono essere ragionevolmente applicati a piccoli campioni, ci sono: il test di probabilità esatto di Fisher, l'analisi della varianza (rank) non parametrica a due fattori di Friedman, il coefficiente di correlazione del rango di Kendall t, il coefficiente di concordanza di Kendall (W), il criterio H di Kruskal - Wallace per l'analisi unidirezionale non parametrica (rango) della varianza, test U di Mann-Whitney, test della mediana, test dei segni, coefficiente di correlazione del rango di Spearman r e test t di Wilcoxon.

Quando si controlla la qualità dei beni nella ricerca economica, l'esperimento può essere condotto sulla base di un piccolo campione.

Sotto piccolo campioneè intesa come un'indagine statistica non continua, in cui la popolazione campionaria è formata da un numero relativamente piccolo di unità della popolazione generale. Il volume di un piccolo campione di solito non supera le 30 unità e può raggiungere fino a 4 - 5 unità.

L'errore medio di un piccolo campione è calcolato dalla formula:

,

dove
è la varianza di un piccolo campione.

Quando si determina la varianza il numero di gradi di libertà è n-1:

.

Errore marginale di un piccolo campione
è determinato dalla formula

In questo caso, il valore del coefficiente di confidenza t dipende non solo dalla probabilità di confidenza data, ma anche dal numero di unità campionarie n. Per i singoli valori di t e n, la probabilità di confidenza di un piccolo campione è determinata da apposite tabelle di Student (Tabella 9.1.), In cui sono fornite le distribuzioni delle deviazioni standardizzate:

.

Poiché, quando si esegue un piccolo campione, il valore di 0,59 o 0,99 viene praticamente preso come probabilità di confidenza, quindi per determinare l'errore marginale di un piccolo campione
Vengono utilizzate le seguenti letture di distribuzione t:

Metodi per estendere le caratteristiche del campione alla popolazione generale.

Il metodo di campionamento è più spesso utilizzato per ottenere le caratteristiche della popolazione generale in base agli indicatori rilevanti del campione. A seconda degli obiettivi della ricerca, ciò viene effettuato sia ricalcolando direttamente gli indicatori campionari per la popolazione generale, sia calcolando i fattori di correzione.

metodo di calcolo diretto. Consiste nel fatto che gli indicatori del campione sono condivisi o medio si estende alla popolazione generale, tenendo conto dell'errore di campionamento.

Quindi, nel commercio, viene determinato il numero di prodotti non standard ricevuti in un lotto di merci. Per fare ciò (tenendo conto del grado di probabilità accettato), gli indicatori della quota di prodotti non standard nel campione vengono moltiplicati per il numero di prodotti nell'intero lotto di merci.

Metodo dei fattori di correzione. Viene utilizzato nei casi in cui lo scopo del metodo di campionamento è quello di affinare i risultati della contabilità completa.

Nella pratica statistica, questo metodo viene utilizzato per affinare i dati dei censimenti annuali del bestiame di proprietà della popolazione. Per fare ciò, dopo aver sintetizzato i dati della contabilità completa, si pratica un'indagine campionaria del 10% con la determinazione della cosiddetta “percentuale di sottostima”.

Metodi per la selezione delle unità dalla popolazione generale.

Nelle statistiche vengono utilizzati vari metodi per formare set di campioni, che è determinato dagli obiettivi dello studio e dipende dalle specifiche dell'oggetto di studio.

La condizione principale per condurre un'indagine campionaria è prevenire il verificarsi di errori sistematici derivanti dalla violazione del principio delle pari opportunità per ciascuna unità della popolazione generale di entrare nel campione. La prevenzione degli errori sistematici si ottiene grazie all'uso di metodi scientificamente fondati per la formazione di una popolazione campione.

Esistono i seguenti modi per selezionare le unità dalla popolazione generale:

1) selezione individuale - le singole unità sono selezionate nel campione;

2) selezione dei gruppi - rientrano nel campione gruppi qualitativamente omogenei o serie di unità oggetto di studio;

3) la selezione combinata è una combinazione di selezione individuale e di gruppo.

I metodi di selezione sono determinati dalle regole per la formazione della popolazione campione.

Il campione può essere:

In realtà-casuale;

Meccanico;

tipico;

Seriale;

Combinato.

Campionamento auto-casuale consiste nel fatto che il campione si forma come risultato della selezione casuale (non intenzionale) di singole unità dalla popolazione generale. In questo caso, il numero di unità selezionate nel set di campioni è generalmente determinato in base alla proporzione accettata del campione.

La quota campionaria è il rapporto tra il numero di unità nella popolazione campionaria n e il numero di unità nella popolazione generale N, cioè

.

Quindi, con un campione del 5% da un lotto di merci di 2.000 unità. la dimensione del campione n è 100 unità. (5 * 2000:100) e con un campione del 20% saranno 400 unità. (20*2000:100) ecc.

Campionamento meccanico consiste nel fatto che la selezione delle unità del campione viene effettuata a partire dalla popolazione generale, suddivisa in intervalli uguali (gruppi). In questo caso, la dimensione dell'intervallo nella popolazione generale è uguale al reciproco della proporzione del campione.

Quindi, con un campione del 2%, viene selezionata ogni 50 unità (1:0,02), con un campione del 5%, ogni 20 unità (1:0,05), ecc.

Così, secondo la proporzione accettata di selezione, la popolazione generale è, per così dire, meccanicamente divisa in gruppi uguali. Viene selezionata una sola unità da ciascun gruppo del campione.

Una caratteristica importante del campionamento meccanico è che la formazione di una popolazione campionaria può essere effettuata senza ricorrere all'elencazione. In pratica, viene spesso utilizzato l'ordine in cui sono effettivamente collocate le unità di popolazione. Ad esempio, la sequenza di uscita dei prodotti finiti da un nastro trasportatore o da una linea di produzione, l'ordine in cui vengono collocate le unità di un lotto di merci durante lo stoccaggio, il trasporto, la vendita, ecc.

Campione tipico. Con un campione tipico, la popolazione viene prima divisa in gruppi tipici omogenei. Quindi, da ciascun gruppo tipico, viene effettuata una selezione individuale di unità nel campione da un campione casuale o meccanico.

Il campionamento tipico viene solitamente utilizzato nello studio di popolazioni statistiche complesse. Ad esempio, in un'indagine campionaria sulla produttività del lavoro dei lavoratori del settore, costituita da gruppi separati in base alle qualifiche.

Una caratteristica importante di un campione tipico è che fornisce risultati più accurati rispetto ad altri metodi di selezione delle unità in una popolazione campione.

Per determinare errore medio Un tipico esempio utilizza le seguenti formule:

riselezione

,

selezione non ripetitiva

,

La dispersione è determinata dalle seguenti formule:

,

In singola fase Nel campione, ogni unità selezionata viene immediatamente sottoposta a studio su una determinata base. Questo è il caso di un corretto campionamento casuale e seriale.

In multistadio il campione viene selezionato dalla popolazione generale dei singoli gruppi e le singole unità vengono selezionate dai gruppi. Ecco come viene realizzato un campione tipico con un metodo meccanico di selezione delle unità nella popolazione del campione.

Combinato il campione può essere a due stadi. In questo caso, la popolazione generale viene prima divisa in gruppi. Quindi vengono selezionati i gruppi e all'interno di questi ultimi vengono selezionate le singole unità.

Quando si controlla la qualità dei beni nella ricerca economica, l'esperimento può essere condotto sulla base di un piccolo campione.

Sotto piccolo campioneè intesa come un'indagine statistica non continua, in cui la popolazione campionaria è formata da un numero relativamente piccolo di unità della popolazione generale. Il volume di un piccolo campione di solito non supera le 30 unità e può raggiungere fino a 4 - 5 unità.

L'errore medio di un piccolo campione è calcolato dalla formula:

,

dove
è la varianza di un piccolo campione.

Quando si determina la varianza il numero di gradi di libertà è n-1:

.

Errore marginale di un piccolo campione
è determinato dalla formula

In questo caso, il valore del coefficiente di confidenza t dipende non solo dalla probabilità di confidenza data, ma anche dal numero di unità campionarie n. Per i singoli valori di t e n, la probabilità di confidenza di un piccolo campione è determinata da apposite tabelle di Student (Tabella 9.1.), In cui sono fornite le distribuzioni delle deviazioni standardizzate:

.

Poiché, quando si esegue un piccolo campione, il valore di 0,59 o 0,99 viene praticamente preso come probabilità di confidenza, quindi per determinare l'errore marginale di un piccolo campione
Vengono utilizzate le seguenti letture di distribuzione t:

Metodi per estendere le caratteristiche del campione alla popolazione generale.

Il metodo di campionamento è più spesso utilizzato per ottenere le caratteristiche della popolazione generale in base agli indicatori rilevanti del campione. A seconda degli obiettivi della ricerca, ciò viene effettuato sia ricalcolando direttamente gli indicatori campionari per la popolazione generale, sia calcolando i fattori di correzione.

metodo di calcolo diretto. Consiste nel fatto che gli indicatori del campione sono condivisi o medio si estende alla popolazione generale, tenendo conto dell'errore di campionamento.

Quindi, nel commercio, viene determinato il numero di prodotti non standard ricevuti in un lotto di merci. Per fare ciò (tenendo conto del grado di probabilità accettato), gli indicatori della quota di prodotti non standard nel campione vengono moltiplicati per il numero di prodotti nell'intero lotto di merci.

Metodo dei fattori di correzione. Viene utilizzato nei casi in cui lo scopo del metodo di campionamento è quello di affinare i risultati della contabilità completa.

Nella pratica statistica, questo metodo viene utilizzato per affinare i dati dei censimenti annuali del bestiame di proprietà della popolazione. Per fare ciò, dopo aver sintetizzato i dati della contabilità completa, si pratica un'indagine campionaria del 10% con la determinazione della cosiddetta “percentuale di sottostima”.

Metodi per la selezione delle unità dalla popolazione generale.

Nelle statistiche vengono utilizzati vari metodi per formare set di campioni, che è determinato dagli obiettivi dello studio e dipende dalle specifiche dell'oggetto di studio.

La condizione principale per condurre un'indagine campionaria è prevenire il verificarsi di errori sistematici derivanti dalla violazione del principio delle pari opportunità per ciascuna unità della popolazione generale di entrare nel campione. La prevenzione degli errori sistematici si ottiene grazie all'uso di metodi scientificamente fondati per la formazione di una popolazione campione.

Esistono i seguenti modi per selezionare le unità dalla popolazione generale:

1) selezione individuale - le singole unità sono selezionate nel campione;

2) selezione dei gruppi - rientrano nel campione gruppi qualitativamente omogenei o serie di unità oggetto di studio;

3) la selezione combinata è una combinazione di selezione individuale e di gruppo.

I metodi di selezione sono determinati dalle regole per la formazione della popolazione campione.

Il campione può essere:

In realtà-casuale;

Meccanico;

tipico;

Seriale;

Combinato.

Campionamento auto-casuale consiste nel fatto che il campione si forma come risultato della selezione casuale (non intenzionale) di singole unità dalla popolazione generale. In questo caso, il numero di unità selezionate nel set di campioni è generalmente determinato in base alla proporzione accettata del campione.

La quota campionaria è il rapporto tra il numero di unità nella popolazione campionaria n e il numero di unità nella popolazione generale N, cioè

.

Quindi, con un campione del 5% da un lotto di merci di 2.000 unità. la dimensione del campione n è 100 unità. (5 * 2000:100) e con un campione del 20% saranno 400 unità. (20*2000:100) ecc.

Campionamento meccanico consiste nel fatto che la selezione delle unità del campione viene effettuata a partire dalla popolazione generale, suddivisa in intervalli uguali (gruppi). In questo caso, la dimensione dell'intervallo nella popolazione generale è uguale al reciproco della proporzione del campione.

Quindi, con un campione del 2%, viene selezionata ogni 50 unità (1:0,02), con un campione del 5%, ogni 20 unità (1:0,05), ecc.

Così, secondo la proporzione accettata di selezione, la popolazione generale è, per così dire, meccanicamente divisa in gruppi uguali. Viene selezionata una sola unità da ciascun gruppo del campione.

Una caratteristica importante del campionamento meccanico è che la formazione di una popolazione campionaria può essere effettuata senza ricorrere all'elencazione. In pratica, viene spesso utilizzato l'ordine in cui sono effettivamente collocate le unità di popolazione. Ad esempio, la sequenza di uscita dei prodotti finiti da un nastro trasportatore o da una linea di produzione, l'ordine in cui vengono collocate le unità di un lotto di merci durante lo stoccaggio, il trasporto, la vendita, ecc.

Campione tipico. Con un campione tipico, la popolazione viene prima divisa in gruppi tipici omogenei. Quindi, da ciascun gruppo tipico, viene effettuata una selezione individuale di unità nel campione da un campione casuale o meccanico.

Il campionamento tipico viene solitamente utilizzato nello studio di popolazioni statistiche complesse. Ad esempio, in un'indagine campionaria sulla produttività del lavoro dei lavoratori del settore, costituita da gruppi separati in base alle qualifiche.

Una caratteristica importante di un campione tipico è che fornisce risultati più accurati rispetto ad altri metodi di selezione delle unità in una popolazione campione.

Per determinare l'errore medio di un campione tipico, vengono utilizzate le seguenti formule:

riselezione

,

selezione non ripetitiva

,

La dispersione è determinata dalle seguenti formule:

,

In singola fase Nel campione, ogni unità selezionata viene immediatamente sottoposta a studio su una determinata base. Questo è il caso di un corretto campionamento casuale e seriale.

In multistadio il campione viene selezionato dalla popolazione generale dei singoli gruppi e le singole unità vengono selezionate dai gruppi. Ecco come viene realizzato un campione tipico con un metodo meccanico di selezione delle unità nella popolazione del campione.

Combinato il campione può essere a due stadi. In questo caso, la popolazione generale viene prima divisa in gruppi. Quindi vengono selezionati i gruppi e all'interno di questi ultimi vengono selezionate le singole unità.

Condividere