Errore marginale della formula della media campionaria. Errori di campionamento specifici, medi e marginali

Viene chiamata la discrepanza tra i valori degli indicatori ottenuti dal campione e i corrispondenti parametri della popolazione generale errore di rappresentatività. Sono presenti errori di campionamento sistematici e casuali.

Errori casuali sono spiegati da una rappresentazione insufficientemente uniforme delle varie categorie di unità della popolazione generale del campione.

Errori sistematici può essere associato alla violazione delle regole di selezione o delle condizioni di campionamento.

Pertanto, durante l'indagine sui bilanci familiari, la popolazione campione per oltre 40 anni è stata costruita sulla base del principio di selezione territoriale-settoriale, che era dovuto allo scopo principale dell'indagine sul bilancio: caratterizzare il tenore di vita dei lavoratori, dei dipendenti e agricoltori collettivi. La popolazione campione è stata distribuita proporzionalmente tra le regioni e i settori dell'economia della RSFSR numero totale Occupato; Per creare un campione industriale, è stato utilizzato un campione tipico con selezione meccanica delle unità all'interno dei gruppi.

Il criterio di selezione principale era lo stipendio medio mensile. Il principio di selezione assicurava una rappresentanza proporzionale nel campione della popolazione dei lavoratori con diversi livelli salariali.

Con l’emergere di nuovi gruppi sociali (imprenditori, agricoltori, disoccupati), la rappresentatività del campione è stata violata non solo a causa delle differenze con la struttura della popolazione generale, ma anche a causa dell’errore sistematico derivante dalla discrepanza tra i unità di campionamento (dipendente) e unità di osservazione (famiglie). Inoltre, una famiglia con più di un membro che lavora aveva maggiori probabilità di essere selezionata rispetto a una famiglia con un membro che lavora. Dall'insieme delle unità selezionate (famiglie di pensionati, famiglie che vivono di reddito individuale) sono state escluse le famiglie non occupate nei settori analizzati. attività lavorativa, e così via.). Valutare l'accuratezza dei risultati ottenuti (limiti degli intervalli di confidenza, errori di campionamento) è stato difficile, poiché nella costruzione del campione non sono stati utilizzati modelli probabilistici.

Nel 1996-1997 È stato introdotto un approccio fondamentalmente nuovo al campionamento delle famiglie. Come base per la sua realizzazione sono stati utilizzati i dati del microcensimento del 1994. La popolazione generale per la selezione comprendeva tutte le tipologie di famiglie, ad eccezione di quelle collettive. E la popolazione campione ha cominciato ad essere organizzata tenendo conto della rappresentatività della composizione e della tipologia delle famiglie all'interno di ciascun soggetto della Federazione Russa.

La misurazione degli errori nella rappresentatività degli indicatori del campione si basa sul presupposto della natura casuale della loro distribuzione all'infinito elevato numero campioni.

Una valutazione quantitativa dell'affidabilità di un indicatore campione viene utilizzata per avere un'idea delle caratteristiche generali. Ciò viene fatto sulla base di un indicatore campione, tenendo conto del suo errore casuale, oppure sulla base della presentazione di alcune ipotesi (sul valore della dispersione media, sulla natura della distribuzione, sulla connessione) riguardo alle proprietà dell'indicatore popolazione generale.

Per verificare un'ipotesi, viene valutata la coerenza dei dati empirici con i dati ipotetici.

L’entità dell’errore di rappresentatività casuale dipende da:

  • 1) dalla dimensione del campione;
  • 2) il grado di variazione della caratteristica studiata nella popolazione generale;
  • 3) il metodo accettato per formare una popolazione campione.

Esistono errori di campionamento medi (standard) e massimi.

Errore medio caratterizza la misura delle deviazioni degli indicatori del campione da indicatori simili della popolazione generale.

Ultimo errore È generalmente accettato considerare la massima discrepanza possibile tra il campione e le caratteristiche generali, ad es. errore massimo per una data probabilità che si verifichi.

Sulla base dei dati della popolazione campione, è possibile stimare vari indicatori (parametri) della popolazione generale. La valutazione più comunemente utilizzata è:

  • – il valore medio generale della caratteristica oggetto di studio (per una caratteristica quantitativa multivalore);
  • – quota generale (per una caratteristica alternativa).

Il principio di base dell'utilizzo del metodo di campionamento è quello di garantire pari opportunità a tutte le unità della popolazione di essere selezionate nella popolazione campione. Con questo approccio, viene soddisfatto il requisito della selezione casuale e obiettiva e, pertanto, l’errore di campionamento è determinato principalmente dal suo volume ( P ). All’aumentare di quest’ultimo, l’errore medio diminuisce e le caratteristiche della popolazione campione si avvicinano a quelle della popolazione generale.

Con lo stesso numero di popolazioni campione e altro pari condizioni L'errore di campionamento sarà minore in uno di essi, che viene selezionato dalla popolazione generale con minore variazione nella caratteristica studiata. Ridurre la variazione di una caratteristica significa ridurre la quantità di dispersione (per una caratteristica quantitativa o per una caratteristica alternativa).

La dipendenza dell'entità dell'errore di campionamento dai metodi di formazione della popolazione campione è determinata utilizzando le formule per l'errore medio di campionamento (Tabella 5.2).

Aggiungiamo gli indicatori nella tabella. 5.2 con le seguenti spiegazioni.

La varianza campionaria è leggermente inferiore alla varianza generale; ciò è stato dimostrato in statistica matematica

Tabella 5.2

Formule per il calcolo dell'errore medio di campionamento in vari modi selezione

Tipo di campione

ripetere per

ripetibile per

In realtà

casuale

(semplice)

Seriale

(a parità di dimensioni

Tipico (proporzionale alla dimensione del gruppo)

Se la popolazione campione è ampia (es. P è sufficientemente grande), allora il rapporto si avvicina all’unità e la varianza campionaria coincide praticamente con la varianza generale.

Il campione è considerato incondizionatamente ampio quando p> 100 e certamente piccolo a P < 30. При оценке результатов piccolo campione si dovrebbe tenere conto del rapporto indicato tra la varianza del campione e quella della popolazione.

Possono essere calcolati utilizzando le seguenti formule:

dov'è la media io -esima serie; – media complessiva dell'intera popolazione campione;

dove è la quota di unità di una determinata categoria in io -esima serie; – la proporzione di unità di questa categoria nell'intera popolazione del campione; R - numero di episodi selezionati.

4. Per determinare l'errore medio di un campione tipico nel caso di selezione di unità in proporzione alla dimensione di ciascun gruppo, la media degli scostamenti intragruppo (per una caratteristica quantitativa, per una caratteristica alternativa) serve come indicatore di variazione. Secondo la regola della somma delle varianze, il valore della media delle varianze infragruppo è inferiore al valore della varianza totale. Valore medio possibile errore di un campione tipico è inferiore all’errore di un campione casuale semplice e corretto.

Viene spesso utilizzata la selezione combinata: la selezione individuale delle unità è combinata con la selezione di gruppo, la selezione tipica è combinata con la selezione in serie. Con qualsiasi metodo di selezione, con una certa probabilità si può affermare che lo scostamento della media campionaria (o quota) dalla media generale (o quota) non supererà un certo valore, che viene chiamato errore estremo campioni.

Il rapporto tra il limite dell'errore di campionamento (∆) è garantito con una certa probabilità F(t), e l'errore medio di campionamento ha la forma: o , dove T – fattore di confidenza, determinato in base al livello di probabilità F(t).

Valori di funzione F(t) E T sono determinati sulla base di tabelle matematiche appositamente compilate. Eccone alcuni che vengono utilizzati più spesso:

T

Pertanto, l'errore marginale di campionamento risponde alla domanda sull'accuratezza del campione con una certa probabilità, il cui valore dipende dal valore del coefficiente di confidenza T. Si Quando T = 1 probabilità F(t ) la deviazione delle caratteristiche del campione da quelle generali per il valore di un singolo errore medio è 0,683. Di conseguenza, in media, su 1000 campioni, 683 forniranno indicatori generalizzati (media, quota), che differiranno da quelli generali per non più di un singolo errore medio. A t = 2 probabilità F(t) è pari a 0,954, ciò significa che su 1000 campioni, 954 daranno indicatori generali che differiranno dagli indicatori generali non più di due volte l'errore medio di campionamento, ecc.

Insieme al valore assoluto dell'errore di campionamento massimo, il errore relativo che è definito come il rapporto percentuale tra l’errore marginale del campionamento e la corrispondente caratteristica della popolazione campione:

In pratica è consuetudine impostare il valore di ∆, solitamente entro il 10% del livello medio atteso dell'attributo.

Il calcolo degli errori medi e massimi di campionamento consente di determinare i limiti entro i quali si troveranno le caratteristiche della popolazione generale:

Vengono chiamati i limiti entro i quali il valore sconosciuto dell'indicatore studiato nella popolazione generale sarà contenuto con un dato grado di probabilità intervallo di confidenza, e la probabilità F(t) probabilità di confidenza. Maggiore è il valore ∆, maggiore è l'intervallo di confidenza e, quindi, minore è l'accuratezza della stima.

Considera il seguente esempio. Per determinare la dimensione media di un deposito presso una banca, sono stati selezionati 200 conti in valuta estera dei depositanti utilizzando un campionamento casuale ripetuto. Di conseguenza, è stato stabilito che la dimensione media del deposito era di 60 mila rubli, la variazione era di 32. Allo stesso tempo, erano richiesti 40 conti. È necessario, con una probabilità di 0,954, determinare i limiti entro i quali si trovano la dimensione media dei depositi in conti in valuta estera presso una banca e la quota dei conti a vista.

Calcoliamo l'errore medio della media campionaria utilizzando la formula per la selezione ripetuta

L'errore massimo della media campionaria con una probabilità di 0,954 sarà

Di conseguenza, la dimensione media di un deposito in conti in valuta estera presso una banca è compresa tra migliaia di rubli:

Con una probabilità di 0,954 si può affermare che il deposito medio sui conti in valuta estera in una banca varia da 59.200 a 60.800 rubli.

Determiniamo la quota di depositi a vista nella popolazione campione:

Errore medio della frazione del campione

L'errore marginale dell'azione con una probabilità di 0,954 sarà

Pertanto, la quota dei conti della domanda nella popolazione è compresa w :

Con una probabilità di 0,954 si può affermare che la quota dei conti a vista sul totale dei conti in valuta estera della banca varia dal 14,4 al 25,6%.

In studi specifici, è importante stabilire la relazione ottimale tra la misura di affidabilità dei risultati ottenuti e l'entità dell'errore di campionamento ammissibile. A questo proposito, quando si organizza l'osservazione del campione, sorge la domanda relativa alla determinazione della dimensione del campione necessaria per ottenere l'accuratezza richiesta dei risultati con una determinata probabilità. Il calcolo della dimensione del campione richiesta viene effettuato sulla base di formule per l'errore massimo di campionamento in base al tipo e al metodo di selezione (Tabella 5.3).

Tabella 5.3

Formule per il calcolo della dimensione del campione utilizzando un metodo di campionamento puramente casuale

Continuiamo con l'esempio, che presenta i risultati di un'indagine campionaria sui conti personali dei depositanti bancari.

È necessario stabilire quanti conti devono essere esaminati in modo che con una probabilità di 0,977 l'errore nel determinare la dimensione media del deposito non superi 1,5 mila rubli. Esprimiamo l'indicatore della dimensione del campione dalla formula per l'errore di campionamento massimo per la selezione ripetuta:

Quando si determina la dimensione del campione richiesta utilizzando le formule di cui sopra, sorge la difficoltà di trovare i valori di σ2 e sì, poiché questi valori possono essere ottenuti solo dopo aver condotto un'indagine campionaria. A questo proposito, al posto dei valori effettivi di tali indicatori, vengono sostituiti quelli approssimativi, che potrebbero essere determinati sulla base di eventuali osservazioni campionarie o di indagini analitiche precedenti.

Nei casi in cui lo statistico conosce il valore medio delle caratteristiche oggetto di studio (ad esempio da istruzioni, legislazione, ecc.) o i limiti entro i quali varia tale caratteristica, si può applicare il seguente calcolo utilizzando formule approssimative:

e sostituire il prodotto w(1 – w) con il valore 0,25 (w = 0,5).

Per ottenere un risultato più accurato, prendi il valore massimo possibile di questi indicatori. Se la distribuzione di una caratteristica nella popolazione generale obbedisce alla legge normale, allora l’intervallo di variazione è approssimativamente uguale a 6σ (i valori estremi sono distanziati in entrambe le direzioni dalla media a una distanza di 3σ). Quindi , ma se la distribuzione è ovviamente asimmetrica, allora .

Per qualsiasi tipo di campione, il suo volume inizia a essere calcolato utilizzando la formula di selezione ripetuta

Se, come risultato del calcolo, la quota di selezione ( N ) supera il 5%, allora il calcolo viene effettuato utilizzando la formula di selezione non ripetitiva.

Per un campione tipico, è necessario dividere la dimensione totale del campione tra i tipi di unità selezionati. Il calcolo del numero di osservazioni di ciascun gruppo dipende dalle forme organizzative precedentemente menzionate di un campione tipico.

Con una selezione tipica di unità sproporzionata rispetto al numero di gruppi, il numero totale di unità selezionate viene diviso per il numero di gruppi, il valore risultante fornisce il numero di selezione da ciascun gruppo tipico:

Dove K – numero di gruppi tipici individuati.

Quando si selezionano le unità in proporzione al numero di gruppi tipici, il numero di osservazioni per ciascun gruppo è determinato dalla formula

da dove viene la dimensione del campione io quinto gruppo; - volume io quinto gruppo.

Quando si seleziona la variazione in un tratto, la percentuale del campione di ciascun gruppo dovrebbe essere proporzionale alla deviazione standard in questo gruppo (). Il calcolo del numero () viene eseguito secondo le formule

Con la selezione seriale, il numero richiesto di serie selezionate viene determinato allo stesso modo della selezione casuale corretta:

Riselezione

Selezione infinita

In questo caso, è possibile calcolare varianze ed errori di campionamento per il valore medio o la proporzione della caratteristica.

Quando si utilizza l'osservazione del campione, la caratterizzazione dei suoi risultati è possibile sulla base del confronto dei limiti di errore ottenuti degli indicatori del campione con il valore dell'errore ammissibile.

A questo proposito, si pone il compito di determinare la probabilità che l'errore di campionamento non superi l'errore consentito. La soluzione a questo problema consiste nel calcolare, in base alla formula dell'errore massimo di campionamento, il valore T.

Continuando a considerare l'esempio di un sondaggio campione sui conti personali dei clienti delle banche, troveremo la probabilità con cui si può affermare che l'errore nel determinare la dimensione media del deposito non supererà i 785 rubli:

il livello di confidenza corrispondente sarà 0,95.

Attualmente, la pratica dell'osservazione del campione comprende osservazioni statistiche effettuate:

  • – Enti Rosstat;
  • – altri ministeri e dipartimenti (ad esempio, monitoraggio delle imprese nel sistema della Banca di Russia).

Una nota generalizzazione dell'esperienza nell'organizzazione di indagini campionarie sulle piccole imprese, sulla popolazione e sulle famiglie è presentata nelle Disposizioni metodologiche sulla statistica. Forniscono un concetto più ampio di osservazione selettiva rispetto a quello discusso sopra (Tabella 5.4).

Nella pratica statistica vengono utilizzati tutti e quattro i tipi di campioni presentati nella tabella. 5.4. Tuttavia, solitamente si privilegiano i campioni probabilistici (casuali) sopra descritti, che sono i più oggettivi, poiché possono essere utilizzati per valutare l'accuratezza dei risultati ottenuti dai dati del campione stesso.

Tabella 5.4

Tipi di campioni

Nei campioni tipo quasi casuale Si presuppone che il campionamento probabilistico esista sulla base del fatto che il campionatore lo considera accettabile. Un esempio dell'uso del campionamento quasi casuale nella pratica statistica è l'“Indagine campionaria sulle piccole imprese da studiare processi sociali nelle piccole imprese", condotto nel 1996 in alcune regioni della Russia. Le unità di osservazione (piccole imprese) sono state selezionate da esperti, tenendo conto della rappresentazione dei settori economici da un campione già formato di un'indagine sulle attività finanziarie ed economiche delle piccole imprese ( modulo "Informazioni sui principali indicatori delle attività finanziarie ed economiche delle piccole imprese"). Nel riassumere i dati del campione, si è ipotizzato che la popolazione campione fosse formata con il metodo della semplice selezione casuale.

Diretto uso del giudizio esperto È il massimo metodo generale inclusione intenzionale di unità nel campione. Un esempio di tale metodo di selezione è il metodo monografico, che prevede l'ottenimento di informazioni da una sola unità di osservazione, cosa tipica, secondo l'organizzatore dell'indagine, un esperto.

Campioni formati sulla base selezione diretta, vengono implementati utilizzando una procedura oggettiva, ma senza utilizzare un meccanismo probabilistico. È ampiamente noto il metodo del main array, in cui il campione comprende le unità di osservazione più grandi (significative) che forniscono il contributo principale all'indicatore, ad esempio il valore totale di una caratteristica che rappresenta lo scopo principale dell'indagine.

Nella pratica statistica viene spesso utilizzato metodo combinato osservazione statistica. La combinazione dei metodi di osservazione continua e selettiva presenta due aspetti:

  • alternanza nel tempo;
  • il loro uso simultaneo (parte della popolazione viene osservata su base continua e parte viene osservata selettivamente).

Alternanza sono necessari campioni periodici con indagini continue o censimenti relativamente rari per chiarire la composizione della popolazione oggetto di studio. In futuro, queste informazioni verranno utilizzate come base statistica per l'osservazione del campione. Gli esempi includono i censimenti della popolazione e le indagini campionarie provvisorie sulle famiglie.

In questo caso, è necessario risolvere i seguenti compiti:

  • – determinazione della composizione dei segni di osservazione continua che garantiscono l'organizzazione del campione;
  • – giustificazione dei periodi di alternanza, vale a dire quando i dati continui perdono la loro rilevanza e sono necessari costi per aggiornarli.

Utilizzo simultaneo nell'ambito di un'indagine di osservazioni continue e campionarie è dovuto all'eterogeneità delle popolazioni incontrate nella pratica statistica. Ciò è particolarmente vero per i sondaggi attività economica un insieme di imprese caratterizzate da distribuzioni asimmetriche delle caratteristiche studiate, quando un certo numero di unità hanno caratteristiche molto diverse dalla massa dei valori. In questo caso, tali unità vengono osservate su base continua e l'altra parte della popolazione viene osservata selettivamente.

Con questa organizzazione delle osservazioni, i compiti principali sono:

  • – stabilire la loro proporzione ottimale;
  • – sviluppo di metodi per valutare l'accuratezza dei risultati.

Un tipico esempio che illustra questo aspetto dell'applicazione del metodo combinato è principio generale condurre indagini su una popolazione di imprese, secondo le quali le indagini su una popolazione di grandi e medie imprese vengono effettuate principalmente con un metodo continuo e quelle piccole con un metodo campionario.

L'ulteriore sviluppo della metodologia di osservazione del campionamento viene effettuato sia in combinazione con l'organizzazione dell'osservazione continua, sia attraverso l'organizzazione di indagini speciali, la cui condotta è dettata dalla necessità di ottenere Informazioni aggiuntive per risolvere problemi specifici. Pertanto, l'organizzazione delle indagini nel campo delle condizioni di vita e del tenore di vita della popolazione si articola in due aspetti:

  • – componenti richiesti;
  • – moduli aggiuntivi nel quadro di un sistema completo di indicatori.

Tra le componenti obbligatorie possono rientrare le indagini annuali su reddito, spesa e consumo (analoghe all'indagine sui bilanci familiari), che comprendono anche indicatori di base sulle condizioni di vita della popolazione. Ogni anno, secondo un piano speciale, i componenti obbligatori devono essere integrati da indagini una tantum (moduli) sulle condizioni di vita della popolazione, finalizzate allo studio approfondito di qualsiasi argomento sociale selezionato dal loro numero totale (ad esempio, beni familiari, salute, alimentazione, istruzione, condizioni di lavoro, condizioni abitative, tempo libero, mobilità sociale, sicurezza, ecc.) con frequenza variabile, determinata dalla necessità di indicatori e dalle capacità delle risorse.

Come è noto, in statistica esistono due modi di osservare i fenomeni di massa a seconda della completezza della copertura dell'oggetto: continuo e non continuo. Un tipo di osservazione non continua è l'osservazione selettiva.

Sotto osservazione selettiva si riferisce all'osservazione non continua, in cui unità selezionate casualmente della popolazione studiata vengono sottoposte a un esame statistico (osservazione).

L'osservazione del campione si pone il compito di caratterizzare l'intera popolazione di unità per la parte censita, soggetto al rispetto di tutte le regole e i principi dell'osservazione statistica e del lavoro scientificamente organizzato sulla selezione delle unità.

Viene solitamente chiamato l'insieme delle unità selezionate per l'indagine statistica popolazione campione e viene chiamato l'insieme di unità da cui viene effettuata la selezione popolazione generale . Le principali caratteristiche della popolazione generale e del campione sono presentate nella Tabella 1.

Tabella 1 - Principali caratteristiche della popolazione generale e del campione
IndiceDesignazione o formula
Popolazione Popolazione campione
Numero di unità N N
Il numero di unità che possiedono una qualsiasi caratteristica M M
Proporzione di unità che possiedono questa caratteristica p =M/N ω = m/n
Proporzione di unità che non hanno questa caratteristica q = 1 - p 1 - ω
Valore medio cartello
Dispersione cartello
Varianza di una caratteristica alternativa (dispersione di una quota) pq ω (1 - ω)

Quando si conducono osservazioni di campionamento, si verificano errori sistematici e casuali. Errori sistematici sorgono a causa della violazione delle regole per la selezione delle unità nel campione. Modificando le regole di selezione, puoi eliminare tali errori.

Errori casuali sorgono a causa della natura incompleta del sondaggio. Altrimenti si chiamano errori di rappresentatività (rappresentatività). Gli errori casuali sono suddivisi in errori di campionamento medi e massimi, che vengono determinati sia nel calcolo della caratteristica che nel calcolo della quota.

Gli errori medi e massimi sono legati dalla seguente relazione :Δ = tμ, dove Δ è l'errore massimo di campionamento, μ è l'errore medio di campionamento, t è il coefficiente di confidenza, determinato in base al livello di probabilità. La tabella 2 mostra alcuni valori t presi dalla teoria della probabilità.

L'errore medio di campionamento viene calcolato in modo differenziale a seconda del metodo di selezione e della procedura di campionamento. Le formule di base per il calcolo degli errori di campionamento sono presentate nella Tabella 3.

Tabella 3 - Formule di base per il calcolo degli errori di campionamento durante il campionamento ripetuto e non ripetitivo
IndiceDesignazione e formula
Popolazione Popolazione campione
Errore medio di un tratto con selezione ripetuta casuale
Errore proporzionale medio con ricampionamento casuale
Errore marginale di un tratto sottoposto a selezione ripetuta casuale
Errore marginale della proporzione sotto ricampionamento casuale
Errore medio di un tratto durante la selezione casuale non ripetitiva
Errore medio della frazione per campionamento casuale non ripetitivo
Errore massimo di un tratto nella selezione casuale non ripetitiva
Errore marginale della frazione in caso di selezione casuale non ripetitiva

Il calcolo degli errori medi e massimi di campionamento consente di determinare i possibili limiti entro i quali si troveranno le caratteristiche della popolazione generale .

Ad esempio, per una media campionaria, tali limiti sono fissati in base alle seguenti relazioni:

Limiti della quota della caratteristica nella popolazione generale del fiume.

Esempi di risoluzione di problemi sull'argomento "Osservazione del campione in statistica"

Problema 1 . Esistono informazioni sulla produzione di prodotti (lavori, servizi) ottenute sulla base dell'osservazione del campione del 10% delle imprese della regione:

Determinare: 1) per le imprese incluse nel campione: a) la dimensione media dei prodotti realizzati per impresa; b) dispersione del volume produttivo; c) la quota di imprese con un volume di produzione superiore a 400 mila rubli; 2) nell'insieme della regione, con una probabilità pari a 0,954, i limiti entro i quali si possono prevedere: a) il volume medio della produzione per impresa; b) la quota di imprese con un volume di produzione superiore a 400 mila rubli; 3) il volume totale della produzione nella regione.

Soluzione

Per risolvere il problema, espandiamo la tabella proposta.

1) Per le imprese incluse nel campione, dimensione media della produzione per impresa

110800/400 = 277mila rubli.

Calcoliamo la varianza del volume di produzione in modo semplificato: σ 2 = 35640000/400 – 277 2 = 89100 – 76229 = 12371.

Il numero di imprese il cui volume di produzione supera i 400 mila rubli. è uguale a 36+12 = 48, e la loro quota è ω = 48:400 = 0,12 = 12%.

2) Dalla teoria della probabilità è noto che con probabilità P = 0,954 il coefficiente di confidenza è t = 2. Errore marginale di campionamento

2√12371:400 = 11,12 mila rubli.

Fissiamo i limiti della media generale: 277-11,12 ≤Хср≤ 277+11,12; 265,88 ≤Хср≤ 288,12

Errore marginale di campionamento della quota di imprese

2√0,12*0,88/400 = 0,03

Determiniamo i limiti della quota generale: 0,12-0,03≤ p ≤0,12+0,03; 0,09≤ ð ≤0,15

3) Poiché il gruppo di imprese in esame rappresenta il 10% del numero totale di imprese della regione, in totale ci sono 4.000 imprese nella regione. Allora il volume totale della produzione nella regione rientra nell’intervallo 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Problema 2 . Secondo i risultati di un controllo effettuato dai servizi fiscali su 400 strutture imprenditoriali, 140 di loro non hanno indicato integralmente il reddito soggetto a tassazione nella dichiarazione dei redditi. Determinare nella popolazione generale (nell'intero distretto) la quota di strutture imprenditoriali che hanno nascosto parte del proprio reddito dalle tasse con una probabilità di 0,954.

Soluzione

Secondo le condizioni del problema, il numero di unità della popolazione campione è n = 400, il numero di unità che possiedono la caratteristica in esame è m = 140, probabilità P = 0,954.

Dalla teoria della probabilità è noto che con probabilità P = 0,954 il coefficiente di confidenza è t = 2.

La quota di unità che possiedono la caratteristica specificata è determinata dalla formula: p=w+∆p, dove w = m/n=140/400=0,35=35%,
e l'errore massimo del segno ∆p si ottiene dalla formula: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Allora p = 35±5%.

Risposta : La percentuale di strutture imprenditoriali che hanno nascosto parte del proprio reddito dalle tasse con una probabilità di 0,954 è del 35±5%.

Errore medio di campionamento è sempre presente negli studi campionari e appare dovuto al fatto che non vengono esaminate tutte le unità della popolazione statistica, ma solo una parte di essa.

L'errore medio di campionamento diventa errore marginale Δ quando moltiplicato per il fattore di confidenza T , che è preimpostato in base alla precisione di osservazione richiesta. L'errore marginale consente di giudicare con un certo grado di probabilità la dimensione “vera” di un parametro nella popolazione

Nel campionamento tipico e seriale, quando si calcola l'errore di campionamento anziché la varianza totale 2 ) dovrebbe essere utilizzata la media della varianza intragruppo e della varianza tra gruppi
, Dove
- varianza parziale del gruppo i, volume del gruppo i

Formule per l'errore massimo di un campione casuale nel determinare la media

Per la riselezione

Formule per l'errore massimo di un campione casuale nel determinare la quota

Per la riselezione

Per selezioni non ripetitive

Formule per la dimensione di un campione casuale quando si determina il valore medio

Formule per il numero di campioni casuali quando si determina la proporzione della caratteristica studiata

La differenza massima tra la media generale e quella campionaria corrisponde al valore dell'errore massimo

Valori di probabilità e rispettivamente T si trovano secondo le tabelle di distribuzione:

  • Test t di Student (in caso di campione piccolo)

Le formule di campionamento casuale sono adatte anche per il campionamento meccanico.

Se è necessario l'arrotondamento, con campionamento casuale – arrotondare per eccesso, con campionamento meccanico – arrotondare per difetto.

Piccolo campione

Se la dimensione della popolazione campione non supera le 30 unità, l'errore medio di un piccolo campione nel determinare il valore medio viene calcolato utilizzando la formula:

Per calcolare l'errore di un piccolo campione, viene utilizzata una formula di dispersione raffinata

Tipi di attività di campionamento

    determinazione dell'errore di campionamento,

    determinazione della dimensione della popolazione campione N ,

    determinare la probabilità che la media campionaria (o proporzione) si discosti dalla media generale non più di un importo specificato t=Δ/μ,

    valutazione della casualità delle discrepanze negli indicatori delle osservazioni del campione,

    trasferimento delle caratteristiche del campione alla popolazione generale.

Testare ipotesi su media e condivisione

Valutare la casualità delle discrepanze tra gli indicatori di osservazione del campione


Metodi per trasferire i dati del campione alla popolazione generale

    metodo di pesatura;

    metodo di ripesatura;

    metodo di riempimento mediante selezione casuale in classi sostitutive.

Errori sistematici e casuali

Unità modulare 2 Errori di campionamento

Poiché un campione solitamente copre una parte molto piccola della popolazione, si dovrebbe presumere che vi siano differenze tra la stima e le caratteristiche della popolazione che la stima riflette. Queste differenze sono chiamate errori di mappatura o errori di rappresentatività. Gli errori di rappresentatività si dividono in due tipologie: sistematici e casuali.

Errori sistematici- si tratta di una costante sovrastima o sottostima del valore di valutazione rispetto alle caratteristiche della popolazione generale. La ragione per la comparsa di un errore sistematico è il mancato rispetto del principio di eguale probabilità che ciascuna unità della popolazione generale venga inclusa nel campione, cioè il campione è formato prevalentemente dai “peggiori” (o “migliori”) rappresentanti della popolazione generale. Il rispetto del principio di pari opportunità per ciascuna unità da includere nel campione consente di eliminare completamente questo tipo di errore.

Errori casuali - Si tratta di differenze che variano da campione a campione in segno e grandezza tra la stima e la caratteristica valutata della popolazione. La ragione per cui si verificano errori casuali è il gioco del caso nella formazione di un campione che costituisce solo una parte della popolazione generale. Questo tipo di errore è organicamente inerente al metodo di campionamento. È impossibile escluderli del tutto; il compito è prevederne la possibile entità e ridurli al minimo. L'ordine delle azioni relative a questo deriva dalla considerazione di tre tipi di errori casuali: specifico, medio ed estremo.

2.2.1 Specifico l'errore è l'errore di un campione prelevato. Se la media per questo campione () è una stima della media generale (0) e, supponendo che questa media generale ci sia nota, allora la differenza = -0 e sarà l'errore specifico di questo campione. Se ripetiamo più volte il campione di questa popolazione generale, ogni volta otteniamo un nuovo valore per un errore specifico: ... e così via. Per quanto riguarda questi errori specifici, possiamo dire quanto segue: alcuni di essi coincideranno tra loro in grandezza e segno, cioè c'è una distribuzione degli errori, alcuni di essi saranno uguali a 0, c'è una coincidenza della stima e il parametro della popolazione generale;

2.2.2 Errore medioè il quadrato medio di tutti gli errori specifici di stima possibili per caso: , dove è l'entità della variazione degli errori specifici; frequenza (probabilità) del verificarsi di un particolare errore. L'errore medio di campionamento mostra quanto errore, in media, può essere commesso se si formula un giudizio su un parametro della popolazione basato sulla stima. La formula sopra riportata rivela il contenuto dell'errore medio, ma non può essere utilizzata per calcoli pratici, se non altro perché presuppone la conoscenza del parametro della popolazione, che di per sé elimina la necessità del campionamento.



I calcoli pratici dell'errore medio di stima si basano sulla premessa che esso (l'errore medio) è essenzialmente la deviazione standard di tutti i possibili valori di stima. Questa premessa permette di ottenere algoritmi per il calcolo dell'errore medio basati sui dati di un singolo campione. In particolare, l'errore medio della media campionaria può essere stabilito in base al seguente ragionamento. Esiste un campione (,…) composto da unità. Per il campione, la media campionaria è definita come una stima della media generale. Ogni valore (,...) sotto il segno di somma dovrebbe essere considerato come una variabile casuale indipendente, poiché con ripetizione infinita del campione la prima, la seconda, ecc. le unità possono assumere uno qualsiasi dei valori presenti nella popolazione. Pertanto, poiché, come è noto, la varianza della somma delle variabili casuali indipendenti è uguale alla somma delle varianze, allora . Ne consegue che l'errore medio per la media campionaria sarà uguale ed è inversamente correlato alla dimensione del campione (attraverso la sua radice quadrata) e direttamente proporzionale alla deviazione standard della caratteristica nella popolazione generale. Ciò è logico, poiché la media campionaria è una stima coerente della media generale e, all’aumentare della dimensione del campione, il suo valore si avvicina al parametro stimato della popolazione generale. La dipendenza diretta dell'errore medio dalla variabilità di una caratteristica è dovuta al fatto che maggiore è la variabilità della caratteristica nella popolazione generale, più difficile è costruire un modello adeguato della popolazione generale a partire dal campione. In pratica, la deviazione standard di una caratteristica nella popolazione viene sostituita dalla sua stima nel campione, e quindi la formula per calcolare l'errore medio della media campionaria assume la forma: tenendo conto della distorsione della varianza campionaria, il campione la deviazione standard viene calcolata utilizzando la formula =. Poiché il simbolo n indica la dimensione del campione. , quindi il denominatore nel calcolo della deviazione standard non dovrebbe utilizzare la dimensione del campione (n), ma il cosiddetto numero di gradi di libertà (n-1). Il numero di gradi di libertà è inteso come il numero di unità in un aggregato che può variare (cambiare) liberamente se una qualsiasi caratteristica viene determinata dall'aggregato. Nel nostro caso, poiché viene determinata la media del campione, le unità possono variare liberamente.

La Tabella 2.2 fornisce le formule per calcolare gli errori medi di varie stime campionarie. Come si può vedere da questa tabella, l’errore medio per tutte le stime è compreso feedback con la dimensione del campione e in linea retta con la variabilità. Ciò si può dire anche per quanto riguarda l'errore medio della frazione campionaria (frequenza). Sotto la radice c'è la varianza della caratteristica alternativa, stabilita dal campione ()

Le formule riportate nella Tabella 2.2 si riferiscono alla cosiddetta selezione casuale e ripetuta delle unità del campione. Con altri metodi di selezione, di cui parleremo più avanti, le formule verranno leggermente modificate.

Tabella 2.2

Formule per il calcolo degli errori medi delle stime campionarie

2.2.3 Errore marginale di campionamento La conoscenza della stima e del suo errore medio è in alcuni casi del tutto insufficiente. Ad esempio, quando si utilizzano ormoni nell'alimentazione animale, conoscere solo la dimensione media dei loro residui nocivi indecomposti e l'errore medio significa esporre i consumatori del prodotto a un grave pericolo. Ciò suggerisce fortemente la necessità di determinare il massimo ( errore massimo). Quando si utilizza il metodo di campionamento, l'errore massimo non viene impostato sotto forma di un valore specifico, ma sotto forma di limiti uguali

(intervalli) in entrambe le direzioni dal valore di valutazione.

La determinazione dei limiti dell'errore massimo si basa sulle caratteristiche della distribuzione degli errori specifici. Per i cosiddetti campioni di grandi dimensioni, il cui numero è superiore a 30 unità (), gli errori specifici sono distribuiti secondo la normale legge di distribuzione; con piccoli campioni () gli errori specifici vengono distribuiti secondo la legge sulla distribuzione di Gosset

(Alunno). Se applicata a specifici errori medi del campione, la funzione distribuzione normale ha la forma: , dove è la densità di probabilità del verificarsi di determinati valori, a condizione che , dove sono le medie campionarie; - media generale, - errore medio per la media campionaria. Poiché l'errore medio () è un valore costante, gli errori specifici sono distribuiti secondo la legge normale, espressi in quote dell'errore medio, o le cosiddette deviazioni normalizzate.

Prendendo l'integrale della funzione di distribuzione normale, possiamo stabilire la probabilità che l'errore sia contenuto in un certo intervallo di variazione t e la probabilità che l'errore oltrepassi tale intervallo (evento opposto). Ad esempio, la probabilità che l'errore non superi la metà dell'errore medio (in entrambe le direzioni rispetto alla media generale) è 0,3829, che l'errore sia contenuto in un errore medio - 0,6827, 2 errori medi -0,9545 e così via.

La relazione tra il livello di probabilità e l'intervallo di variazione t (e, in definitiva, l'intervallo di variazione dell'errore) consente di avvicinarsi alla determinazione dell'intervallo (o dei limiti) dell'errore massimo, legandone il valore con la probabilità di occorrenza.La probabilità che si verifichi è la probabilità che l'errore si verifichi in un determinato intervallo. La probabilità di accadimento sarà “confidenza” se l’evento opposto (l’errore sarà fuori dall’intervallo) ha una probabilità di accadimento tale da poter essere trascurata. Pertanto, il livello di probabilità di confidenza è fissato, di regola, almeno a 0,90 (la probabilità dell'evento opposto è 0,10). Quanto più conseguenze negative ha il verificarsi di errori al di fuori dell'intervallo stabilito, tanto più alto dovrebbe essere il livello di probabilità di confidenza (0,95; 0,99; 0,999 e così via).

Dopo aver scelto il livello di confidenza della probabilità dalla tabella dell'integrale di probabilità della distribuzione normale, dovresti trovare il valore corrispondente di t, e quindi utilizzando l'espressione = determinare l'intervallo dell'errore massimo. Il significato del valore ottenuto è il seguente: con il livello di probabilità di confidenza accettato, l'errore massimo della media campionaria non supererà il valore .

Per stabilire i limiti dell'errore massimo sulla base di campioni di grandi dimensioni per altre stime (varianza, deviazione standard, proporzione e così via), viene utilizzato l'approccio discusso sopra, tenendo conto del fatto che viene utilizzato un algoritmo diverso per determinare la media errore per ogni stima.

Per quanto riguarda i campioni piccoli (), come già accennato, la distribuzione degli errori di stima in questo caso corrisponde alla distribuzione t - Student. La particolarità di questa distribuzione è che come parametro in essa, insieme all'errore, c'è la dimensione del campione, o meglio non la dimensione del campione, ma il numero di gradi di libertà: all'aumentare della dimensione del campione, la distribuzione t-Student si avvicina normale, e a queste distribuzioni praticamente coincidono. Confrontando i valori del valore t-Student e della distribuzione t-normale allo stesso livello di confidenza, possiamo dire che il valore t-Student è sempre maggiore della distribuzione t-normale, e le differenze aumentano al diminuire di dimensione del campione e con un aumento del livello di confidenza della probabilità. Di conseguenza, quando si utilizzano campioni piccoli, rispetto a campioni grandi, ci sono limiti più ampi dell’errore massimo, e questi limiti si espandono con una diminuzione della dimensione del campione e un aumento del livello di probabilità di confidenza.

Popolazione statistica- un insieme di unità che presentano massa, tipicità, omogeneità qualitativa e presenza di variazione.

La popolazione statistica è costituita da oggetti materialmente esistenti (dipendenti, imprese, paesi, regioni), è un oggetto.

Unità della popolazione- ciascuna unità specifica popolazione statistica.

La stessa popolazione statistica può essere omogenea in una caratteristica ed eterogenea in un'altra.

Uniformità qualitativa- somiglianza di tutte le unità della popolazione su alcune basi e dissomiglianza su tutte le altre.

In una popolazione statistica, le differenze tra un'unità di popolazione e l'altra sono spesso di natura quantitativa. I cambiamenti quantitativi nei valori di una caratteristica di diverse unità di una popolazione sono chiamati variazione.

Variazione di un tratto- un cambiamento quantitativo in una caratteristica (per una caratteristica quantitativa) durante la transizione da un'unità della popolazione a un'altra.

Cartelloè una proprietà caratteristica o altra caratteristica di unità, oggetti e fenomeni che possono essere osservati o misurati. I segni si dividono in quantitativi e qualitativi. Viene chiamata la diversità e la variabilità del valore di una caratteristica nelle singole unità di una popolazione variazione.

Le caratteristiche attributive (qualitative) non possono essere espresse numericamente (composizione della popolazione per genere). Le caratteristiche quantitative hanno un'espressione numerica (composizione della popolazione per età).

Indice- questo è un riepilogo quantitativo caratteristica di qualità qualsiasi proprietà di unità o la totalità nel suo insieme in determinate condizioni di tempo e di luogo.

Scheda segnapuntiè un insieme di indicatori che riflettono in modo completo il fenomeno oggetto di studio.

Ad esempio, lo stipendio viene studiato:
  • Segno: salario
  • Popolazione statistica: tutti i dipendenti
  • L'unità della popolazione è ogni dipendente
  • Omogeneità qualitativa - salari maturati
  • Variazione di un segno: una serie di numeri

Popolazione e campione da essa

La base è un insieme di dati ottenuti come risultato della misurazione di una o più caratteristiche. Un insieme di oggetti realmente osservati, rappresentato statisticamente da un numero di osservazioni variabile casuale, È campionamento, e l'ipoteticamente esistente (congetturale) - popolazione generale. La popolazione può essere finita (numero di osservazioni N = cost) o infinito ( N = ∞), e un campione di una popolazione è sempre il risultato di un numero limitato di osservazioni. Viene chiamato il numero di osservazioni che formano un campione misura di prova. Se la dimensione del campione è sufficientemente grande ( n → ∞) viene considerato il campione grande, altrimenti si parla di campionamento volume limitato. Il campione viene considerato piccolo, se quando si misura una variabile casuale unidimensionale la dimensione del campione non supera 30 ( N<= 30 ), e quando si misurano più simultaneamente ( K) caratteristiche nello spazio delle relazioni multidimensionali N A K non eccede 10 (n/k< 10) . Il campione si forma serie di variazioni, se i suoi membri lo sono statistica ordinale, cioè valori campione della variabile casuale X sono ordinati in ordine crescente (classificato), vengono chiamati i valori della caratteristica opzioni.

Esempio. Quasi lo stesso insieme di oggetti selezionati casualmente - banche commerciali di un distretto amministrativo di Mosca, può essere considerato come un campione della popolazione generale di tutte le banche commerciali in questo distretto e come un campione della popolazione generale di tutte le banche commerciali di Mosca , nonché un campione delle banche commerciali del paese, ecc.

Metodi di base per l'organizzazione del campionamento

Dipende dall'affidabilità delle conclusioni statistiche e dall'interpretazione significativa dei risultati rappresentatività campioni, cioè completezza ed adeguatezza della rappresentazione delle caratteristiche della popolazione generale, rispetto alla quale tale campione può ritenersi rappresentativo. Lo studio delle proprietà statistiche di una popolazione può essere organizzato in due modi: utilizzando continuo E non continuo. Osservazione continua prevede l'esame di tutti unità studiato totalità, UN osservazione parziale (selettiva).- solo parti di esso.

Esistono cinque modi principali per organizzare l’osservazione del campione:

1. selezione casuale semplice, in cui gli oggetti vengono selezionati casualmente da una popolazione di oggetti (ad esempio, utilizzando una tabella o un generatore di numeri casuali), con ciascuno dei possibili campioni avente la stessa probabilità. Tali campioni sono chiamati effettivamente casuale;

2. selezione semplice utilizzando una procedura regolare viene effettuata utilizzando un componente meccanico (ad esempio data, giorno della settimana, numero dell'appartamento, lettere dell'alfabeto, ecc.) e i campioni così ottenuti vengono chiamati meccanico;

3. stratificato la selezione consiste nel fatto che la popolazione generale del volume è divisa in sottopopolazioni o strati (strati) del volume in modo che . Gli strati sono oggetti omogenei in termini di caratteristiche statistiche (ad esempio, la popolazione è divisa in strati per fasce di età o classe sociale; le imprese - per settore). In questo caso vengono chiamati i campioni stratificato(Altrimenti, stratificato, tipico, regionalizzato);

4. metodi seriale la selezione viene utilizzata per formare seriale O campioni di nidi. Sono convenienti se è necessario rilevare contemporaneamente un "blocco" o una serie di oggetti (ad esempio un lotto di merci, prodotti di una determinata serie o la popolazione nella divisione territoriale e amministrativa del paese). La selezione delle serie può essere effettuata in modo puramente casuale o meccanicamente. In questo caso viene effettuata un'ispezione completa di un determinato lotto di beni, oppure di un'intera unità territoriale (un edificio o un isolato residenziale);

5. combinato la selezione (a gradini) può combinare diversi metodi di selezione contemporaneamente (ad esempio, stratificato e casuale o casuale e meccanico); viene chiamato un tale campione combinato.

Tipi di selezione

Di mente Si distingue la selezione individuale, di gruppo e combinata. A selezione individuale singole unità della popolazione generale vengono selezionate nella popolazione campione, con selezione del gruppo- gruppi (serie) di unità qualitativamente omogenei, e selezione combinata implica una combinazione del primo e del secondo tipo.

Di metodo la selezione è distinta ripetuto e non ripetitivo campione.

Ripetibile chiamata selezione in cui un'unità inclusa nel campione non ritorna nella popolazione originaria e non partecipa ad un'ulteriore selezione; mentre il numero di unità della popolazione generale N viene ridotto durante il processo di selezione. A ripetuto selezione preso nel campione, un'unità dopo la registrazione viene restituita alla popolazione generale e conserva quindi pari opportunità, insieme ad altre unità, di essere utilizzata in un'ulteriore procedura di selezione; mentre il numero di unità della popolazione generale N rimane invariato (il metodo è usato raramente nella ricerca socioeconomica). Tuttavia, con grandi N (N → ∞) formule per ripetibile la selezione si avvicina a quelle per ripetuto selezione e questi ultimi sono praticamente più usati ( N = cost).

Caratteristiche fondamentali dei parametri della popolazione generale e campionaria

Le conclusioni statistiche dello studio si basano sulla distribuzione della variabile casuale e sui valori osservati (x1, x2, ..., xn) sono chiamate realizzazioni della variabile casuale X(n è la dimensione del campione). La distribuzione di una variabile casuale nella popolazione generale è di natura teorica e ideale, così come lo è il suo analogo campionario empirico distribuzione. Alcune distribuzioni teoriche sono specificate analiticamente, ad es. loro opzioni determinare il valore della funzione di distribuzione in ogni punto dello spazio dei possibili valori della variabile casuale. Pertanto, per un campione, la funzione di distribuzione è difficile e talvolta impossibile da determinare opzioni vengono stimati a partire da dati empirici e poi sostituiti in un'espressione analitica che descrive la distribuzione teorica. In questo caso, l’ipotesi (o ipotesi) sul tipo di distribuzione può essere statisticamente corretto o errato. Ma in ogni caso la distribuzione empirica ricostruita dal campione caratterizza solo approssimativamente quella vera. I parametri di distribuzione più importanti sono valore atteso e varianza.

Per loro natura, le distribuzioni lo sono continuo E discreto. La distribuzione continua più conosciuta è normale. Esempi di analoghi dei parametri e per esso sono: valore medio e varianza empirica. Tra quelli discreti nella ricerca socioeconomica, il più utilizzato alternativo (dicotomico) distribuzione. Il parametro di aspettativa matematica di questa distribuzione esprime il valore relativo (o condividere) unità della popolazione che hanno la caratteristica oggetto di studio (è indicata dalla lettera); la percentuale della popolazione che non ha questa caratteristica è indicata con la lettera q (q = 1 - p). La varianza della distribuzione alternativa ha anche un analogo empirico.

A seconda del tipo di distribuzione e del metodo di selezione delle unità di popolazione, le caratteristiche dei parametri di distribuzione vengono calcolate in modo diverso. Le principali distribuzioni teoriche ed empiriche sono riportate nella tabella. 1.

Frazione campione k n Il rapporto tra il numero di unità della popolazione campione e il numero di unità della popolazione generale si chiama:

kn = n/N.

Frazione campione wè il rapporto tra le unità che possiedono la caratteristica studiata X alla dimensione del campione N:

w = nn /n.

Esempio. In un lotto di merce contenente 1000 unità, con un campione del 5%. quota campione k n in valore assoluto è di 50 unità. (n = N*0,05); se in questo campione vengono trovati 2 prodotti difettosi, allora tasso di difetti del campione w sarà 0,04 (w = 2/50 = 0,04 o 4%).

Poiché la popolazione campione è diversa dalla popolazione generale, esistono errori di campionamento.

Tabella 1. Principali parametri della popolazione generale e del campione

Errori di campionamento

In ogni caso (continui e selettivi) possono verificarsi errori di due tipi: registrazione e rappresentatività. Errori registrazione possono avere casuale E sistematico carattere. Casuale gli errori sono costituiti da molte cause diverse e incontrollabili, sono involontari e di solito si compensano a vicenda (ad esempio, variazioni delle prestazioni del dispositivo a causa di sbalzi di temperatura nella stanza).

Sistematico gli errori sono distorti perché violano le regole per la selezione degli oggetti per il campione (ad esempio, deviazioni nelle misurazioni quando si modificano le impostazioni del dispositivo di misurazione).

Esempio. Per valutare la situazione sociale della popolazione della città si prevede di intervistare il 25% delle famiglie. Se la selezione di un appartamento su quattro si basa sul suo numero, c'è il pericolo di selezionare tutti gli appartamenti di un solo tipo (ad esempio monolocali), il che comporterà un errore sistematico e distorcerà i risultati; è preferibile scegliere il numero dell'appartamento per lotto, poiché l'errore sarà casuale.

Errori di rappresentatività sono inerenti solo all'osservazione del campione, non possono essere evitati e derivano dal fatto che la popolazione campione non riproduce completamente la popolazione generale. I valori degli indicatori ottenuti dal campione differiscono dagli indicatori degli stessi valori nella popolazione generale (o ottenuti attraverso l'osservazione continua).

Distorsione del campionamentoè la differenza tra il valore del parametro nella popolazione e il suo valore campionario. Per il valore medio di una caratteristica quantitativa è pari a: , e per la quota (caratteristica alternativa) - .

Gli errori di campionamento sono inerenti solo alle osservazioni campionarie. Quanto più grandi sono questi errori, tanto più la distribuzione empirica differisce da quella teorica. I parametri della distribuzione empirica sono variabili casuali, quindi anche gli errori di campionamento sono variabili casuali, possono assumere valori diversi per campioni diversi e quindi è consuetudine calcolare errore medio.

Errore medio di campionamentoè una quantità che esprime la deviazione standard della media campionaria rispetto all'aspettativa matematica. Questo valore, soggetto al principio della selezione casuale, dipende principalmente dalla dimensione del campione e dal grado di variazione della caratteristica: quanto maggiore e minore è la variazione della caratteristica (e quindi del valore), tanto minore è l'errore medio di campionamento . La relazione tra le varianze della popolazione generale e del campione è espressa dalla formula:

quelli. quando abbastanza grande, possiamo supporre che . L'errore medio di campionamento mostra le possibili deviazioni del parametro della popolazione campione dal parametro della popolazione generale. Nella tabella 2 mostra le espressioni per il calcolo dell'errore medio di campionamento per diversi metodi di organizzazione dell'osservazione.

Tabella 2. Errore medio (m) della media del campione e proporzione per diversi tipi di campioni

Dov'è la media delle varianze campionarie all'interno del gruppo per un attributo continuo;

Media delle varianze intragruppo della proporzione;

— numero di serie selezionate, — numero totale di serie;

,

dove è la media della serie-esima;

— la media complessiva dell'intera popolazione del campione per una caratteristica continua;

,

dov'è la quota della caratteristica nella serie-esima;

— la quota totale della caratteristica nell'intera popolazione del campione.

Tuttavia, l’entità dell’errore medio può essere valutata solo con una certa probabilità P (P ≤ 1). Lyapunov A.M. ha dimostrato che la distribuzione delle medie campionarie, e quindi le loro deviazioni dalla media generale, per un numero sufficientemente grande obbedisce approssimativamente alla legge della distribuzione normale, a condizione che la popolazione generale abbia una media finita e una varianza limitata.

Matematicamente, questa affermazione per la media è espressa come:

e per la quota, l'espressione (1) assumerà la forma:

Dove - C'è errore marginale di campionamento, che è un multiplo dell'errore medio di campionamento , e il coefficiente di molteplicità è il test di Student ("coefficiente di confidenza"), proposto da W.S. Gosset (pseudonimo "Studente"); i valori per diverse dimensioni del campione sono memorizzati in una tabella speciale.

I valori della funzione Ф(t) per alcuni valori di t sono pari a:

Pertanto l'espressione (3) può essere letta così: con probabilità P = 0,683 (68,3%) si può sostenere che la differenza tra il campione e la media generale non supererà un valore dell'errore medio m(t=1), con probabilità P = 0,954 (95,4%)- che non superi il valore di due errori medi m(t = 2) , con probabilità P = 0,997 (99,7%)- non supererà i tre valori m(t = 3) . Pertanto, viene determinata la probabilità che questa differenza superi tre volte l'errore medio livello di errore e non vale niente di più 0,3% .

Nella tabella 3 mostra le formule per calcolare l'errore massimo di campionamento.

Tabella 3. Errore marginale (D) del campione per la media e proporzione (p) per diversi tipi di osservazione del campione

Generalizzazione dei risultati del campione alla popolazione

L’obiettivo finale dell’osservazione del campione è caratterizzare la popolazione generale. Con campioni di piccole dimensioni, le stime empiriche dei parametri ( e ) possono discostarsi significativamente dai loro valori reali ( e ). Pertanto, è necessario stabilire i limiti entro i quali si trovano i valori reali ( e ) per i valori campione dei parametri ( e ).

Intervallo di confidenza di qualsiasi parametro θ della popolazione generale è l'intervallo casuale di valori di questo parametro, che con una probabilità vicina a 1 ( affidabilità) contiene il valore vero di questo parametro.

Errore marginale campioni Δ consente di determinare i valori limite delle caratteristiche della popolazione generale e dei loro intervalli di confidenza, che sono uguali:

Linea di fondo intervallo di confidenza ottenuto per sottrazione errore massimo dalla media campionaria (quota) e quella superiore sommandola.

Intervallo di confidenza per la media si utilizza il massimo errore campionario e per un dato livello di confidenza è determinato dalla formula:

Ciò significa che con una data probabilità R, che viene chiamato livello di confidenza ed è determinato in modo univoco dal valore T, si può sostenere che il vero valore della media è compreso nell'intervallo da , e il valore reale dell'azione è compreso tra

Quando si calcola l'intervallo di confidenza per tre livelli di confidenza standard P = 95%, P = 99% e P = 99,9% il valore è selezionato da . Applicazioni a seconda del numero di gradi di libertà. Se la dimensione del campione è sufficientemente grande, i valori corrispondono a queste probabilità T sono uguali: 1,96, 2,58 E 3,29 . Pertanto, l'errore marginale di campionamento ci consente di determinare i valori limite delle caratteristiche della popolazione e i loro intervalli di confidenza:

La distribuzione dei risultati dell'osservazione del campione alla popolazione generale nella ricerca socioeconomica ha le sue caratteristiche, poiché richiede una rappresentazione completa di tutti i suoi tipi e gruppi. La base per la possibilità di tale distribuzione è il calcolo errore relativo:

Dove Δ % - errore di campionamento massimo relativo; , .

Esistono due metodi principali per estendere un’osservazione campionaria a una popolazione: metodo del ricalcolo diretto e dei coefficienti.

Essenza conversione diretta consiste nel moltiplicare la media campionaria!!\overline(x) per la dimensione della popolazione.

Esempio. Supponiamo che il numero medio di bambini in città sia stimato con il metodo di campionamento e ammonti a una persona. Se in città ci sono 1.000 giovani famiglie, il numero di posti richiesti negli asili nido comunali si ottiene moltiplicando questa media per la dimensione della popolazione generale N = 1.000, ovvero avrà 1200 posti.

Metodo delle probabilità Si consiglia di utilizzarlo nel caso in cui venga effettuata l'osservazione selettiva per chiarire i dati dell'osservazione continua.

Viene utilizzata la seguente formula:

dove tutte le variabili rappresentano la dimensione della popolazione:

Dimensione del campione richiesta

Tabella 4. Dimensione del campione richiesta (n) per diversi tipi di organizzazione di osservazione del campione

Quando si pianifica un'osservazione del campione con un valore predeterminato dell'errore di campionamento ammissibile, è necessario stimare correttamente l'errore richiesto misura di prova. Questo volume può essere determinato sulla base dell'errore ammissibile durante l'osservazione del campione in base a una determinata probabilità che garantisce il valore ammissibile del livello di errore (tenendo conto del metodo di organizzazione dell'osservazione). Le formule per determinare la dimensione del campione richiesta n possono essere facilmente ottenute direttamente dalle formule per l'errore massimo di campionamento. Quindi, dall'espressione per l'errore marginale:

la dimensione del campione è determinata direttamente N:

Questa formula mostra che al diminuire dell'errore di campionamento massimo Δ la dimensione del campione richiesta aumenta in modo significativo, il che è proporzionale alla varianza e al quadrato del test t di Student.

Per un metodo specifico di organizzazione dell'osservazione, la dimensione del campione richiesta viene calcolata secondo le formule riportate nella tabella. 9.4.

Esempi pratici di calcolo

Esempio 1. Calcolo del valore medio e dell'intervallo di confidenza per una caratteristica quantitativa continua.

Per valutare la velocità di liquidazione con i creditori è stato effettuato presso la banca un campione casuale di 10 documenti di pagamento. I loro valori sono risultati uguali (in giorni): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Necessario con probabilità P = 0,954 determinare l’errore marginale Δ media campionaria e limiti di confidenza del tempo medio di calcolo.

Soluzione. Il valore medio viene calcolato utilizzando la formula della tabella. 9.1 per la popolazione campione

La varianza viene calcolata utilizzando la formula della tabella. 9.1.

Errore quadratico medio della giornata.

L'errore medio si calcola utilizzando la formula:

quelli. la media è x±m = 12,0±2,3 giorni.

L'affidabilità della media era

Calcoliamo l'errore massimo utilizzando la formula della tabella. 9.3 per il campionamento ripetuto, poiché la dimensione della popolazione non è nota, e per P = 0,954 livello di fiducia.

Pertanto, il valore medio è `x ± D = `x ± 2m = 12,0 ± 4,6, ovvero il suo vero valore è compreso tra 7,4 e 16,6 giorni.

Utilizzo della tabella T di uno studente. L'applicazione ci consente di concludere che per n = 10 - 1 = 9 gradi di libertà, il valore ottenuto è affidabile con un livello di significatività di £ 0,001, ovvero il valore medio risultante è significativamente diverso da 0.

Esempio 2. Stima della probabilità (quota generale) p.

Durante un metodo di campionamento meccanico per rilevare lo stato sociale di 1000 famiglie, è emerso che la percentuale di famiglie a basso reddito era w = 0,3 (30%)(il campione era 2% , cioè. n/N = 0,02). Obbligatorio con livello di confidenza p = 0,997 determinare l'indicatore R famiglie a basso reddito in tutta la regione.

Soluzione. In base ai valori della funzione presentati Ô(t) trovare per un dato livello di confidenza P = 0,997 Senso t = 3(vedi formula 3). Errore marginale della frazione w determinare con la formula dalla tabella. 9.3 per il campionamento non ripetitivo (il campionamento meccanico è sempre non ripetitivo):

Errore massimo di campionamento relativo in % sarà:

La probabilità (quota generale) di famiglie a basso reddito nella regione sarà ð=w±Δw, e i limiti di confidenza p sono calcolati in base alla doppia disuguaglianza:

w — Δ w ≤ p ≤ w — Δ w, cioè. il vero valore di p è compreso tra:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Pertanto, con una probabilità di 0,997 si può affermare che la quota di famiglie a basso reddito tra tutte le famiglie della regione varia dal 28,6% al 31,4%.

Esempio 3. Calcolo del valore medio e dell'intervallo di confidenza per una caratteristica discreta specificata da una serie di intervalli.

Nella tabella 5. è stata specificata la distribuzione delle domande per la produzione di ordini in base ai tempi della loro attuazione da parte dell'impresa.

Tabella 5. Distribuzione delle osservazioni per tempo di comparsa

Soluzione. Il tempo medio di completamento degli ordini viene calcolato utilizzando la formula:

Il periodo medio sarà:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mesi.

Otteniamo la stessa risposta se utilizziamo i dati su p i della penultima colonna della tabella. 9.5, utilizzando la formula:

Si noti che la metà dell'intervallo dell'ultima gradazione si trova integrandola artificialmente con l'ampiezza dell'intervallo della gradazione precedente pari a 60 - 36 = 24 mesi.

La varianza viene calcolata utilizzando la formula

Dove x io- la metà della serie di intervalli.

Pertanto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), e l'errore quadratico medio è .

L'errore medio viene calcolato utilizzando la formula mensile, ovvero il valore medio è!!\overline(x) ± m = 23,1 ± 13,4.

Calcoliamo l'errore massimo utilizzando la formula della tabella. 9.3 per la selezione ripetuta, poiché la dimensione della popolazione non è nota, per un livello di confidenza di 0,954:

Quindi la media è:

quelli. il suo vero valore è compreso tra 0 e 50 mesi.

Esempio 4. Per determinare la velocità delle transazioni con i creditori di N = 500 società per azioni in una banca commerciale, è necessario condurre uno studio campione utilizzando un metodo di selezione casuale e non ripetitivo. Determinare la dimensione del campione richiesta n in modo che con probabilità P = 0,954 l'errore della media campionaria non superi i 3 giorni se le stime di prova hanno mostrato che la deviazione standard s era di 10 giorni.

Soluzione. Per determinare il numero di studi richiesti n, utilizzeremo la formula di selezione non ripetitiva dalla tabella. 9.4:

In esso, il valore t è determinato da un livello di confidenza di P = 0,954. È uguale a 2. Il valore quadratico medio è s = 10, la dimensione della popolazione è N = 500 e l'errore massimo della media è Δ x = 3. Sostituendo questi valori nella formula, otteniamo:

quelli. È sufficiente compilare un campione di 41 imprese per stimare il parametro richiesto: la velocità degli accordi con i creditori.



Condividere