Analisi correlazione-regressione in Excel: istruzioni di esecuzione. Fondamenti dell'analisi della regressione delle dipendenze dall'analisi dei dati

L'analisi di regressione è uno dei metodi più popolari di ricerca statistica. Può essere utilizzato per determinare il grado di influenza delle variabili indipendenti sulla variabile dipendente. La funzionalità di Microsoft Excel dispone di strumenti progettati per eseguire questo tipo di analisi. Diamo un'occhiata a cosa sono e come usarli.

Ma per poter utilizzare la funzione che permette di condurre l'analisi di regressione, prima di tutto, è necessario attivare il Pacchetto Analisi. Solo allora gli strumenti necessari per questa procedura appariranno sulla barra multifunzione di Excel.


Ora quando andiamo alla scheda "Dati", sulla barra multifunzione nella casella degli strumenti "Analisi" vedremo un nuovo pulsante - "Analisi dei dati".

Tipi di analisi di regressione

Esistono diversi tipi di regressione:

  • parabolico;
  • potenza;
  • logaritmico;
  • esponenziale;
  • dimostrazione;
  • iperbolico;
  • regressione lineare.

Parleremo più in dettaglio dell'implementazione dell'ultimo tipo di analisi di regressione in Excel in seguito.

Regressione lineare in Excel

Di seguito, a titolo esemplificativo, una tabella che mostra la temperatura media giornaliera dell'aria in strada e il numero di clienti del punto vendita per il corrispondente giorno lavorativo. Scopriamo con l'aiuto dell'analisi di regressione esattamente come le condizioni meteorologiche sotto forma di temperatura dell'aria possono influenzare la presenza di un punto vendita.

L'equazione di regressione lineare generale si presenta così: Y = a0 + a1x1 + ... + axk. In questa formula Y indica la variabile di cui stiamo cercando di studiare l'influenza. Nel nostro caso, questo è il numero di acquirenti. Significato X sono i vari fattori che influenzano la variabile. Opzioni un sono i coefficienti di regressione. Cioè, determinano il significato di un particolare fattore. Indice K denota il numero totale di questi stessi fattori.


Analisi dei risultati dell'analisi

I risultati dell'analisi di regressione vengono visualizzati sotto forma di tabella nella posizione specificata nelle impostazioni.

Uno degli indicatori principali è R-quadrato. Indica la qualità del modello. Nel nostro caso, questo coefficiente è 0,705 o circa 70,5%. Questo è un livello di qualità accettabile. Una relazione inferiore a 0,5 è cattiva.

Un altro indicatore importante si trova nella cella all'intersezione della linea "Intersezione a Y" e colonna "Coefficienti". Qui viene indicato quale valore avrà Y e, nel nostro caso, questo è il numero di acquirenti, con tutti gli altri fattori pari a zero. In questa tabella, questo valore è 58,04.

Valore all'intersezione del grafico "Variabile X1" e "Coefficienti" mostra il livello di dipendenza di Y da X. Nel nostro caso, questo è il livello di dipendenza del numero di clienti del negozio dalla temperatura. Un coefficiente di 1,31 è considerato un indicatore di influenza abbastanza alto.

Come puoi vedere, è abbastanza facile creare una tabella di analisi di regressione utilizzando Microsoft Excel. Ma solo una persona addestrata può lavorare con i dati ottenuti all'output e comprenderne l'essenza.

In presenza di una correlazione tra fattore e segni risultanti, i medici devono spesso determinare di quanto può cambiare il valore di un segno quando un altro viene modificato da un'unità di misura generalmente accettata o stabilita dallo stesso ricercatore.

Ad esempio, come cambierà il peso corporeo degli scolari di 1a elementare (ragazze o ragazzi) se la loro altezza aumenta di 1 cm A tale scopo viene utilizzato il metodo dell'analisi di regressione.

Molto spesso, il metodo dell'analisi di regressione viene utilizzato per sviluppare scale e standard normativi per lo sviluppo fisico.

  1. Definizione di regressione. La regressione è una funzione che consente, in base al valore medio di un attributo, di determinare il valore medio di un altro attributo correlato al primo.

    A tale scopo vengono utilizzati il ​​coefficiente di regressione e una serie di altri parametri. Ad esempio, puoi calcolare il numero di raffreddori in media a determinati valori della temperatura media mensile dell'aria nel periodo autunno-inverno.

  2. Definizione del coefficiente di regressione. Il coefficiente di regressione è il valore assoluto di cui il valore di un attributo cambia in media quando un altro attributo ad esso associato cambia dell'unità di misura stabilita.
  3. Formula del coefficiente di regressione. R y / x \u003d r xy x (σ y / σ x)
    dove R y / x - coefficiente di regressione;
    r xy - coefficiente di correlazione tra le caratteristiche xey;
    (σ y e σ x) - deviazioni standard delle caratteristiche x e y.

    Nel nostro esempio;
    σ x = 4,6 (deviazione standard della temperatura dell'aria nel periodo autunno-inverno;
    σ y = 8,65 (deviazione standard del numero di raffreddori infettivi).
    Pertanto, R y/x è il coefficiente di regressione.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, ad es. con una diminuzione della temperatura media mensile dell'aria (x) di 1 grado, il numero medio di raffreddori infettivi (y) nel periodo autunno-inverno cambierà di 1,8 casi.

  4. Equazione di regressione. y \u003d M y + R y / x (x - M x)
    dove y è il valore medio dell'attributo, che dovrebbe essere determinato quando cambia il valore medio di un altro attributo (x);
    x - valore medio noto di un'altra caratteristica;
    R y/x - coefficiente di regressione;
    M x, M y - valori medi noti delle caratteristiche x e y.

    Ad esempio, il numero medio di raffreddori infettivi (y) può essere determinato senza misurazioni speciali a qualsiasi valore medio della temperatura media mensile dell'aria (x). Quindi, se x \u003d - 9 °, R y / x \u003d 1,8 malattie, M x \u003d -7 °, M y \u003d 20 malattie, allora y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 malattie.
    Questa equazione si applica nel caso di una relazione di linea retta tra due caratteristiche (x e y).

  5. Scopo dell'equazione di regressione. L'equazione di regressione viene utilizzata per tracciare la retta di regressione. Quest'ultimo consente, senza misure speciali, di determinare un qualsiasi valore medio (y) di un attributo, se il valore (x) di un altro attributo cambia. Sulla base di questi dati, viene costruito un grafico - linea di regressione, che può essere utilizzato per determinare il numero medio di raffreddori a qualsiasi valore della temperatura media mensile nell'intervallo tra i valori calcolati del numero di raffreddori.
  6. Sigma di regressione (formula).
    dove σ Ru/x - sigma (deviazione standard) della regressione;
    σ y è la deviazione standard della caratteristica y;
    r xy - coefficiente di correlazione tra le caratteristiche x e y.

    Quindi, se σ y è la deviazione standard del numero di raffreddori = 8,65; r xy - il coefficiente di correlazione tra il numero di raffreddori (y) e la temperatura media mensile dell'aria nel periodo autunno-inverno (x) è - 0,96, quindi

  7. Scopo della regressione sigma. Fornisce una caratteristica della misura della diversità della caratteristica risultante (y).

    Ad esempio, caratterizza la diversità del numero di raffreddori ad un certo valore della temperatura media mensile dell'aria nel periodo autunno-inverno. Quindi, il numero medio di raffreddori a temperatura dell'aria x 1 \u003d -6 ° può variare da 15,78 malattie a 20,62 malattie.
    A x 2 = -9°, il numero medio di raffreddori può variare da 21,18 malattie a 26,02 malattie, ecc.

    Il sigma di regressione viene utilizzato nella costruzione di una scala di regressione, che riflette la deviazione dei valori dell'attributo effettivo dal suo valore medio tracciato sulla retta di regressione.

  8. Dati necessari per calcolare e tracciare la scala di regressione
    • coefficiente di regressione - Ry/x;
    • equazione di regressione - y \u003d M y + R y / x (x-M x);
    • regressione sigma - σ Rx/y
  9. La sequenza dei calcoli e la rappresentazione grafica della scala di regressione.
    • determinare il coefficiente di regressione mediante la formula (vedi paragrafo 3). Ad esempio, si dovrebbe determinare quanto cambierà in media il peso corporeo (ad una certa età a seconda del sesso) se l'altezza media cambia di 1 cm.
    • secondo la formula dell'equazione di regressione (vedi paragrafo 4), determinare quale sarà la media, ad esempio, il peso corporeo (y, y 2, y 3 ...) * per un certo valore di crescita (x, x 2, x 3...) .
      ________________
      * Il valore di "y" deve essere calcolato per almeno tre valori noti di "x".

      Allo stesso tempo, sono noti i valori medi di peso corporeo e altezza (M x e M y) per una certa età e sesso

    • calcolare il sigma della regressione, conoscendo i corrispondenti valori di σ y e r xy e sostituendo i loro valori nella formula (vedi paragrafo 6).
    • in base ai valori noti x 1, x 2, x 3 e ai loro valori medi corrispondenti y 1, y 2 y 3, nonché il più piccolo (y - σ ru / x) e il più grande (y + σ ru / x) i valori (y) costruiscono una scala di regressione.

      Per una rappresentazione grafica della scala di regressione, i valori x, x 2 , x 3 (asse y) vengono prima contrassegnati sul grafico, ad es. viene costruita una retta di regressione, ad esempio, la dipendenza del peso corporeo (y) dall'altezza (x).

      Quindi, nei punti corrispondenti y 1 , y 2 , y 3 vengono segnati i valori numerici della regressione sigma, ovvero sul grafico trova i valori più piccolo e più grande di y 1 , y 2 , y 3 .

  10. Uso pratico della scala di regressione. Si stanno sviluppando scale e standard normativi, in particolare per lo sviluppo fisico. Secondo la scala standard, è possibile dare una valutazione individuale dello sviluppo dei bambini. Allo stesso tempo, lo sviluppo fisico è valutato come armonioso se, ad esempio, a una certa altezza, il peso corporeo del bambino rientra in un sigma di regressione all'unità media calcolata del peso corporeo - (y) per una data altezza (x) ( y ± 1 σ Ry / x).

    Lo sviluppo fisico è considerato disarmonico in termini di peso corporeo se il peso corporeo del bambino per una certa altezza rientra nel secondo sigma di regressione: (y ± 2 σ Ry/x)

    Lo sviluppo fisico sarà nettamente disarmonico sia per eccesso che per insufficiente peso corporeo se il peso corporeo per una certa altezza rientra nel terzo sigma della regressione (y ± 3 σ Ry/x).

Secondo i risultati di uno studio statistico sullo sviluppo fisico dei bambini di 5 anni, è noto che la loro altezza media (x) è di 109 cm e il loro peso corporeo medio (y) è di 19 kg. Il coefficiente di correlazione tra altezza e peso corporeo è +0,9, le deviazioni standard sono presentate nella tabella.

Necessario:

  • calcolare il coefficiente di regressione;
  • mediante l'equazione di regressione determinare quale sarà il peso corporeo atteso di bambini di 5 anni con altezza pari a x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calcolare il sigma di regressione, costruire una scala di regressione, presentare graficamente i risultati della sua soluzione;
  • trarre le dovute conclusioni.

La condizione del problema ei risultati della sua soluzione sono presentati nella tabella riassuntiva.

Tabella 1

Condizioni del problema Risultati della soluzione del problema
equazione di regressione regressione sigma scala di regressione (peso corporeo previsto (in kg))
M σ r xy R y/x X In σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Altezza (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Peso corporeo (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Soluzione.

Conclusione. Pertanto, la scala di regressione all'interno dei valori calcolati del peso corporeo consente di determinarlo per qualsiasi altro valore di crescita o di valutare lo sviluppo individuale del bambino. Per fare ciò, ripristinare la perpendicolare alla retta di regressione.

  1. Vlasov V.V. Epidemiologia. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sanità pubblica e sanità. Libro di testo per le scuole superiori. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik VA, Yuriev V.K. Un corso di lezioni sulla salute pubblica e l'assistenza sanitaria: Parte 1. Salute pubblica. - M.: Medicina, 2003. - 368 p.
  4. Minyaev VA, Vishnyakov NI e altri Medicina sociale e organizzazione sanitaria (Guida in 2 volumi). - San Pietroburgo, 1998. -528 pag.
  5. Kucherenko VZ, Agarkov NM e altri Igiene sociale e organizzazione dell'assistenza sanitaria (Tutorial) - Mosca, 2000. - 432 p.
  6. S.Glantz. Statistica medico-biologica. Per dall'inglese. - M., Pratica, 1998. - 459 p.

Il concetto di regressione. Relazione tra variabili X e y può essere descritto in diversi modi. In particolare, qualsiasi forma di connessione può essere espressa da un'equazione generale, dove y trattata come una variabile dipendente, o funzioni da un altro - una variabile indipendente x, chiamata discussione. La corrispondenza tra un argomento e una funzione può essere data da una tabella, una formula, un grafico e così via. Viene chiamata la modifica di una funzione in base a una modifica in uno o più argomenti regressione. Tutti i mezzi usati per descrivere le correlazioni sono il contenuto analisi di regressione.

Le equazioni di correlazione, o equazioni di regressione, le serie di regressione empiriche e calcolate teoricamente, i loro grafici, chiamati linee di regressione, nonché i coefficienti di regressione lineare e non lineare, servono ad esprimere la regressione.

Gli indicatori di regressione esprimono la correlazione bidirezionale, tenendo conto della variazione dei valori medi dell'attributo Y quando si cambiano i valori X io cartello X, e viceversa, mostra la variazione dei valori medi della feature X da valori modificati y io cartello Y. L'eccezione sono le serie temporali, o serie di dinamiche, che mostrano il cambiamento dei segni nel tempo. La regressione di tali serie è unilaterale.

Esistono diverse forme e tipi di correlazioni. Il compito si riduce a individuare la forma di connessione in ogni caso specifico ed esprimerla mediante la corrispondente equazione di correlazione, che permette di prevedere possibili cambiamenti in un segno Y sulla base di modifiche note X, associato alla prima correlazione.

12.1 Regressione lineare

Equazione di regressione. I risultati di osservazioni effettuate su un particolare oggetto biologico secondo caratteristiche correlate X e y, può essere rappresentato da punti su un piano costruendo un sistema di coordinate rettangolari. Di conseguenza, si ottiene un certo diagramma a dispersione, che consente di giudicare la forma e la tenuta della relazione tra le diverse caratteristiche. Molto spesso questa relazione sembra una linea retta o può essere approssimata da una linea retta.

Relazione lineare tra variabili X e yè descritto da un'equazione generale , dove a, b, c, d,… sono i parametri dell'equazione che determinano la relazione tra gli argomenti X 1 , X 2 , X 3 , …, X m e funzioni.

In pratica non vengono presi in considerazione tutti gli argomenti possibili, ma solo alcuni argomenti, nel caso più semplice uno solo:

Nell'equazione di regressione lineare (1) unè un termine libero e il parametro b determina la pendenza della retta di regressione rispetto agli assi delle coordinate rettangolari. Nella geometria analitica, questo parametro è chiamato fattore di pendenza, e in biometria - coefficiente di regressione. Una rappresentazione visiva di questo parametro e la posizione delle linee di regressione Y Su X e X Su Y nel sistema di coordinate rettangolari dà Fig.1.

Riso. 1 rette di regressione Y per X e X per Y nel sistema

coordinate rettangolari

Le rette di regressione, come mostrato in Fig. 1, si intersecano nel punto O (,), corrispondenti ai valori medi aritmetici dei segni correlati tra loro Y e X. Quando si tracciano grafici di regressione, i valori della variabile indipendente X vengono tracciati lungo l'ascissa e i valori della variabile dipendente, o funzione Y, vengono tracciati lungo l'ordinata La linea AB passante per il punto O (, ) corrisponde alla relazione completa (funzionale) tra le variabili Y e X quando il coefficiente di correlazione. Più forte è la connessione tra Y e X, più le rette di regressione sono vicine ad AB e, al contrario, più debole è la relazione tra questi valori, più le rette di regressione sono distanti da AB. In assenza di una connessione tra le caratteristiche, le rette di regressione sono ad angolo retto tra loro e .

Poiché gli indicatori di regressione esprimono la correlazione bidirezionale, l'equazione di regressione (1) dovrebbe essere scritta come segue:

Secondo la prima formula, i valori medi sono determinati quando cambia il segno X per unità di misura, sul secondo - valori medi quando una caratteristica viene modificata per unità di misura Y.

Coefficiente di regressione. Il coefficiente di regressione mostra come, in media, il valore di una caratteristica y cambia quando un'altra unità di misura, correlata con Y cartello X. Questo indicatore è determinato dalla formula

Qui valori S moltiplicare per la dimensione degli intervalli di classe λ se sono stati trovati da serie di variazioni o tabelle di correlazione.

Il coefficiente di regressione può essere calcolato bypassando il calcolo delle deviazioni standard S y e S X secondo la formula

Se il coefficiente di correlazione è sconosciuto, il coefficiente di regressione è determinato come segue:

Relazione tra regressione e coefficienti di correlazione. Confrontando le formule (11.1) (argomento 11) e (12.5), vediamo che il loro numeratore contiene lo stesso valore, che indica una connessione tra questi indicatori. Questa relazione è espressa dall'uguaglianza

Pertanto, il coefficiente di correlazione è uguale alla media geometrica dei coefficienti b yx e b xy. La formula (6) consente, in primo luogo, dai valori noti dei coefficienti di regressione b yx e b xy determinare il coefficiente di regressione R xy, e in secondo luogo, per verificare la correttezza del calcolo di questo indicatore di correlazione R xy tra tratti diversi X e Y.

Come il coefficiente di correlazione, il coefficiente di regressione caratterizza solo una relazione lineare ed è accompagnato da un segno più per una relazione positiva e un segno meno per una relazione negativa.

Determinazione dei parametri di regressione lineare.È noto che la somma delle deviazioni al quadrato della variante X io dalla media c'è il valore più piccolo, cioè questo teorema costituisce la base del metodo dei minimi quadrati. Per quanto riguarda la regressione lineare [vedi formula (1)], il requisito di questo teorema è soddisfatto da un certo sistema di equazioni chiamato normale:

Soluzione congiunta di queste equazioni rispetto ai parametri un e b porta ai seguenti risultati:

;

;

, donde i.

Data la natura bidirezionale della relazione tra le variabili Y e X, la formula per determinare il parametro un dovrebbe essere espresso così:

e . (7)

Parametro b, o coefficiente di regressione, è determinato dalle seguenti formule:

Costruzione di serie di regressioni empiriche. In presenza di un gran numero di osservazioni, l'analisi di regressione inizia con la costruzione di serie di regressioni empiriche. Serie di regressioni empiriche si forma calcolando i valori di un attributo variabile X valori medi dell'altro, correlati con X cartello Y. In altre parole, la costruzione di serie di regressione empirica si riduce a trovare il gruppo significa u dai corrispondenti valori dei segni Y e X.

Una serie di regressione empirica è una doppia serie di numeri che può essere rappresentata da punti su un piano e quindi, collegando questi punti con segmenti di retta, si può ottenere una retta di regressione empirica. Serie di regressioni empiriche, in particolare le loro trame, chiamate linee di regressione, danno una rappresentazione visiva della forma e della tenuta della dipendenza di correlazione tra caratteristiche variabili.

Equalizzazione di serie di regressioni empiriche. I grafici delle serie di regressione empirica sono, di regola, linee spezzate piuttosto che linee lisce. Ciò è spiegato dal fatto che, insieme alle ragioni principali che determinano l'andamento generale nella variabilità dei tratti correlati, il loro valore è influenzato dall'influenza di numerose cause secondarie che determinano fluttuazioni casuali nei punti nodali della regressione. Per identificare la tendenza principale (tendenza) della variazione coniugata delle caratteristiche correlate, è necessario sostituire le linee spezzate con linee di regressione lisce e scorrevoli. Viene chiamato il processo di sostituzione delle linee spezzate con quelle lisce allineamento di serie empiriche e linee di regressione.

Metodo di allineamento grafico. Questo è il metodo più semplice che non richiede lavoro di calcolo. La sua essenza è la seguente. La serie di regressione empirica viene tracciata come un grafico in un sistema di coordinate rettangolare. Quindi, i punti medi della regressione vengono delineati visivamente, lungo i quali viene tracciata una linea continua utilizzando un righello o un motivo. Lo svantaggio di questo metodo è evidente: non esclude l'influenza delle caratteristiche individuali del ricercatore sui risultati dell'allineamento delle linee di regressione empirica. Pertanto, nei casi in cui è richiesta una maggiore precisione quando si sostituiscono le linee di regressione spezzate con quelle lisce, vengono utilizzati altri metodi per allineare le serie empiriche.

Metodo della media mobile. L'essenza di questo metodo si riduce al calcolo sequenziale della media aritmetica di due o tre membri vicini della serie empirica. Questo metodo è particolarmente conveniente nei casi in cui la serie empirica è rappresentata da un gran numero di termini, in modo che la perdita di due di essi - quelli estremi, inevitabile con questo metodo di equalizzazione, non influisca notevolmente sulla sua struttura.

Metodo dei minimi quadrati. Questo metodo fu proposto all'inizio del XIX secolo da A.M. Legendre e, indipendentemente da lui, K. Gauss. Ti consente di allineare con la massima precisione le serie empiriche. Questo metodo, come mostrato sopra, si basa sul presupposto che la somma delle deviazioni al quadrato della variante X io dalla loro media c'è un valore minimo, cioè da qui il nome del metodo, che viene utilizzato non solo in ecologia, ma anche in tecnologia. Il metodo dei minimi quadrati è oggettivo e universale, viene utilizzato in una varietà di casi quando si trovano equazioni empiriche di serie di regressione e si determinano i loro parametri.

Il requisito del metodo dei minimi quadrati è che i punti teorici della retta di regressione devono essere ottenuti in modo tale che la somma delle deviazioni al quadrato da questi punti per le osservazioni empiriche y io era minimo, cioè

Calcolando il minimo di tale espressione secondo i principi dell'analisi matematica e trasformandolo in un certo modo si ottiene un sistema di cosiddette equazioni normali, in cui i valori sconosciuti sono i parametri desiderati dell'equazione di regressione e i coefficienti noti sono determinati dai valori empirici delle caratteristiche, solitamente la somma dei loro valori e dei loro prodotti incrociati.

Regressione lineare multipla. La relazione tra più variabili è solitamente espressa da un'equazione di regressione multipla, che può essere lineare e non lineare. Nella sua forma più semplice, la regressione multipla è espressa da un'equazione con due variabili indipendenti ( X, z):

dove unè il termine libero dell'equazione; b e c sono i parametri dell'equazione. Per trovare i parametri dell'equazione (10) (con il metodo dei minimi quadrati), viene utilizzato il seguente sistema di equazioni normali:

Righe di dinamica. Allineamento delle file. Il cambiamento di segni nel tempo forma il cosiddetto serie temporali o righe di dinamica. Una caratteristica di tali serie è che il fattore tempo agisce sempre qui come variabile indipendente X e il segno variabile è la variabile dipendente Y. A seconda della serie di regressione, la relazione tra le variabili X e Y è unilaterale, poiché il fattore tempo non dipende dalla variabilità delle caratteristiche. Nonostante queste caratteristiche, le serie temporali possono essere paragonate a serie di regressione ed elaborate con gli stessi metodi.

Come le serie di regressione, le serie temporali empiriche sono influenzate non solo dai principali, ma anche da numerosi fattori secondari (casuali) che oscurano l'andamento principale della variabilità delle caratteristiche, che nel linguaggio della statistica è chiamato tendenza.

L'analisi delle serie temporali inizia con l'identificazione della forma del trend. Per fare ciò, la serie temporale è rappresentata come un grafico a linee in un sistema di coordinate rettangolare. Allo stesso tempo, i punti temporali (anni, mesi e altre unità di tempo) vengono tracciati lungo l'asse delle ascisse e i valori della variabile dipendente Y vengono tracciati lungo l'asse delle ordinate è l'equazione di regressione sotto forma di deviazioni dei termini della serie della variabile dipendente Y dalla media aritmetica della serie della variabile indipendente X:

Ecco il parametro di regressione lineare.

Caratteristiche numeriche della serie di dinamiche. Le principali caratteristiche numeriche generalizzanti della serie di dinamiche includono media geometrica e una media aritmetica vicino ad esso. Caratterizzano il tasso medio al quale il valore della variabile dipendente cambia in determinati periodi di tempo:

Una stima della variabilità dei termini delle serie dinamiche è deviazione standard. Quando si scelgono le equazioni di regressione per descrivere le serie temporali, viene presa in considerazione la forma della tendenza, che può essere lineare (o ridotta a lineare) e non lineare. La correttezza della scelta dell'equazione di regressione è solitamente giudicata dalla somiglianza dei valori osservati empiricamente e calcolati della variabile dipendente. Più accurato nel risolvere questo problema è il metodo dell'analisi di regressione della varianza (argomento 12 p.4).

Correlazione di serie di dinamiche. Spesso è necessario confrontare le dinamiche di serie temporali parallele che sono correlate tra loro da alcune condizioni generali, ad esempio per scoprire la relazione tra produzione agricola e crescita del bestiame in un determinato periodo di tempo. In tali casi, la relazione tra le variabili X e Y è caratterizzata da coefficiente di correlazione R xy (in presenza di un andamento lineare).

È noto che l'andamento della serie della dinamica, di regola, è oscurato dalle fluttuazioni nei termini della serie della variabile dipendente Y. Si pone quindi un duplice problema: misurare la dipendenza tra serie confrontate, senza escludere la tendenza, e misurare la dipendenza tra membri adiacenti della stessa serie, escludendo la tendenza. Nel primo caso, un indicatore della vicinanza della connessione tra le serie di dinamiche confrontate è coefficiente di correlazione(se la relazione è lineare), nel secondo - coefficiente di autocorrelazione. Questi indicatori hanno valori diversi, sebbene siano calcolati utilizzando le stesse formule (vedi argomento 11).

È facile notare che il valore del coefficiente di autocorrelazione è influenzato dalla variabilità dei membri della serie della variabile dipendente: meno i membri della serie si discostano dal trend, maggiore è il coefficiente di autocorrelazione e viceversa.

Analisi di regressione e correlazione - metodi di ricerca statistica. Questi sono i modi più comuni per mostrare la dipendenza di un parametro da una o più variabili indipendenti.

Di seguito, usando esempi pratici concreti, considereremo queste due analisi molto popolari tra gli economisti. Daremo anche un esempio di come ottenere risultati quando vengono combinati.

Analisi di regressione in Excel

Mostra l'influenza di alcuni valori (indipendenti, indipendenti) sulla variabile dipendente. Ad esempio, come il numero di popolazione economicamente attiva dipende dal numero di imprese, salari e altri parametri. Oppure: in che modo gli investimenti esteri, i prezzi dell'energia, ecc. influiscono sul livello del PIL.

Il risultato dell'analisi consente di stabilire le priorità. E sulla base dei fattori principali, prevedere, pianificare lo sviluppo delle aree prioritarie, prendere decisioni di gestione.

La regressione avviene:

  • lineare (y = a + bx);
  • parabolico (y = a + bx + cx 2);
  • esponenziale (y = a * exp(bx));
  • potenza (y = a*x^b);
  • iperbolico (y = b/x + a);
  • logaritmico (y = b * 1n(x) + a);
  • esponenziale (y = a * b^x).

Considera l'esempio della creazione di un modello di regressione in Excel e dell'interpretazione dei risultati. Prendiamo un tipo di regressione lineare.

Un compito. In 6 imprese sono stati analizzati lo stipendio medio mensile e il numero di dipendenti usciti. È necessario determinare la dipendenza del numero dei pensionati dalla retribuzione media.

Il modello di regressione lineare ha la seguente forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Dove a sono i coefficienti di regressione, x sono le variabili che influenzano e k è il numero di fattori.

Nel nostro esempio, Y è l'indicatore delle dimissioni dei lavoratori. Il fattore che influenza è il salario (x).

Excel dispone di funzioni integrate che possono essere utilizzate per calcolare i parametri di un modello di regressione lineare. Ma il componente aggiuntivo Analysis ToolPak lo farà più velocemente.

Attiva un potente strumento analitico:

Una volta attivato, il componente aggiuntivo sarà disponibile nella scheda Dati.

Ora ci occuperemo direttamente dell'analisi di regressione.



Prima di tutto, prestiamo attenzione al quadrato R e ai coefficienti.

R-quadrato è il coefficiente di determinazione. Nel nostro esempio, è 0,755, o 75,5%. Ciò significa che i parametri calcolati del modello spiegano la relazione tra i parametri studiati del 75,5%. Maggiore è il coefficiente di determinazione, migliore è il modello. Buono - superiore a 0,8. Scarso - inferiore a 0,5 (un'analisi del genere difficilmente può essere considerata ragionevole). Nel nostro esempio - "non male".

Il coefficiente 64.1428 mostra quale sarà Y se tutte le variabili nel modello in esame sono uguali a 0. Cioè, anche altri fattori non descritti nel modello influiscono sul valore del parametro analizzato.

Il coefficiente -0,16285 mostra il peso della variabile X su Y. Cioè, lo stipendio medio mensile all'interno di questo modello influisce sul numero di abbandoni con un peso di -0,16285 (questo è un piccolo grado di influenza). Il segno “-” indica un impatto negativo: più alto è lo stipendio, meno abbandoni. Il che è giusto.



Analisi di correlazione in Excel

L'analisi di correlazione aiuta a stabilire se esiste una relazione tra gli indicatori in uno o due campioni. Ad esempio, tra il tempo di funzionamento della macchina e il costo delle riparazioni, il prezzo dell'attrezzatura e la durata del funzionamento, l'altezza e il peso dei bambini, ecc.

Se c'è una relazione, allora se un aumento di un parametro porta ad un aumento (correlazione positiva) o una diminuzione (negativa) nell'altro. L'analisi di correlazione aiuta l'analista a determinare se il valore di un indicatore può prevedere il possibile valore di un altro.

Il coefficiente di correlazione è indicato con r. Varia da +1 a -1. La classificazione delle correlazioni per le diverse aree sarà diversa. Quando il valore del coefficiente è 0, non esiste una relazione lineare tra i campioni.

Considera come utilizzare Excel per trovare il coefficiente di correlazione.

La funzione CORREL viene utilizzata per trovare i coefficienti accoppiati.

Compito: determinare se esiste una relazione tra il tempo di funzionamento di un tornio e il costo della sua manutenzione.

Posiziona il cursore in una cella qualsiasi e premi il pulsante fx.

  1. Nella categoria "Statistiche", selezionare la funzione CORRELAZIONE.
  2. Argomento "Array 1" - il primo intervallo di valori - il tempo della macchina: A2: A14.
  3. Argomento "Array 2" - il secondo intervallo di valori - il costo delle riparazioni: B2:B14. Fare clic su OK.

Per determinare il tipo di connessione, è necessario guardare il numero assoluto del coefficiente (ogni campo di attività ha una propria scala).

Per l'analisi di correlazione di più parametri (più di 2), è più conveniente utilizzare "Analisi dei dati" (componente aggiuntivo "Pacchetto di analisi"). Nell'elenco, è necessario selezionare una correlazione e designare una matrice. Tutto.

I coefficienti risultanti verranno visualizzati nella matrice di correlazione. Come questo:

Analisi di correlazione-regressione

In pratica, queste due tecniche sono spesso usate insieme.

Esempio:


Ora i dati dell'analisi di regressione sono visibili.

La caratteristica principale dell'analisi di regressione è che può essere utilizzata per ottenere informazioni specifiche sulla forma e la natura della relazione tra le variabili oggetto di studio.

La sequenza delle fasi dell'analisi di regressione

Consideriamo brevemente le fasi dell'analisi di regressione.

    Formulazione del compito. In questa fase si formano ipotesi preliminari sulla dipendenza dei fenomeni studiati.

    Definizione di variabili dipendenti e indipendenti (esplicative).

    Raccolta di dati statistici. I dati devono essere raccolti per ciascuna delle variabili incluse nel modello di regressione.

    Formulazione di un'ipotesi sulla forma della connessione (semplice o multipla, lineare o non lineare).

    Definizione funzioni di regressione (consiste nel calcolo dei valori numerici dei parametri dell'equazione di regressione)

    Valutazione dell'accuratezza dell'analisi di regressione.

    Interpretazione dei risultati ottenuti. I risultati dell'analisi di regressione vengono confrontati con ipotesi preliminari. Si valuta la correttezza e la plausibilità dei risultati ottenuti.

    Previsione di valori sconosciuti della variabile dipendente.

Con l'aiuto dell'analisi di regressione è possibile risolvere il problema della previsione e della classificazione. I valori predittivi vengono calcolati sostituendo i valori delle variabili esplicative nell'equazione di regressione. Il problema di classificazione viene risolto in questo modo: la retta di regressione divide l'intero insieme di oggetti in due classi, e la parte dell'insieme in cui il valore della funzione è maggiore di zero appartiene a una classe, e la parte in cui è minore di zero appartiene a un'altra classe.

Compiti di analisi di regressione

Considera i compiti principali dell'analisi di regressione: stabilire la forma di dipendenza, determinare funzioni di regressione, una stima dei valori incogniti della variabile dipendente.

Stabilire la forma di dipendenza.

La natura e la forma della relazione tra variabili possono formare i seguenti tipi di regressione:

    regressione lineare positiva (espressa come una crescita uniforme della funzione);

    regressione positiva uniformemente accelerata;

    regressione positiva uniformemente crescente;

    regressione lineare negativa (espressa come un calo uniforme della funzione);

    regressione decrescente uniformemente accelerata negativa;

    regressione negativa uniformemente decrescente.

Tuttavia, le varietà descritte di solito non si trovano in forma pura, ma in combinazione tra loro. In questo caso si parla di forme combinate di regressione.

Definizione della funzione di regressione.

Il secondo compito è scoprire l'effetto sulla variabile dipendente dei principali fattori o cause, a parità di altre condizioni, e con l'esclusione dell'impatto sulla variabile dipendente degli elementi casuali. funzione di regressione definita come un'equazione matematica di un tipo o dell'altro.

Stima di valori incogniti della variabile dipendente.

La soluzione di questo problema si riduce alla risoluzione di un problema di uno dei seguenti tipi:

    Stima dei valori della variabile dipendente all'interno dell'intervallo considerato dei dati iniziali, ovvero valori mancanti; questo risolve il problema dell'interpolazione.

    Stima dei valori futuri della variabile dipendente, ad es. trovare valori al di fuori dell'intervallo dato dei dati iniziali; questo risolve il problema dell'estrapolazione.

Entrambi i problemi vengono risolti sostituendo nell'equazione di regressione le stime trovate dei parametri dei valori delle variabili indipendenti. Il risultato della risoluzione dell'equazione è una stima del valore della variabile target (dipendente).

Diamo un'occhiata ad alcune delle ipotesi su cui si basa l'analisi di regressione.

Assunzione di linearità, cioè si assume che la relazione tra le variabili in esame sia lineare. Quindi, in questo esempio, abbiamo costruito un grafico a dispersione e siamo stati in grado di vedere una chiara relazione lineare. Se, sul grafico a dispersione delle variabili, vediamo una chiara assenza di una relazione lineare, ad es. esiste una relazione non lineare, dovrebbero essere utilizzati metodi di analisi non lineari.

Assunzione di normalità avanzi. Presuppone che la distribuzione della differenza tra i valori previsti e quelli osservati sia normale. Per determinare visivamente la natura della distribuzione, puoi utilizzare gli istogrammi avanzi.

Quando si utilizza l'analisi di regressione, si dovrebbe tener conto del suo limite principale. Consiste nel fatto che l'analisi di regressione consente di rilevare solo le dipendenze e non le relazioni che stanno alla base di tali dipendenze.

L'analisi di regressione consente di valutare il grado di associazione tra variabili calcolando il valore atteso di una variabile sulla base di più valori noti.

Equazione di regressione.

L'equazione di regressione si presenta così: Y=a+b*X

Usando questa equazione, la variabile Y è espressa in termini di costante a e la pendenza della retta (o pendenza) b moltiplicata per il valore della variabile X. La costante a è anche chiamata intercetta e la pendenza è la regressione coefficiente o fattore B.

Nella maggior parte dei casi (se non sempre) c'è una certa dispersione di osservazioni sulla retta di regressione.

Resto è la deviazione di un singolo punto (osservazione) dalla retta di regressione (valore previsto).

Per risolvere il problema dell'analisi di regressione in MS Excel, seleziona dal menu Servizio"Pacchetto analisi" e lo strumento di analisi di regressione. Specificare gli intervalli di input X e Y. L'intervallo di input Y è l'intervallo di dati dipendenti analizzati e deve includere una colonna. L'intervallo di input X è l'intervallo di dati indipendenti da analizzare. Il numero di campi di ingresso non deve superare 16.

All'output della procedura nell'intervallo di output, otteniamo il rapporto fornito tabella 8.3a-8.3v.

RISULTATI

Tabella 8.3a. Statistiche di regressione

Statistiche di regressione

Multiplo R

R-quadrato

R-quadrato normalizzato

errore standard

Osservazioni

Innanzitutto, considera la parte superiore dei calcoli presentati in tabella 8.3a, - statistiche di regressione.

Valore R-quadrato, detta anche misura di certezza, caratterizza la qualità della retta di regressione risultante. Questa qualità è espressa dal grado di corrispondenza tra i dati originali e il modello di regressione (dati calcolati). La misura della certezza è sempre all'interno dell'intervallo.

Nella maggior parte dei casi, il valore R-quadratoè tra questi valori, chiamato estremo, cioè tra zero e uno.

Se il valore R quadrato vicino all'unità, ciò significa che il modello costruito spiega quasi tutta la variabilità delle variabili corrispondenti. Al contrario, il valore R quadrato, vicino a zero, significa scarsa qualità del modello costruito.

Nel nostro esempio, la misura della certezza è 0,99673, che indica un ottimo adattamento della linea di regressione ai dati originali.

plurale R - coefficiente di correlazione multipla R - esprime il grado di dipendenza di variabili indipendenti (X) e variabili dipendenti (Y).

Multiplo R uguale alla radice quadrata del coefficiente di determinazione, questo valore assume valori compresi tra zero e uno.

Nella semplice analisi di regressione lineare plurale R uguale al coefficiente di correlazione di Pearson. Veramente, plurale R nel nostro caso è uguale al coefficiente di correlazione di Pearson dell'esempio precedente (0,998364).

Tabella 8.3b. Coefficienti di regressione

Probabilità

errore standard

statistica t

Intersezione a Y

Variabile X 1

* Viene fornita una versione troncata dei calcoli

Consideriamo ora la parte centrale dei calcoli presentati in tabella 8.3b. Qui vengono forniti il ​​coefficiente di regressione b (2,305454545) e l'offset lungo l'asse y, ovvero costante a (2.694545455).

Sulla base dei calcoli, possiamo scrivere l'equazione di regressione come segue:

Y= x*2.305454545+2.694545455

La direzione della relazione tra le variabili è determinata in base ai segni (negativi o positivi) dei coefficienti di regressione (coefficiente b).

Se il segno del coefficiente di regressione è positivo, la relazione tra la variabile dipendente e la variabile indipendente sarà positiva. Nel nostro caso il segno del coefficiente di regressione è positivo, quindi anche la relazione è positiva.

Se il segno del coefficiente di regressione è negativo, la relazione tra la variabile dipendente e la variabile indipendente è negativa (inversa).

A tabella 8.3c. vengono presentati i risultati dell'output avanzi. Affinché questi risultati appaiano nel report, è necessario attivare la casella di controllo "Residui" all'avvio dello strumento "Regressione".

RITIRO RESTANTE

Tabella 8.3c. Resti

Osservazione

previsto Y

Resti

Saldi standard

Utilizzando questa parte del rapporto, possiamo vedere le deviazioni di ciascun punto dalla retta di regressione costruita. Il massimo valore assoluto resto nel nostro caso - 0,778, il più piccolo - 0,043. Per una migliore interpretazione di questi dati, utilizzeremo il grafico dei dati originali e la retta di regressione costruita presentata in Fig. Riso. 8.3. Come puoi vedere, la linea di regressione è "adattata" in modo abbastanza accurato ai valori dei dati originali.

Va tenuto presente che l'esempio in esame è abbastanza semplice ed è tutt'altro che sempre possibile costruire qualitativamente una retta di regressione lineare.

Riso. 8.3. Dati iniziali e retta di regressione

Il problema di stimare i valori futuri sconosciuti della variabile dipendente sulla base dei valori noti della variabile indipendente è rimasto sconsiderato, cioè compito di previsione.

Avendo un'equazione di regressione, il problema di previsione si riduce a risolvere l'equazione Y= x*2.305454545+2.694545455 con valori noti di x. Vengono presentati i risultati della previsione della variabile dipendente Y sei passi avanti nella tabella 8.4.

Tabella 8.4. Risultati della previsione della variabile Y

Y (previsto)

Pertanto, come risultato dell'utilizzo dell'analisi di regressione nel pacchetto Microsoft Excel, noi:

    costruito un'equazione di regressione;

    stabilito la forma di dipendenza e la direzione della relazione tra le variabili - una regressione lineare positiva, che si esprime in una crescita uniforme della funzione;

    stabilito la direzione della relazione tra le variabili;

    valutato la qualità della retta di regressione risultante;

    sono stati in grado di vedere le deviazioni dei dati calcolati dai dati del set originale;

    previsto i valori futuri della variabile dipendente.

Se una funzione di regressioneè definito, interpretato e giustificato e la valutazione dell'accuratezza dell'analisi di regressione soddisfa i requisiti, possiamo presumere che il modello costruito e i valori predittivi siano sufficientemente affidabili.

I valori previsti ottenuti in questo modo sono i valori medi che ci si può aspettare.

In questo lavoro abbiamo esaminato le caratteristiche principali statistiche descrittive e tra questi concetti come significare,mediano,massimo,minimo e altre caratteristiche della variazione dei dati.

C'è stata anche una breve discussione sul concetto emissioni. Le caratteristiche considerate si riferiscono alla cosiddetta analisi esplorativa dei dati, le sue conclusioni potrebbero non essere applicabili alla popolazione generale, ma solo ad un campione di dati. L'analisi dei dati esplorativi viene utilizzata per trarre conclusioni primarie e formulare ipotesi sulla popolazione.

Sono state inoltre considerate le basi dell'analisi di correlazione e regressione, i loro compiti e le possibilità di utilizzo pratico.

Condividere