Fondamenti di analisi dei dati. Metodi di analisi di regressione Il metodo di regressione consente di stabilire

L'analisi di regressione esamina la dipendenza di una determinata quantità da un'altra quantità o da diverse altre quantità. L'analisi di regressione viene utilizzata principalmente nelle previsioni a medio termine, così come nelle previsioni a lungo termine. I periodi a medio e lungo termine consentono di stabilire i cambiamenti nel contesto aziendale e tengono conto dell'impatto di questi cambiamenti sull'indicatore in esame.

Per eseguire l'analisi di regressione, è necessario:

    disponibilità di dati annuali sugli indicatori studiati,

    disponibilità di previsioni una tantum, ad es. previsioni che non migliorano con i nuovi dati.

L'analisi di regressione viene solitamente eseguita per oggetti che hanno una natura complessa e multifattoriale, come il volume degli investimenti, i profitti, i volumi di vendita, ecc.

In metodo normativo di previsione si determinano le modalità ei termini per raggiungere i possibili stati del fenomeno, presi come fine. Stiamo parlando di prevedere il raggiungimento degli stati desiderati del fenomeno sulla base di norme, ideali, incentivi e obiettivi predeterminati. Una tale previsione risponde alla domanda: in che modo si può ottenere il desiderato? Il metodo normativo è più spesso utilizzato per previsioni programmatiche o mirate. Vengono utilizzate sia un'espressione quantitativa dello standard che una certa scala delle possibilità della funzione di valutazione.

Nel caso di utilizzo di un'espressione quantitativa, ad esempio norme fisiologiche e razionali per il consumo di determinati prodotti alimentari e non alimentari sviluppati da specialisti per vari gruppi della popolazione, è possibile determinare il livello di consumo di questi beni per gli anni precedenti il ​​raggiungimento della norma specificata. Tali calcoli sono chiamati interpolazione. L'interpolazione è un modo di calcolare indicatori che mancano nella serie temporale di un fenomeno, sulla base di una relazione stabilita. Prendendo il valore effettivo dell'indicatore e il valore dei suoi standard come membri estremi della serie dinamica, è possibile determinare l'entità dei valori all'interno di questa serie. Pertanto, l'interpolazione è considerata un metodo normativo. La formula (4) precedentemente data, utilizzata in estrapolazione, può essere utilizzata in interpolazione, dove y n non caratterizzerà più il dato effettivo, ma lo standard dell'indicatore.

Nel caso di utilizzo di una scala (campo, spettro) delle possibilità della funzione di valutazione, ovvero la funzione di distribuzione delle preferenze, nel metodo normativo, viene indicata approssimativamente la seguente gradazione: indesiderabile - meno desiderabile - più desiderabile - più desiderabile - ottimale (standard).

Il metodo di previsione normativa aiuta a sviluppare raccomandazioni per aumentare il livello di obiettività e quindi l'efficacia delle decisioni.

Modellazione, forse il metodo di previsione più difficile. Per modellazione matematica si intende la descrizione di un fenomeno economico attraverso formule matematiche, equazioni e disuguaglianze. L'apparato matematico dovrebbe riflettere accuratamente lo sfondo della previsione, sebbene sia abbastanza difficile riflettere pienamente l'intera profondità e complessità dell'oggetto previsto. Il termine "modello" deriva dalla parola latina modelus, che significa "misura". Pertanto, sarebbe più corretto considerare la modellazione non come un metodo di previsione, ma come un metodo per studiare un fenomeno simile su un modello.

In senso lato, i modelli sono chiamati sostituti dell'oggetto di studio, che hanno una tale somiglianza con esso che consente di acquisire nuove conoscenze sull'oggetto. Il modello dovrebbe essere considerato come una descrizione matematica dell'oggetto. In questo caso, il modello è definito come un fenomeno (soggetto, installazione) che è in qualche corrispondenza con l'oggetto in studio e può sostituirlo nel processo di ricerca, presentando informazioni sull'oggetto.

Con una comprensione più ristretta del modello, è considerato un oggetto di previsione, il suo studio consente di ottenere informazioni sui possibili stati dell'oggetto in futuro e sui modi per raggiungere questi stati. In questo caso, lo scopo del modello predittivo è ottenere informazioni non sull'oggetto in generale, ma solo sui suoi stati futuri. Quindi, durante la costruzione di un modello, potrebbe essere impossibile verificarne direttamente la corrispondenza con l'oggetto, poiché il modello rappresenta solo il suo stato futuro e l'oggetto stesso potrebbe essere attualmente assente o avere un'esistenza diversa.

I modelli possono essere materiali e ideali.

I modelli ideali sono usati in economia. Il modello ideale più perfetto per una descrizione quantitativa di un fenomeno socio-economico (economico) è un modello matematico che utilizza numeri, formule, equazioni, algoritmi o una rappresentazione grafica. Con l'aiuto di modelli economici determinare:

    la relazione tra vari indicatori economici;

    vari tipi di restrizioni imposte agli indicatori;

    criteri per ottimizzare il processo.

Una descrizione significativa di un oggetto può essere rappresentata sotto forma del suo schema formalizzato, che indica quali parametri e informazioni iniziali devono essere raccolte per calcolare i valori desiderati. Un modello matematico, a differenza di uno schema formalizzato, contiene dati numerici specifici che caratterizzano un oggetto.Lo sviluppo di un modello matematico dipende in gran parte dall'idea del previsore dell'essenza del processo che viene modellato. Sulla base delle sue idee, propone un'ipotesi di lavoro, con l'aiuto della quale viene creata una registrazione analitica del modello sotto forma di formule, equazioni e disuguaglianze. Come risultato della risoluzione del sistema di equazioni, si ottengono parametri specifici della funzione, che descrivono il cambiamento delle variabili desiderate nel tempo.

L'ordine e la sequenza del lavoro come elemento dell'organizzazione della previsione sono determinati in base al metodo di previsione utilizzato. Di solito questo lavoro viene svolto in più fasi.

Fase 1: retrospezione predittiva, ovvero l'istituzione dell'oggetto della previsione e dello sfondo della previsione. Il lavoro nella prima fase viene eseguito nella seguente sequenza:

    formazione di una descrizione di un oggetto nel passato, che include un'analisi pre-previsionale dell'oggetto, una valutazione dei suoi parametri, il loro significato e le relazioni reciproche,

    identificazione e valutazione delle fonti di informazione, procedura e organizzazione del lavoro con esse, raccolta e collocazione di informazioni retrospettive;

    definizione degli obiettivi di ricerca.

Eseguendo i compiti di retrospezione predittiva, i previsori studiano la storia dello sviluppo dell'oggetto e lo sfondo della previsione per ottenere la loro descrizione sistematica.

Fase 2 - diagnosi predittiva, durante la quale viene studiata una descrizione sistematica dell'oggetto della previsione e del background previsionale al fine di identificare le tendenze nel loro sviluppo e selezionare modelli e metodi di previsione. Il lavoro viene eseguito nella seguente sequenza:

    sviluppo di un modello oggetto previsionale, comprendente una descrizione formalizzata dell'oggetto, verificando il grado di adeguatezza del modello all'oggetto;

    selezione dei metodi di previsione (principali e ausiliari), sviluppo di un algoritmo e programmi di lavoro.

3a fase - patrocinio, ad es. il processo di ampio sviluppo della previsione, compreso: 1) calcolo dei parametri previsti per un determinato periodo di anticipo; 2) sintesi delle singole componenti della previsione.

4a fase - valutazione della previsione, compresa la sua verifica, ovvero determinazione del grado di affidabilità, accuratezza e validità.

Nel corso della prospezione e della valutazione, i compiti di previsione e la sua valutazione vengono risolti sulla base delle fasi precedenti.

La fasatura indicata è approssimativa e dipende dal principale metodo di previsione.

I risultati della previsione sono redatti sotto forma di certificato, rapporto o altro materiale e vengono presentati al cliente.

Nella previsione è possibile indicare la deviazione della previsione dallo stato effettivo dell'oggetto, che è chiamato errore di previsione, che viene calcolato con la formula:

;
;
. (9.3)

Fonti di errore nella previsione

Le fonti principali possono essere:

1. Semplice trasferimento (estrapolazione) di dati dal passato al futuro (ad esempio, l'azienda non ha altre opzioni di previsione, ad eccezione di un aumento del 10% delle vendite).

2. L'incapacità di determinare con precisione la probabilità di un evento e il suo impatto sull'oggetto in esame.

3. Difficoltà impreviste (eventi dirompenti) che incidono sull'attuazione del piano, ad esempio l'improvviso licenziamento del capo del reparto vendite.

In generale, l'accuratezza delle previsioni aumenta con l'accumulo di esperienza nelle previsioni e lo sviluppo dei suoi metodi.

Come risultato dello studio del materiale del capitolo 4, lo studente dovrebbe:

sapere

  • concetti di base dell'analisi di regressione;
  • metodi di stima e proprietà delle stime del metodo dei minimi quadrati;
  • regole di base per il test di significatività e la stima intervallare dell'equazione e dei coefficienti di regressione;

essere in grado di

  • trovare stime dei parametri di modelli bidimensionali e multipli di equazioni di regressione da dati campione, analizzarne le proprietà;
  • verificare il significato dell'equazione e dei coefficienti di regressione;
  • trovare stime intervallari di parametri significativi;

possedere

  • le capacità di stima statistica dei parametri delle equazioni di regressione bidimensionale e multipla; capacità di verificare l'adeguatezza dei modelli di regressione;
  • abilità nell'ottenere un'equazione di regressione con tutti i coefficienti significativi utilizzando un software analitico.

Concetti basilari

Dopo aver condotto un'analisi di correlazione, quando è stata identificata la presenza di relazioni statisticamente significative tra le variabili e valutato il grado della loro tenuta, si procede solitamente a una descrizione matematica del tipo di dipendenze utilizzando metodi di analisi di regressione. A tale scopo viene selezionata una classe di funzioni che collega l'indicatore effettivo a e argomenti„ calcolano le stime dei parametri dell'equazione di vincolo e analizzano l'accuratezza dell'equazione risultante .

Funzione| che descrive la dipendenza del valore medio condizionale della caratteristica effettiva a dai valori dati degli argomenti, viene chiamato equazione di regressione.

Il termine "regressione" (dal lat. regressione- ritiro, ritorno a qualcosa) è stato introdotto dallo psicologo e antropologo inglese F. Galton ed è associato a uno dei suoi primi esempi, in cui Galton, elaborando dati statistici relativi alla questione dell'ereditarietà della crescita, ha scoperto che se l'altezza di i padri si discosta dall'altezza media di tutti i padri X pollici, allora l'altezza dei loro figli si discosta dall'altezza media di tutti i figli di meno di X pollici La tendenza identificata è stata chiamata regressione alla media.

Il termine "regressione" è ampiamente utilizzato nella letteratura statistica, sebbene in molti casi non caratterizzi accuratamente la dipendenza statistica.

Per una descrizione accurata dell'equazione di regressione, è necessario conoscere la legge condizionale di distribuzione dell'indicatore effettivo si. Nella pratica statistica, di solito è impossibile ottenere tali informazioni, pertanto, si limitano a trovare adeguate approssimazioni per la funzione f(x tu X 2, .... l *), sulla base di una preliminare analisi significativa del fenomeno o dei dati statistici originari.

Nell'ambito delle ipotesi del modello individuale sul tipo di distribuzione del vettore degli indicatori<) может быть получен общий вид equazioni di regressione, dove. Ad esempio, supponendo che l'insieme di indicatori studiato obbedisca alla legge di distribuzione normale ()-dimensionale con il vettore delle aspettative matematiche

Dove, e dalla matrice di covarianza,

dove è la varianza si,

L'equazione di regressione (aspettativa condizionale) ha la forma

Pertanto, se una variabile casuale multivariata ()

obbedisce alla legge della distribuzione normale ()-dimensionale, quindi all'equazione di regressione dell'indicatore effettivo a in variabili esplicative ha linear in X Visualizza.

Tuttavia, nella pratica statistica, di solito ci si deve limitare a trovare adeguate approssimazioni per la vera funzione di regressione sconosciuta f(x), poiché il ricercatore non ha una conoscenza esatta della legge condizionale della distribuzione di probabilità dell'indicatore di performance analizzato a per i valori dati degli argomenti X.

Considera la relazione tra stime vere, modello e di regressione. Lascia che l'indicatore di prestazione a associato all'argomentazione X rapporto

dove è una variabile casuale con una legge di distribuzione normale, inoltre. La vera funzione di regressione in questo caso è

Supponiamo di non conoscere la forma esatta della vera equazione di regressione, ma di avere nove osservazioni su una variabile casuale bidimensionale correlata dalle relazioni mostrate in Fig. 4.1.

Riso. 4.1. La posizione relativa del verof(x) e teoricooh!modelli di regressione

Posizione dei punti in fig. 4.1 ci permette di limitarci alla classe delle dipendenze lineari della forma

Utilizzando il metodo dei minimi quadrati, troviamo una stima per l'equazione di regressione.

Per confronto, in Fig. 4.1 mostra i grafici della vera funzione di regressione e della funzione di regressione di approssimazione teorica. La stima dell'equazione di regressione converge in probabilità a quest'ultima oh! con un aumento illimitato della dimensione del campione ().

Poiché abbiamo erroneamente scelto una funzione di regressione lineare invece di una vera funzione di regressione, che, sfortunatamente, è abbastanza comune nella pratica della ricerca statistica, le nostre conclusioni e stime statistiche non avranno la proprietà di coerenza, cioè non importa quanto aumentiamo il volume delle osservazioni, la nostra stima campionaria non convergerà alla vera funzione di regressione

Se avessimo scelto correttamente la classe delle funzioni di regressione, allora l'imprecisione nella descrizione utilizzando oh! sarebbe spiegato solo dalla limitatezza del campione e, quindi, potrebbe essere reso arbitrariamente piccolo con

Al fine di ripristinare al meglio il valore condizionale dell'indicatore effettivo e della funzione di regressione sconosciuta dai dati statistici iniziali, vengono utilizzati più spesso: criteri di adeguatezza funzioni di perdita.

1. Metodo dei minimi quadrati, secondo cui è minimizzata la deviazione al quadrato dei valori osservati dell'indicatore effettivo, , dai valori del modello, dove i coefficienti dell'equazione di regressione; sono i valori del vettore degli argomenti in "-M osservazione :

Si sta risolvendo il problema di trovare una stima del vettore. Viene chiamata la regressione risultante quadrato medio.

2. Metodo dei minimi moduli, secondo il quale la somma delle deviazioni assolute dei valori osservati dell'indicatore effettivo dai valori modulari è ridotta al minimo, ovvero

Viene chiamata la regressione risultante significa assoluto(mediano).

3. metodo minimax si riduce a minimizzare il modulo di deviazione massima del valore osservato dell'indicatore effettivo si, dal valore del modello, ad es.

Viene chiamata la regressione risultante minimax.

Nelle applicazioni pratiche, ci sono spesso problemi in cui viene studiata la variabile casuale si, a seconda di un insieme di variabili e parametri sconosciuti. Considereremo () come (k+ 1) popolazione generale dimensionale, da cui un campione casuale di volume P, dove () è il risultato della /-esima osservazione,. È necessario stimare i parametri sconosciuti sulla base dei risultati delle osservazioni. Il compito sopra descritto si riferisce ai compiti dell'analisi di regressione.

analisi di regressione chiamare il metodo di analisi statistica della dipendenza di una variabile casuale a su variabili considerate nell'analisi di regressione come variabili non casuali, indipendentemente dalla vera legge di distribuzione

Analisi di regressione

regressione (lineare) analisi- un metodo statistico per studiare l'influenza di una o più variabili indipendenti su una variabile dipendente. Le variabili indipendenti sono altrimenti chiamate regressori o predittori e le variabili dipendenti sono chiamate criteri. Terminologia dipendente e indipendente variabili riflette solo la dipendenza matematica delle variabili ( vedi Correlazione spuria), piuttosto che una relazione causale.

Obiettivi dell'analisi di regressione

  1. Determinazione del grado di determinismo della variazione della variabile criterio (dipendente) da predittori (variabili indipendenti)
  2. Previsione del valore della variabile dipendente utilizzando la/le variabile/i indipendente/i
  3. Determinazione del contributo delle singole variabili indipendenti alla variazione della dipendente

L'analisi di regressione non può essere utilizzata per determinare se esiste una relazione tra variabili, poiché l'esistenza di tale relazione è un prerequisito per l'applicazione dell'analisi.

Definizione matematica di regressione

La dipendenza strettamente regressiva può essere definita come segue. Siano , variabili casuali con una data distribuzione di probabilità congiunta. Se per ogni insieme di valori viene definita un'aspettativa condizionale

(equazione di regressione generale),

quindi viene chiamata la funzione regressione Valori Y per valori e il suo grafico - linea di regressione di , o equazione di regressione.

La dipendenza da si manifesta nella variazione dei valori medi di Y quando si cambia . Sebbene per ogni insieme fisso di valori, la quantità rimane una variabile casuale con una certa dispersione.

Per chiarire la questione di quanto accuratamente l'analisi di regressione stima la variazione di Y con una variazione, viene utilizzato il valore medio della varianza di Y per diversi insiemi di valori (si tratta infatti della misura della dispersione della variabile dipendente attorno alla retta di regressione).

Metodo dei minimi quadrati (calcolo dei coefficienti)

In pratica, la retta di regressione è più spesso ricercata come una funzione lineare (regressione lineare) che meglio approssima la curva desiderata. Questo viene fatto utilizzando il metodo dei minimi quadrati, quando la somma dei quadrati delle deviazioni degli effettivamente osservati dalle loro stime è ridotta al minimo (ovvero stime utilizzando una linea retta che pretende di rappresentare la dipendenza di regressione desiderata):

(M - dimensione del campione). Questo approccio si basa sul ben noto fatto che la somma che compare nell'espressione precedente assume il valore minimo proprio per il caso in cui .

Per risolvere il problema dell'analisi di regressione con il metodo dei minimi quadrati, viene introdotto il concetto funzioni residue:

La condizione per il minimo della funzione residua:

Il sistema risultante è un sistema di equazioni lineari in incognite

Se rappresentiamo i termini liberi del lato sinistro delle equazioni dalla matrice

e i coefficienti delle incognite sul lato destro della matrice

quindi otteniamo l'equazione della matrice: , che è facilmente risolvibile con il metodo di Gauss. La matrice risultante sarà una matrice contenente i coefficienti dell'equazione della retta di regressione:

Per ottenere le migliori stime, è necessario soddisfare i prerequisiti LSM (condizioni di Gauss–Markov). Nella letteratura inglese, tali stime sono chiamate BLUE (Best Linear Unbiased Estimators) - le migliori stime lineari imparziali.

Interpretazione dei parametri di regressione

I parametri sono coefficienti di correlazione parziali; è interpretato come la proporzione della varianza di Y spiegata fissando l'influenza dei restanti predittori, cioè misura il contributo individuale alla spiegazione di Y. Nel caso di predittori correlati, c'è un problema di incertezza nelle stime , che diventano dipendenti dall'ordine in cui i predittori sono inclusi nel modello. In tali casi, è necessario applicare i metodi di analisi della correlazione e dell'analisi di regressione graduale.

Parlando di modelli non lineari di analisi di regressione, è importante prestare attenzione al fatto che si parli di non linearità in variabili indipendenti (da un punto di vista formale, facilmente riconducibile a regressione lineare), o di non linearità in parametri stimati (causando gravi difficoltà di calcolo). Con il primo tipo di non linearità, da un punto di vista significativo, è importante individuare la comparsa nel modello di membri della forma , , indicando la presenza di interazioni tra feature , ecc. (vedi Multicollinearità).

Guarda anche

Collegamenti

  • www.kgafk.ru - Conferenza su "Analisi della regressione"
  • www.basegroup.ru - metodi per selezionare le variabili nei modelli di regressione

Letteratura

  • Norman Draper, Harry Smith Analisi di regressione applicata. Regressione multipla = Analisi di regressione applicata. - 3a ed. - M.: "Dialettica", 2007. - S. 912. - ISBN 0-471-17082-8
  • Metodi sostenibili per la stima di modelli statistici: monografia. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievich, Metodologia di analisi della regressione: monografia. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Fondazione Wikimedia. 2010 .

L'analisi di regressione è un metodo di ricerca statistica che consente di mostrare la dipendenza di un parametro da una o più variabili indipendenti. Nell'era pre-informatica, il suo utilizzo era piuttosto difficile, soprattutto quando si trattava di grandi quantità di dati. Oggi, avendo imparato a costruire una regressione in Excel, puoi risolvere complessi problemi statistici in un paio di minuti. Di seguito sono riportati esempi specifici dal campo dell'economia.

Tipi di regressione

Il concetto stesso fu introdotto in matematica nel 1886. La regressione avviene:

  • lineare;
  • parabolico;
  • potenza;
  • esponenziale;
  • iperbolico;
  • dimostrativo;
  • logaritmico.

Esempio 1

Considera il problema di determinare la dipendenza del numero di membri del team in pensione dallo stipendio medio in 6 imprese industriali.

Un compito. In sei imprese abbiamo analizzato lo stipendio mensile medio e il numero di dipendenti che hanno lasciato volontariamente. In forma tabellare abbiamo:

Il numero di persone che se ne sono andate

Stipendio

30000 rubli

35000 rubli

40000 rubli

45000 rubli

50000 rubli

55000 rubli

60000 rubli

Per il problema di determinare la dipendenza del numero di pensionati dallo stipendio medio in 6 imprese, il modello di regressione ha la forma dell'equazione Y = a 0 + a 1 x 1 +…+a k x k , dove x i sono le variabili influenti , a i sono i coefficienti di regressione, a k è il numero di fattori.

Per questo compito, Y è l'indicatore dei dipendenti che hanno lasciato e il fattore che influenza è lo stipendio, che indichiamo con X.

Utilizzo delle funzionalità del foglio di calcolo "Excel"

L'analisi di regressione in Excel deve essere preceduta dall'applicazione di funzioni integrate ai dati tabulari disponibili. Tuttavia, per questi scopi, è meglio utilizzare l'utilissimo componente aggiuntivo "Analysis Toolkit". Per attivarlo è necessario:

  • dalla scheda "File", vai alla sezione "Opzioni";
  • nella finestra che si apre, seleziona la riga "Componenti aggiuntivi";
  • cliccare sul pulsante "Vai" situato in basso, a destra della riga "Gestione";
  • seleziona la casella accanto al nome "Pacchetto di analisi" e conferma le tue azioni facendo clic su "OK".

Se tutto è stato eseguito correttamente, il pulsante desiderato verrà visualizzato sul lato destro della scheda Dati, situata sopra il foglio di lavoro di Excel.

in Excel

Ora che abbiamo a portata di mano tutti gli strumenti virtuali necessari per eseguire calcoli econometrici, possiamo cominciare a risolvere il nostro problema. Per questo:

  • cliccare sul pulsante "Analisi dei dati";
  • nella finestra che si apre, fai clic sul pulsante "Regressione";
  • nella scheda che appare, inserisci l'intervallo di valori per Y (il numero di dipendenti che si licenziano) e per X (i loro stipendi);
  • Confermiamo le nostre azioni premendo il pulsante "Ok".

Di conseguenza, il programma popolerà automaticamente un nuovo foglio del foglio di calcolo con i dati dell'analisi di regressione. Nota! Excel ha la possibilità di impostare manualmente la posizione che preferisci per questo scopo. Ad esempio, potrebbe essere lo stesso foglio in cui si trovano i valori Y e X, o anche una nuova cartella di lavoro appositamente progettata per archiviare tali dati.

Analisi dei risultati di regressione per R-quadrato

In Excel, i dati ottenuti durante l'elaborazione dei dati dell'esempio considerato hanno il seguente aspetto:

Prima di tutto, dovresti prestare attenzione al valore della R-quadrato. È il coefficiente di determinazione. In questo esempio, R-quadrato = 0,755 (75,5%), ovvero i parametri calcolati del modello spiegano la relazione tra i parametri considerati del 75,5%. Maggiore è il valore del coefficiente di determinazione, più applicabile è il modello scelto per un particolare compito. Si ritiene che descriva correttamente la situazione reale con un valore R-quadrato superiore a 0,8. Se R-quadrato<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisi del rapporto

Il numero 64.1428 mostra quale sarà il valore di Y se tutte le variabili xi nel modello che stiamo considerando sono poste a zero. In altre parole, si può sostenere che il valore del parametro analizzato è influenzato anche da altri fattori non descritti in un particolare modello.

Il coefficiente successivo -0,16285, situato nella cella B18, mostra il peso dell'influenza della variabile X su Y. Ciò significa che lo stipendio medio mensile dei dipendenti all'interno del modello in esame influisce sul numero di cessati con un peso di -0,16285, ovvero il grado della sua influenza è affatto piccolo. Il segno "-" indica che il coefficiente ha un valore negativo. Questo è ovvio, poiché tutti sanno che maggiore è lo stipendio in azienda, meno persone esprimono il desiderio di rescindere il contratto di lavoro o di dimettersi.

Regressione multipla

Questo termine si riferisce a un'equazione di connessione con diverse variabili indipendenti della forma:

y \u003d f (x 1 + x 2 + ... x m) + ε, dove y è la caratteristica effettiva (variabile dipendente) e x 1 , x 2 , ... x m sono i fattori fattoriali (variabili indipendenti).

Stima dei parametri

Per la regressione multipla (MR) viene eseguita utilizzando il metodo dei minimi quadrati (OLS). Per equazioni lineari della forma Y = a + b 1 x 1 +…+b m x m + ε, costruiamo un sistema di equazioni normali (vedi sotto)

Per comprendere il principio del metodo, si consideri il caso a due fattori. Quindi abbiamo una situazione descritta dalla formula

Da qui otteniamo:

dove σ è la varianza della caratteristica corrispondente riflessa nell'indice.

LSM è applicabile all'equazione MP su una scala standardizzabile. In questo caso otteniamo l'equazione:

dove t y , t x 1, … t xm sono variabili standardizzate per le quali i valori medi sono 0; β i sono i coefficienti di regressione standardizzati e la deviazione standard è 1.

Si noti che tutti i β i in questo caso sono impostati come normalizzati e centralizzati, quindi il loro confronto tra loro è considerato corretto e ammissibile. Inoltre, è consuetudine filtrare i fattori, scartando quelli con i valori più piccoli di βi.

Problema utilizzando l'equazione di regressione lineare

Supponiamo che esista una tabella delle dinamiche di prezzo di un particolare prodotto N durante gli ultimi 8 mesi. È necessario prendere una decisione sull'opportunità di acquistare il suo lotto al prezzo di 1850 rubli/t.

numero del mese

nome del mese

prezzo dell'articolo N

1750 rubli per tonnellata

1755 rubli per tonnellata

1767 rubli per tonnellata

1760 rubli per tonnellata

1770 rubli per tonnellata

1790 rubli per tonnellata

1810 rubli per tonnellata

1840 rubli per tonnellata

Per risolvere questo problema nel foglio di calcolo Excel, è necessario utilizzare lo strumento di analisi dei dati già noto dall'esempio precedente. Successivamente, seleziona la sezione "Regressione" e imposta i parametri. Si ricorda che nel campo "Input interval Y" va inserito un range di valori per la variabile dipendente (in questo caso il prezzo di un prodotto in determinati mesi dell'anno) e nel campo "Input intervallo X" - per la variabile indipendente (numero del mese). Conferma l'azione facendo clic su "Ok". Su un nuovo foglio (se indicato così), otteniamo i dati per la regressione.

Sulla base di essi, costruiamo un'equazione lineare della forma y=ax+b, dove i parametri a e b sono i coefficienti della riga con il nome del numero del mese e i coefficienti e la riga "Y-intersezione" dalla foglio con i risultati dell'analisi di regressione. Pertanto, l'equazione di regressione lineare (LE) per il problema 3 è scritta come:

Prezzo del prodotto N = 11.714* numero del mese + 1727.54.

o in notazione algebrica

y = 11,714 x + 1727,54

Analisi dei risultati

Per decidere se l'equazione di regressione lineare risultante è adeguata, vengono utilizzati coefficienti di correlazione multipla (MCC) e coefficienti di determinazione, nonché il test di Fisher e il test di Student. Nella tabella di Excel con i risultati della regressione, vengono visualizzati rispettivamente sotto i nomi di più R, R-quadrato, statistica F e statistica t.

KMC R consente di valutare la tenuta della relazione probabilistica tra le variabili indipendenti e dipendenti. Il suo valore elevato indica una relazione abbastanza forte tra le variabili "Numero del mese" e "Prezzo della merce N in rubli per 1 tonnellata". Tuttavia, la natura di questa relazione rimane sconosciuta.

Il quadrato del coefficiente di determinazione R 2 (RI) è una caratteristica numerica della quota della dispersione totale e mostra la dispersione di quale parte dei dati sperimentali, ad es. valori della variabile dipendente corrisponde all'equazione di regressione lineare. Nel problema in esame, questo valore è pari a 84,8%, cioè i dati statistici sono descritti con un alto grado di accuratezza dalla SD ottenuta.

La statistica F, chiamata anche test di Fisher, viene utilizzata per valutare il significato di una relazione lineare, confutando o confermando l'ipotesi della sua esistenza.

(Criterio di Student) aiuta a valutare la significatività del coefficiente con un termine sconosciuto o libero di una relazione lineare. Se il valore del criterio t > t cr, allora l'ipotesi dell'insignificanza del termine libero dell'equazione lineare viene respinta.

Nel problema in esame per il membro libero, utilizzando gli strumenti di Excel, si è ottenuto che t = 169.20903, ep = 2.89E-12, cioè abbiamo probabilità zero che l'ipotesi corretta sull'insignificanza del membro libero sia respinto. Per il coefficiente allo sconosciuto t=5.79405, e p=0.001158. In altre parole, la probabilità che l'ipotesi corretta sull'insignificanza del coefficiente per l'ignoto venga respinta è dello 0,12%.

Pertanto, si può sostenere che l'equazione di regressione lineare risultante è adeguata.

Il problema dell'opportunità di acquistare un blocco di azioni

La regressione multipla in Excel viene eseguita utilizzando lo stesso strumento di analisi dei dati. Consideriamo uno specifico problema applicato.

La direzione di NNN deve prendere una decisione sull'opportunità di acquistare una partecipazione del 20% in MMM SA. Il costo del pacchetto (JV) è di 70 milioni di dollari USA. Gli specialisti di NNN hanno raccolto dati su transazioni simili. Si è deciso di valutare il valore del blocco azionario secondo tali parametri, espressi in milioni di dollari USA, quali:

  • conti da pagare (VK);
  • fatturato annuo (VO);
  • crediti verso clienti (VD);
  • costo delle immobilizzazioni (SOF).

Inoltre, viene utilizzato il parametro arretrati del libro paga dell'impresa (V3 P) in migliaia di dollari USA.

Soluzione utilizzando il foglio di calcolo Excel

Prima di tutto, devi creare una tabella di dati iniziali. Sembra così:

  • chiama la finestra "Analisi dei dati";
  • selezionare la sezione "Regressione";
  • nella casella "Intervallo di input Y" inserire l'intervallo di valori delle variabili dipendenti dalla colonna G;
  • fare clic sull'icona con una freccia rossa a destra della finestra "Intervallo di input X" e selezionare l'intervallo di tutti i valori dalle colonne B, C, D, F del foglio.

Seleziona "Nuovo foglio di lavoro" e fai clic su "OK".

Ottieni l'analisi di regressione per il problema dato.

Esame dei risultati e conclusioni

"Raccogliamo" dai dati arrotondati presentati sopra sul foglio di calcolo Excel, l'equazione di regressione:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

In una forma matematica più familiare, può essere scritto come:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

I dati per JSC "MMM" sono presentati nella tabella:

Sostituendoli nell'equazione di regressione, ottengono una cifra di 64,72 milioni di dollari USA. Ciò significa che le azioni di JSC MMM non dovrebbero essere acquistate, poiché il loro valore di 70 milioni di dollari USA è piuttosto sopravvalutato.

Come puoi vedere, l'uso del foglio di calcolo Excel e l'equazione di regressione hanno permesso di prendere una decisione informata sulla fattibilità di una transazione molto specifica.

Ora sai cos'è la regressione. Gli esempi in Excel discussi sopra ti aiuteranno a risolvere problemi pratici dal campo dell'econometria.

Durante i loro studi, gli studenti incontrano molto spesso una varietà di equazioni. Uno di questi - l'equazione di regressione - è considerato in questo articolo. Questo tipo di equazione viene utilizzato specificamente per descrivere le caratteristiche della relazione tra parametri matematici. Questo tipo di uguaglianza è utilizzato in statistica ed econometria.

Definizione di regressione

In matematica, la regressione è intesa come una certa quantità che descrive la dipendenza del valore medio di un set di dati dai valori di un'altra quantità. L'equazione di regressione mostra, in funzione di una particolare caratteristica, il valore medio di un'altra caratteristica. La funzione di regressione ha la forma di una semplice equazione y \u003d x, in cui y funge da variabile dipendente e x è una variabile indipendente (fattore di caratteristica). Infatti, la regressione è espressa come y = f (x).

Quali sono i tipi di relazioni tra le variabili

In generale si distinguono due tipi opposti di relazione: correlazione e regressione.

Il primo è caratterizzato dall'uguaglianza delle variabili condizionali. In questo caso, non si sa con certezza quale variabile dipende dall'altra.

Se non c'è uguaglianza tra le variabili e le condizioni dicono quale variabile è esplicativa e quale è dipendente, allora possiamo parlare della presenza di una connessione del secondo tipo. Per costruire un'equazione di regressione lineare, sarà necessario scoprire quale tipo di relazione si osserva.

Tipi di regressioni

Ad oggi esistono 7 diversi tipi di regressione: iperbolica, lineare, multipla, non lineare, a coppie, inversa, logaritmicamente lineare.

Iperbolico, lineare e logaritmico

L'equazione di regressione lineare viene utilizzata nelle statistiche per spiegare chiaramente i parametri dell'equazione. Sembra che y = c + m * x + E. L'equazione iperbolica ha la forma di un'iperbole regolare y \u003d c + m / x + E. L'equazione logaritmicamente lineare esprime la relazione usando la funzione logaritmica: In y \u003d In c + m * In x + In E.

Multiplo e non lineare

Due tipi più complessi di regressione sono multipli e non lineari. L'equazione di regressione multipla è espressa dalla funzione y \u003d f (x 1, x 2 ... x c) + E. In questa situazione, y è la variabile dipendente e x è la variabile esplicativa. La variabile E è stocastica e include l'influenza di altri fattori nell'equazione. L'equazione di regressione non lineare è un po' incoerente. Da un lato, rispetto agli indicatori presi in considerazione, non è lineare, e dall'altro, nel ruolo di valutazione degli indicatori, è lineare.

Regressioni inverse e a coppie

Un inverso è un tipo di funzione che deve essere convertita in una forma lineare. Nei programmi applicativi più tradizionali, ha la forma di una funzione y \u003d 1 / c + m * x + E. L'equazione di regressione accoppiata mostra la relazione tra i dati in funzione di y = f(x) + E. Proprio come le altre equazioni, y dipende da x ed E è un parametro stocastico.

Il concetto di correlazione

Questo è un indicatore che dimostra l'esistenza di una relazione tra due fenomeni o processi. La forza della relazione è espressa come coefficiente di correlazione. Il suo valore oscilla all'interno dell'intervallo [-1;+1]. Un indicatore negativo indica la presenza di feedback, un indicatore positivo indica uno diretto. Se il coefficiente assume un valore uguale a 0, allora non c'è relazione. Più il valore è vicino a 1 - più forte è la relazione tra i parametri, più vicino a 0 - più debole.

Metodi

I metodi parametrici di correlazione possono stimare la tenuta della relazione. Sono utilizzati sulla base di stime di distribuzione per studiare parametri che obbediscono alla legge della distribuzione normale.

I parametri dell'equazione di regressione lineare sono necessari per identificare il tipo di dipendenza, la funzione dell'equazione di regressione e valutare gli indicatori della formula di relazione prescelta. Il campo di correlazione viene utilizzato come metodo per identificare una relazione. Per fare ciò, tutti i dati esistenti devono essere rappresentati graficamente. In un sistema di coordinate bidimensionale rettangolare, tutti i dati noti devono essere tracciati. È così che si forma il campo di correlazione. Il valore del fattore descrittivo è segnato lungo l'ascissa, mentre i valori del fattore dipendente sono segnati lungo l'ordinata. Se esiste una relazione funzionale tra i parametri, si allineano sotto forma di una linea.

Se il coefficiente di correlazione di tali dati è inferiore al 30%, possiamo parlare della quasi totale assenza di connessione. Se è compreso tra il 30% e il 70%, indica la presenza di maglie di media tenuta. Un indicatore del 100% è la prova di una connessione funzionale.

Un'equazione di regressione non lineare, proprio come una lineare, deve essere integrata con un indice di correlazione (R).

Correlazione per la regressione multipla

Il coefficiente di determinazione è un indicatore del quadrato della correlazione multipla. Parla della tenuta della relazione del set di indicatori presentato con il tratto in esame. Può anche parlare della natura dell'influenza dei parametri sul risultato. L'equazione di regressione multipla viene valutata utilizzando questo indicatore.

Per calcolare l'indice di correlazione multipla, è necessario calcolare il suo indice.

Metodo dei minimi quadrati

Questo metodo è un modo per stimare i fattori di regressione. La sua essenza sta nel minimizzare la somma delle deviazioni al quadrato ottenute a causa della dipendenza del fattore dalla funzione.

Un'equazione di regressione lineare accoppiata può essere stimata utilizzando tale metodo. Questo tipo di equazioni viene utilizzato in caso di rilevamento tra gli indicatori di una relazione lineare accoppiata.

Opzioni di equazione

Ogni parametro della funzione di regressione lineare ha un significato specifico. L'equazione di regressione lineare accoppiata contiene due parametri: c e m.Il parametro t mostra la variazione media nell'indicatore finale della funzione y, soggetto a una diminuzione (aumento) della variabile x di un'unità convenzionale. Se la variabile x è zero, allora la funzione è uguale al parametro c. Se la variabile x non è zero, allora il fattore c non ha senso economico. L'unica influenza sulla funzione è il segno davanti al fattore c. Se c'è un meno, allora possiamo dire di un lento cambiamento nel risultato rispetto al fattore. Se c'è un vantaggio, questo indica un cambiamento accelerato nel risultato.

Ogni parametro che modifica il valore dell'equazione di regressione può essere espresso in termini di un'equazione. Ad esempio, il fattore c ha la forma c = y - mx.

Dati raggruppati

Esistono tali condizioni dell'attività in cui tutte le informazioni sono raggruppate in base all'attributo x, ma allo stesso tempo, per un determinato gruppo, vengono indicati i corrispondenti valori medi dell'indicatore dipendente. In questo caso, i valori medi caratterizzano come l'indicatore dipende da x. Pertanto, le informazioni raggruppate aiutano a trovare l'equazione di regressione. È usato come analisi delle relazioni. Tuttavia, questo metodo ha i suoi svantaggi. Sfortunatamente, le medie sono spesso soggette a fluttuazioni esterne. Queste fluttuazioni non riflettono gli schemi della relazione, ne mascherano solo il "rumore". Le medie mostrano modelli di relazione molto peggiori di un'equazione di regressione lineare. Tuttavia, possono essere utilizzati come base per trovare un'equazione. Moltiplicando la dimensione di una particolare popolazione per la media corrispondente, puoi ottenere la somma di y all'interno del gruppo. Successivamente, è necessario eliminare tutti gli importi ricevuti e trovare l'indicatore finale y. È un po' più difficile fare calcoli con l'indicatore di somma xy. Nel caso in cui gli intervalli siano piccoli, possiamo condizionalmente prendere l'indicatore x per tutte le unità (all'interno del gruppo) lo stesso. Moltiplicalo per la somma di y per trovare la somma dei prodotti di x e y. Inoltre, tutte le somme vengono messe insieme e si ottiene la somma totale xy.

Regressione di equazioni a coppie multiple: valutazione dell'importanza di una relazione

Come discusso in precedenza, la regressione multipla ha una funzione della forma y \u003d f (x 1, x 2, ..., x m) + E. Molto spesso, tale equazione viene utilizzata per risolvere il problema della domanda e dell'offerta di beni, interessi attivi sulle azioni riacquistate, studiando le cause e il tipo di funzione del costo di produzione. Viene anche utilizzato attivamente in un'ampia varietà di studi e calcoli macroeconomici, ma a livello di microeconomia questa equazione viene utilizzata un po' meno frequentemente.

Il compito principale della regressione multipla è costruire un modello di dati contenente un'enorme quantità di informazioni al fine di determinare ulteriormente quale influenza ciascuno dei fattori individualmente e nella loro totalità ha sull'indicatore da modellare e sui suoi coefficienti. L'equazione di regressione può assumere una varietà di valori. In questo caso, vengono solitamente utilizzati due tipi di funzioni per valutare la relazione: lineare e non lineare.

Una funzione lineare è rappresentata sotto forma di una tale relazione: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. In questo caso, a2, a m , sono considerati i coefficienti di regressione "pura". Sono necessari per caratterizzare la variazione media del parametro y con una variazione (diminuzione o aumento) di ciascun parametro x corrispondente di un'unità, con la condizione di un valore stabile di altri indicatori.

Le equazioni non lineari hanno, per esempio, la forma di una funzione potenza y=ax 1 b1 x 2 b2 ...x m bm . In questo caso, gli indicatori b 1, b 2 ..... b m - sono chiamati coefficienti di elasticità, dimostrano come il risultato cambierà (di quanto%) con un aumento (diminuzione) dell'indicatore corrispondente x dell'1% e con un indicatore stabile di altri fattori.

Quali fattori dovrebbero essere considerati quando si costruisce una regressione multipla

Per costruire correttamente una regressione multipla, è necessario scoprire a quali fattori prestare particolare attenzione.

È necessario avere una certa comprensione della natura della relazione tra i fattori economici e il modellato. I fattori da includere devono soddisfare i seguenti criteri:

  • Deve essere misurabile. Per utilizzare un fattore che descriva la qualità di un oggetto, in ogni caso, dovrebbe essere data una forma quantitativa.
  • Non ci dovrebbero essere intercorrelazioni tra fattori o relazioni funzionali. Tali azioni molto spesso portano a conseguenze irreversibili: il sistema di equazioni ordinarie diventa incondizionato e ciò comporta la sua inaffidabilità e stime sfocate.
  • Nel caso di un enorme indicatore di correlazione, non c'è modo di scoprire l'influenza isolata dei fattori sul risultato finale dell'indicatore, pertanto i coefficienti diventano non interpretabili.

Metodi di costruzione

Esistono moltissimi metodi e modi per spiegare come scegliere i fattori per l'equazione. Tuttavia, tutti questi metodi si basano sulla selezione dei coefficienti utilizzando l'indice di correlazione. Tra questi ci sono:

  • Metodo di esclusione.
  • Attiva il metodo.
  • Analisi di regressione graduale.

Il primo metodo prevede l'eliminazione di tutti i coefficienti dall'insieme aggregato. Il secondo metodo prevede l'introduzione di molti fattori aggiuntivi. Bene, il terzo è l'eliminazione dei fattori precedentemente applicati all'equazione. Ciascuno di questi metodi ha il diritto di esistere. Hanno i loro pro e contro, ma possono risolvere il problema dello screening degli indicatori non necessari a modo loro. Di norma, i risultati ottenuti da ogni singolo metodo sono abbastanza vicini.

Metodi di analisi multivariata

Tali metodi per determinare i fattori si basano sulla considerazione di singole combinazioni di caratteristiche correlate. Questi includono l'analisi discriminante, il riconoscimento di pattern, l'analisi delle componenti principali e l'analisi dei cluster. Inoltre, esiste anche l'analisi fattoriale, tuttavia, è apparsa come risultato dello sviluppo del metodo dei componenti. Tutti vengono applicati in determinate circostanze, in determinate condizioni e fattori.

Condividere