Il significato degli autovalori nel metodo delle componenti principali. Il concetto di componenti principali

Componenti principali

5.1 I metodi di regressione multipla e correlazione canonica implicano la divisione dell'insieme esistente di caratteristiche in due parti. Tuttavia, lungi dall'essere sempre tale divisione può essere oggettivamente fondata, e quindi sono necessari approcci di questo tipo per l'analisi della relazione degli indicatori che implicherebbero la considerazione del vettore di caratteristiche nel suo insieme. Naturalmente, quando si implementano tali approcci, è possibile rilevare una certa eterogeneità in questa batteria di caratteristiche, quando vengono identificati oggettivamente diversi gruppi di variabili. Per le funzioni di uno di questi gruppi correlazioni incrociate sarà molto più elevato rispetto alle combinazioni di indicatori di diversi gruppi. Tuttavia, questo raggruppamento sarà basato sui risultati di un'analisi obiettiva dei dati e non su considerazioni arbitrarie a priori del ricercatore.

5.2 Quando si studiano le correlazioni all'interno di alcuni unico insieme m caratteristiche


X"= X 1 X 2 X 3 ... X m

puoi usare lo stesso metodo che è stato usato al plurale analisi di regressione e il metodo delle correlazioni canoniche - ottenere nuove variabili, la cui variazione riflette pienamente l'esistenza di correlazioni multidimensionali.

Lo scopo di considerare le relazioni intragruppo di un unico insieme di caratteristiche è quello di identificare e visualizzare le principali direzioni oggettivamente esistenti della variazione correlativa di queste variabili. Pertanto, per questi scopi, puoi introdurre alcune nuove variabili Y i , trovate come combinazioni lineari dell'insieme originale di caratteristiche X

S 1 = b 1"X= b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Y 2 = b 2"X= b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

S 3 = b 3"X= b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Y m = bm "X= b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

e avendo un certo numero di proprietà desiderabili. Sia, per certezza, il numero di nuove caratteristiche sia uguale al numero di indicatori originali (m).

Una di queste proprietà ottimali desiderabili può essere la reciproca non correlazione di nuove variabili, cioè la loro forma diagonale matrice di covarianza

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

Si= 0 0 s y3 2 ... 0 , (5.2)

... ... ... ... ...

0 0 0 … sim 2

dove s yi 2 è la varianza della i-esima nuova caratteristica Y i . La non correlazione di nuove variabili, oltre alla sua ovvia convenienza, ha un'importante proprietà: ogni nuova caratteristica Y i terrà conto solo della sua parte indipendente dell'informazione sulla variabilità e correlazione degli indicatori originali X.

La seconda proprietà necessaria dei nuovi segni è l'ordinata contabilizzazione della variazione degli indicatori iniziali. Quindi, la prima nuova variabile Y 1 tenga conto della quota massima della variazione totale delle caratteristiche X. Questo, come vedremo in seguito, equivale al requisito che Y 1 abbia la massima varianza possibile s y1 2 . Tenendo conto dell'uguaglianza (1.17), questa condizione può essere scritta come

s y1 2 = b 1 "Sb 1= massimo , (5.3)

dove S- matrice di covarianza delle caratteristiche iniziali X, b 1- un vettore comprendente i coefficienti b 11 , b 12 , b 13 , ..., b 1m con il quale, dai valori di X 1 , X 2 , X 3 , ..., X m puoi ottenere il valore di S 1 .

Lascia che la seconda nuova variabile Y 2 descriva la parte massima di quella componente della variazione totale rimasta dopo aver preso in considerazione la sua quota maggiore nella variabilità della prima nuova caratteristica Y 1 . Per ottenere ciò, è necessario soddisfare la condizione

s y2 2 = b 2 "Sb 2= massimo , (5.4)

a zero connessione Y 1 con Y 2 , (cioè r y1y2 = 0) e a s y1 2 > s y2 2 .

Allo stesso modo, la terza nuova caratteristica Y 3 dovrebbe descrivere la terza parte più importante della variazione delle caratteristiche originali, per la quale anche la sua varianza dovrebbe essere massima

s y3 2 = b 3 "Vedi 3= massimo , (5,5)

a condizione che Y 3 non sia correlato con le prime due nuove caratteristiche Y 1 e Y 2 (cioè r y1y3 = 0, r y2y3 = 0) e s y1 2 > s y2 > s y3 2 .

Pertanto, le varianze di tutte le nuove variabili sono caratterizzate dall'ordine in grandezza

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Vettori dalla formula (5.1) b 1 , b 2 , b 3 , ..., b m , con l'aiuto del quale dovrebbe essere eseguita la transizione a nuove variabili Y i, può essere scritto sotto forma di matrice


B = b 1 b 2 b 3 ... b m . (5.7)

Transizione da un insieme di caratteristiche iniziali X ad un insieme di nuove variabili Y può essere rappresentato come una formula matriciale

Y = B"X , (5.8)

e ottenere la matrice di covarianza delle nuove caratteristiche e raggiungere la condizione (5.2) di nuove variabili non correlate secondo la formula (1.19) può essere rappresentato come

B"SB= Si , (5.9)

dove è la matrice di covarianza di nuove variabili Si a causa della loro non correlazione, ha una forma diagonale. Dalla teoria delle matrici (cap A.25 Appendice A) è noto che, avendo ottenuto per qualche matrice simmetrica UN autovettori tu io e i numeri l i e

chiamando matrici da loro u e l, è possibile, secondo la formula (A.31), ottenere il risultato

U "AU= l ,

dove lè una matrice diagonale che include gli autovalori della matrice simmetrica UN. È facile vedere che l'ultima uguaglianza coincide completamente con la formula (5.9). Pertanto, si può trarre la seguente conclusione. Proprietà desiderabili di nuove variabili Y può essere garantito se i vettori b 1 , b 2 , b 3 , ..., b m , con l'aiuto del quale dovrebbe essere effettuata la transizione a queste variabili, saranno gli autovettori della matrice di covarianza delle caratteristiche iniziali S. Quindi le dispersioni delle nuove caratteristiche s yi 2 saranno autovalori

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Nuove variabili, il cui passaggio secondo le formule (5.1) e (5.8) viene effettuato utilizzando autovettori le matrici di covarianza delle caratteristiche originali sono dette componenti principali. A causa del fatto che il numero di autovettori della matrice di covarianza è generalmente uguale a m - il numero di caratteristiche iniziali per questa matrice, anche il numero di componenti principali è uguale a m.

In accordo con la teoria delle matrici, per trovare gli autovalori e i vettori della matrice di covarianza, si dovrebbe risolvere l'equazione

(S-l io io)b io = 0 . (5.11)

Questa equazione ha soluzione se è soddisfatta la condizione che il determinante sia uguale a zero

½ S-l io io½ = 0. (5.12)

Tale condizione risulta essenzialmente essere anche un'equazione le cui radici sono tutti gli autovalori l 1 , l 2 , l 3 , ..., l m della matrice di covarianza coincidenti contemporaneamente con le varianze delle componenti principali. Dopo aver ottenuto questi numeri, per ogni i-esimo di essi, secondo l'equazione (5.11), si ottiene il corrispondente autovettore b io . In pratica vengono utilizzate speciali procedure iterative per calcolare autovalori e vettori (Appendice B).

Tutti gli autovettori possono essere scritti come una matrice B, che sarà una matrice ortonormale, in modo che (sezione A.24 Appendice A) perché viene eseguita

B"B = bb" = io . (5.13)

Quest'ultimo significa che per ogni coppia di autovettori, b io "b j= 0, e per qualsiasi vettore di questo tipo l'uguaglianza b io "b io = 1.

5.4 Illustriamo la derivazione delle componenti principali per il caso più semplice di due caratteristiche iniziali X 1 e X 2 . La matrice di covarianza per questo insieme è

dove s 1 e s 2 sono le deviazioni standard delle caratteristiche X 1 e X 2 e r è il coefficiente di correlazione tra loro. Allora la condizione (5.12) può essere scritta come

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Figura 5.1.Significato geometrico delle componenti principali

Espandendo il determinante, possiamo ottenere l'equazione

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0,

risolvendo quale, puoi ottenere due radici l 1 e l 2 . L'equazione (5.11) può anche essere scritta come


s 1 2 - l io r s 1 s 2 b io1 = 0

r s 1 s 2 s 2 2 - l io b i2 0

Sostituendo l 1 in questa equazione, otteniamo sistema lineare

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0,

la cui soluzione sono gli elementi del primo autovettore b 11 e b 12 . Dopo un'analoga sostituzione della seconda radice l 2 troviamo gli elementi del secondo autovettore b 21 e b 22 .

5.5 Scopriamolo significato geometrico componenti principali. Questo può essere fatto visivamente solo per il caso più semplice di due caratteristiche X 1 e X 2 . Sia caratterizzato da una bidimensionalità distribuzione normale con un valore positivo del coefficiente di correlazione. Se tutte le singole osservazioni vengono applicate al piano formato dagli assi delle caratteristiche, i punti ad esse corrispondenti si troveranno all'interno di una certa ellisse di correlazione (Fig. 5.1). Le nuove funzioni Y 1 e Y 2 possono anche essere visualizzate sullo stesso piano dei nuovi assi. Secondo il significato del metodo, per la prima componente principale Y 1 , che tiene conto della massima varianza totale possibile delle caratteristiche X 1 e X 2 , dovrebbe essere raggiunto il massimo della sua varianza. Ciò significa che per Y 1 si dovrebbe trovare tale

asse in modo che la larghezza della distribuzione dei suoi valori sia la più grande. Ovviamente, ciò si ottiene se questo asse coincide in direzione con l'asse maggiore dell'ellisse di correlazione. Infatti, se proiettiamo su questa coordinata tutti i punti corrispondenti alle singole osservazioni, otterremo una distribuzione normale con il più ampio range possibile e la più grande dispersione. Questa sarà la distribuzione dei singoli valori della prima componente principale Y 1 .

L'asse corrispondente alla seconda componente principale Y 2 deve essere tracciato perpendicolarmente al primo asse, in quanto questo deriva dalla condizione delle componenti principali non correlate. Infatti, in questo caso otterremo un nuovo sistema di coordinate con gli assi Y 1 e Y 2 coincidenti in direzione con gli assi dell'ellisse di correlazione. Si può vedere che l'ellisse di correlazione, se considerata in nuovo sistema coordinate mostra i valori individuali non correlati di Y 1 e Y 2 , mentre per i valori delle caratteristiche originali X 1 e X 2 è stata osservata la correlazione.

Il passaggio dagli assi associati alle caratteristiche originali X 1 e X 2 a un nuovo sistema di coordinate orientato alle componenti principali Y 1 e Y 2 equivale a ruotare i vecchi assi di un certo angolo j. Il suo valore può essere trovato dalla formula

Tg 2j = . (5.14)

Il passaggio dai valori delle caratteristiche X 1 e X 2 ai componenti principali può essere effettuato in base ai risultati geometria analitica come

Y 1 \u003d X 1 cos j + X 2 sin j

Y 2 \u003d - X 1 sin j + X 2 cos j.

Lo stesso risultato può essere scritto in forma matriciale

Y 1 \u003d cos j sin j X 1 e Y 2 \u003d -sin j cos j X 1,

che corrisponde esattamente alla trasformazione Y 1 = b 1"X e Y 2 = b 2"X. In altre parole,

= B" . (5.15)

Pertanto, la matrice autovettore può anche essere trattata come includente funzioni trigonometriche l'angolo di rotazione che dovrebbe essere eseguito per passare dal sistema di coordinate associato alle caratteristiche originali a nuovi assi basati sui componenti principali.

Se abbiamo m caratteristiche iniziali X 1 , X 2 , X 3 , ..., X m , allora le osservazioni che compongono il campione in esame saranno collocate all'interno di un ellissoide di correlazione m-dimensionale. Quindi l'asse della prima componente principale coinciderà in direzione con l'asse maggiore di questo ellissoide, l'asse della seconda componente principale coinciderà con il secondo asse di questo ellissoide e così via. Il passaggio dal sistema di coordinate originario associato agli assi delle caratteristiche X 1 , X 2 , X 3 , ..., X m ai nuovi assi dei componenti principali sarà equivalente all'implementazione di diverse rotazioni dei vecchi assi mediante angoli j 1 , j 2 , j 3 , .. . e la matrice di transizione B compensare X al sistema delle componenti principali Y, composto da proprie palpebre-

tori della matrice di covarianza, include le funzioni trigonometriche degli angoli del nuovo assi coordinati con le vecchie asce delle caratteristiche originali.

5.6 In accordo con le proprietà degli autovalori e dei vettori, le tracce delle matrici di covarianza delle caratteristiche iniziali e delle componenti principali sono uguali. In altre parole

tr S= tr S y = tr l (5.16)

s 11 + s 22 + ... + s mm \u003d l 1 + l 2 + ... + l m,

quelli. la somma degli autovalori della matrice di covarianza è uguale alla somma delle varianze di tutte le caratteristiche iniziali. Pertanto, si può parlare di un valore totale della varianza delle caratteristiche iniziali pari a tr S, e presi in considerazione dal sistema degli autovalori.

Il fatto che la prima componente principale abbia una varianza massima pari a l 1 significa automaticamente che descrive anche la quota massima della variazione totale delle caratteristiche originarie tr S. Allo stesso modo, la seconda componente principale ha la seconda più grande varianza l 2 , che corrisponde alla seconda più grande quota contabilizzata della variazione totale delle caratteristiche originali, e così via.

Per ogni componente principale è possibile determinare la quota del valore totale della variabilità delle caratteristiche iniziali, che descrive

5.7 Ovviamente, l'idea della variazione totale dell'insieme delle caratteristiche iniziali X 1 , X 2 , X 3 , ..., X m , misurata dal valore tr S, ha senso solo quando tutte queste caratteristiche sono misurate nelle stesse unità. Altrimenti, dovrai aggiungere le dispersioni di caratteristiche diverse, alcune delle quali saranno espresse in quadrati di millimetri, altre in quadrati di chilogrammi, altre in quadrati di radianti o gradi, ecc. Questa difficoltà può essere facilmente evitata se si passa dai valori nominati delle caratteristiche X ij ai loro valori normalizzati z ij = (X ij - M i)./ S i dove M i e S i sono la media aritmetica e deviazione standard della caratteristica i-esima. Le caratteristiche normalizzate z hanno medie zero, varianze unitarie e non sono associate ad alcuna unità di misura. Matrice di covarianza delle caratteristiche iniziali S si trasformerà in una matrice di correlazione R.

Tutto quanto detto sulle componenti principali trovate per la matrice di covarianza rimane vero per la matrice R. Anche qui è possibile, basandosi sugli autovettori della matrice di correlazione b 1 , b 2 , b 3 , ..., b m , vai dalle caratteristiche iniziali z i alle componenti principali y 1 , y 2 , y 3 , ..., y m

si 1 = b 1 "z

si 2 = b 2 "z

si 3 = b 3 "z

y m = b m "z .

Questa trasformazione può essere scritta anche in forma compatta

y = B"z ,

Figura 5.2. Significato geometrico delle componenti principali per due caratteristiche normalizzate z 1 e z 2

dove y- vettore dei valori delle componenti principali, B- matrice comprensiva di autovettori, z- vettore delle caratteristiche iniziali normalizzate. Anche l'uguaglianza è vera

B "RB= ... ... … , (5.18)

dove l 1 , l 2 , l 3 , ..., l m sono gli autovalori della matrice di correlazione.

I risultati ottenuti nell'analisi della matrice di correlazione differiscono da risultati simili per la matrice di covarianza. Innanzitutto, è ora possibile considerare le caratteristiche misurate in diverse unità. Secondo, autovettori e numeri trovati per le matrici R e S, sono anche diversi. In terzo luogo, le componenti principali determinate dalla matrice di correlazione e basate sui valori normalizzati delle caratteristiche z risultano essere centrate, ad es. aventi valori medi nulli.

Sfortunatamente, avendo determinato gli autovettori ei numeri per la matrice di correlazione, è impossibile passare da essi a vettori e numeri simili della matrice di covarianza. In pratica, le componenti principali basate sulla matrice di correlazione sono solitamente utilizzate come componenti più universali.

5.8 Consideriamo il significato geometrico delle componenti principali determinate dalla matrice di correlazione. Il caso di due caratteristiche z 1 e z 2 è illustrativo qui. Il sistema di coordinate associato a queste caratteristiche normalizzate ha un punto zero situato al centro del grafico (Fig. 5.2). Il punto centrale dell'ellisse di correlazione,

comprese tutte le singole osservazioni, coincide con il centro del sistema di coordinate. Ovviamente l'asse della prima componente principale, che ha la variazione massima, coinciderà con l'asse maggiore dell'ellisse di correlazione e la coordinata della seconda componente principale sarà orientata lungo il secondo asse di tale ellisse.

Il passaggio dal sistema di coordinate associato alle caratteristiche originali z 1 e z 2 ai nuovi assi delle componenti principali equivale a ruotare i primi assi di un certo angolo j. Le varianze delle caratteristiche normalizzate sono pari a 1 e dalla formula (5.14) si trova il valore dell'angolo di rotazione j uguale a 45 o . Allora la matrice degli autovettori, che può essere determinata in termini di funzioni trigonometriche di questo angolo usando la formula (5.15), sarà uguale a

Cos j sin j 1 1 1

B" = = .

Sin j cos j (2) 1/2 -1 1

Facili da trovare anche i valori degli autovalori per il caso bidimensionale. La condizione (5.12) risulta essere della forma

che corrisponde all'equazione

l 2 - 2l + 1 - r 2 \u003d 0,

che ha due radici

l 1 = 1 + r (5.19)

Pertanto, i componenti principali della matrice di correlazione per due caratteristiche normalizzate possono essere trovati utilizzando formule molto semplici

Y 1 = (z 1 + z 2) (5.20)

Y 2 \u003d (z 1 - z 2)

I loro valori medi aritmetici sono uguali a zero e le deviazioni standard lo sono

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 In accordo con le proprietà degli autovalori e dei vettori, le tracce della matrice di correlazione delle caratteristiche iniziali e della matrice degli autovalori sono uguali. La variazione totale di m caratteristiche normalizzate è pari a m. In altre parole

tr R= m = tr l (5.21)

l 1 + l 2 + l 3 + ... + l m = m .

Allora la quota della variazione totale delle caratteristiche iniziali, descritta dall'i-esima componente principale è uguale a

Puoi anche introdurre il concetto di P cn - la quota della variazione totale delle caratteristiche originali, descritta dalle prime n componenti principali,

n l 1 + l 2 + ... + l n

P cn = SP io = . (5.23)

Il fatto che per gli autovalori vi sia un ordinamento della forma l 1 > l 2 > > l 3 > ... > l m significa che relazioni simili saranno caratteristiche anche delle quote descritte dalle componenti principali della variazione

P 1 > P 2 > P 3 > ... > P m . (5.24)

La proprietà (5.24) comporta una forma specifica della dipendenza della quota cumulata P cn da n (Fig. 5.3). In questo caso, le prime tre componenti principali descrivono la parte principale della variabilità delle caratteristiche. Ciò significa che spesso alcune prime componenti principali possono insieme rappresentare fino all'80 - 90% della variazione totale delle caratteristiche, mentre ciascuna successiva componente principale aumenterà questa quota molto leggermente. Quindi, per ulteriori considerazioni e interpretazioni, solo queste poche prime componenti principali possono essere utilizzate con sicurezza in quanto descrivono i modelli più importanti di variabilità e correlazione intragruppo.

Figura 5.3. Dipendenza della proporzione della variazione totale delle caratteristiche P cn , descritta dalle prime n componenti principali, dal valore di n. Numero di funzioni m = 9

Figura 5.4. Alla definizione della costruzione del criterio di vagliatura delle componenti principali

segni. Grazie a ciò, il numero di nuove variabili informative con cui lavorare può essere ridotto di un fattore 2 - 3. Pertanto, i componenti principali hanno uno più importante e proprietà utile- semplificano notevolmente la descrizione della variazione delle caratteristiche originarie e la rendono più compatta. Tale riduzione del numero di variabili è sempre auspicabile, ma è associata ad alcune distorsioni nella disposizione reciproca dei punti corrispondenti alle singole osservazioni nello spazio delle poche prime componenti principali rispetto allo spazio m-dimensionale delle caratteristiche originarie. Queste distorsioni derivano dal tentativo di comprimere lo spazio delle caratteristiche nello spazio delle prime componenti principali. Tuttavia, nella statistica matematica è dimostrato che tra tutti i metodi che possono ridurre significativamente il numero di variabili, il passaggio alle componenti principali porta alla minima distorsione nella struttura delle osservazioni associata a questa diminuzione.

5.10 Una questione importante nell'analisi delle componenti principali è il problema della determinazione del loro numero per ulteriori considerazioni. Ovviamente, un aumento del numero delle componenti principali aumenta la quota cumulativa della variabilità considerata P cn e la avvicina a 1. Allo stesso tempo, la compattezza della descrizione risultante diminuisce. La scelta del numero delle componenti principali, che fornisce contemporaneamente completezza e compattezza della descrizione, può basarsi su diversi criteri applicati nella pratica. Elenchiamo i più comuni.

Il primo criterio si basa sulla considerazione che il numero delle componenti principali prese in considerazione dovrebbe fornire una sufficiente completezza informativa della descrizione. In altre parole, le componenti principali in esame dovrebbero descrivere la maggior parte della variabilità totale delle caratteristiche iniziali: fino al 75 - 90%. La scelta di un determinato livello della quota accumulata P cn resta soggettiva e dipende sia dall'opinione del ricercatore che dal problema da risolvere.

Un altro criterio simile (il criterio di Kaiser) permette di includere componenti principali con autovalori maggiori di 1. Si basa sull'assunto che 1 sia la varianza di una caratteristica iniziale normalizzata. Poeta-

Pertanto, l'inclusione nell'ulteriore considerazione di tutte le componenti principali con autovalori maggiori di 1 significa che si considerano solo quelle nuove variabili che hanno varianze di almeno una caratteristica originale. Il criterio Kaiser è molto comune e il suo utilizzo è incorporato in molti pacchetti software. elaborazione statistica data quando è necessario impostare il valore minimo dell'autovalore da tenere in considerazione e il valore di default è spesso 1.

Il criterio di vagliatura di Cattell è teoricamente suffragato in qualche modo meglio. La sua applicazione si basa sulla considerazione di un grafico su cui sono tracciati i valori di tutti gli autovalori in ordine decrescente (Fig. 5.4). Il criterio di Cattell si basa sull'effetto che una sequenza tracciata di valori degli autovalori ottenuti di solito produce una linea concava. I primi autovalori mostrano una diminuzione non rettilinea del loro livello. Tuttavia, a partire da alcuni autovalori, la diminuzione di questo livello diventa approssimativamente rettilinea e piuttosto piatta. L'inclusione delle componenti principali nella considerazione si conclude con quella il cui autovalore inizia una sezione rettilinea piana del grafico. Quindi, nella Figura 5.4, secondo il criterio di Cattell, dovrebbero essere incluse nella considerazione solo le prime tre componenti principali, poiché il terzo autovalore si trova proprio all'inizio della sezione rettilinea piana del grafo.

Il criterio Cattell si basa su quanto segue. Se consideriamo i dati su m caratteristiche, ottenuti artificialmente da una tabella di normalmente distribuiti numeri casuali, quindi per loro le correlazioni tra le caratteristiche saranno del tutto casuali e saranno prossime a 0. Quando si troveranno qui le componenti principali, sarà possibile rilevare una graduale diminuzione della grandezza dei loro autovalori, che ha carattere rettilineo. In altre parole, una diminuzione lineare degli autovalori può indicare l'assenza nelle corrispondenti informazioni sulla correlazione di segni di relazioni non casuali.

5.11 Quando si interpretano le componenti principali, vengono spesso utilizzati autovettori, presentati sotto forma di cosiddetti carichi - coefficienti di correlazione delle caratteristiche originali con le componenti principali. Autovettori b io uguaglianza soddisfacente (5.18) sono ottenuti in una forma normalizzata, in modo che b io "b io= 1. Ciò significa che la somma dei quadrati degli elementi di ciascun autovettore è 1. Gli autovettori i cui elementi sono carichi possono essere trovati facilmente con la formula

un io= (l io) 1/2 b io . (5.25)

In altre parole, moltiplicando la forma normalizzata dell'autovettore per la radice quadrata del suo autovalore, si ottiene un insieme di carichi di caratteristiche iniziali sulla corrispondente componente principale. Per i vettori di carico, l'uguaglianza risulta essere vera un io "un io= l i , che significa che la somma dei carichi al quadrato su i-esimo principale componente è uguale all'i-esimo autovalore. Programmi per computer di solito emette autovettori sotto forma di carichi. Se è necessario ottenere questi vettori in forma normalizzata b io questo può essere fatto con una semplice formula b io = un io/ (l i) 1/2 .

5.12 Le proprietà matematiche degli autovalori e dei vettori sono tali che, secondo la sezione A.25 Allegati Una matrice di correlazione originale R può essere presentato nel modulo R = BLB", che può anche essere scritto come

R= l 1 b 1 b 1 "+ l 2 b 2 b 2 "+ l 3 b 3 b 3 "+ ... + lm b m b m " . (5.26)

Va notato che uno qualsiasi dei termini l i b io b io ", corrispondente i-esimo principale componente è matrice quadrata

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

io b io b io "= l io b io1 b io2 l io b io2 2 l io b io2 b io3 ... l io b io2 b im . (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Qui b ij è un elemento dell'i-esimo autovettore della j-esima caratteristica originale. Qualsiasi termine diagonale di tale matrice l i b ij 2 è una frazione della variazione dell'attributo j-esimo, descritto dalla i-esima componente principale. Quindi la varianza di qualsiasi j-esima caratteristica può essere rappresentata come

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

il che significa la sua espansione in termini di contributi dipendenti da tutte le componenti principali.

Allo stesso modo, qualsiasi termine fuori diagonale l i b ij b ik della matrice (5.27) è una certa parte del coefficiente di correlazione r jk delle j-esima e k-esima caratteristica presa in considerazione dall'i-esima componente principale. Quindi possiamo scrivere l'espansione di questo coefficiente come somma

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

contributi di tutte le m componenti principali ad esso.

Pertanto, dalle formule (5.28) e (5.29), si può vedere chiaramente che ogni componente principale descrive una certa parte della varianza di ciascuna caratteristica iniziale e il coefficiente di correlazione di ciascuna delle loro combinazioni.

Tenuto conto del fatto che gli elementi della forma normalizzata degli autovettori b ij sono correlati ai carichi a ij da una semplice relazione (5.25), l'espansione (5.26) può essere scritta anche in termini di autovettori dei carichi R = AA", che può anche essere rappresentato come

R = un 1 un 1" + un 2 un 2" + un 3 un 3" + ... + un m un m" , (5.30)

quelli. come somma dei contributi di ciascuna delle m componenti principali. Ognuno di questi contributi un io un io" può essere scritto come una matrice

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

un io un io"= a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

sulle diagonali di cui sono posti a ij 2 - contributi alla varianza della j-esima caratteristica iniziale, ed elementi fuori diagonale a ij a ik - sono contributi simili al coefficiente di correlazione r jk della j-esima e k- le caratteristiche.

Metodo del componente principale o analisi dei componenti(analisi delle componenti principali, PCA) è uno dei metodi più importanti nell'arsenale di uno zoologo o ecologista. Sfortunatamente, nei casi in cui l'uso dell'analisi dei componenti è abbastanza appropriato, viene spesso utilizzata l'analisi dei cluster.

Un tipico compito per il quale l'analisi dei componenti è utile è il seguente: c'è un certo insieme di oggetti, ognuno dei quali è caratterizzato da un certo numero (abbastanza grande) di caratteristiche. I ricercatori sono interessati ai modelli che si riflettono nella diversità di questi oggetti. Nel caso in cui vi sia motivo di presumere che gli oggetti siano distribuiti tra gruppi gerarchicamente subordinati, è possibile utilizzare l'analisi dei cluster: il metodo classificazione(distribuzione per gruppi). Se non c'è motivo di aspettarsi che una sorta di gerarchia si rifletta nella varietà di oggetti, è logico utilizzarla ordinazione(disposizione ordinata). Se ogni oggetto è caratterizzato da abbastanza un largo numero caratteristiche (almeno - a un tale numero di caratteristiche che non possono essere adeguatamente riflesse in un grafico), è ottimale iniziare lo studio dei dati con l'analisi delle componenti principali. Il fatto è che questo metodo è contemporaneamente un metodo per ridurre la dimensione (numero di misurazioni) dei dati.

Se il gruppo di oggetti in esame è caratterizzato dai valori di una caratteristica, è possibile utilizzare un istogramma (per le caratteristiche continue) o un grafico a barre (per caratterizzare le frequenze di una caratteristica discreta) per caratterizzare la loro diversità. Se gli oggetti sono caratterizzati da due caratteristiche, è possibile utilizzare un grafico a dispersione bidimensionale, se tridimensionale, uno tridimensionale. E se ci sono molti segni? Puoi provare a riflettere su un grafico bidimensionale disposizione reciproca oggetti l'uno rispetto all'altro nello spazio multidimensionale. Tipicamente, una tale riduzione delle dimensioni è associata alla perdita di informazioni. Tra le varie modalità possibili di tale visualizzazione, è necessario scegliere quella in cui la perdita di informazioni sarà minima.

Spieghiamo cosa è stato detto semplice esempio: il passaggio dallo spazio bidimensionale a quello unidimensionale. Importo minimo punti, che definisce uno spazio bidimensionale (piano) - 3. In fig. 9.1.1 mostra la posizione di tre punti sul piano. Le coordinate di questi punti sono facilmente leggibili dal disegno stesso. Come scegliere una linea retta che riporti il ​​massimo delle informazioni sulle posizioni relative dei punti?

Riso. 9.1.1. Tre punti su un piano definito da due caratteristiche. Su quale retta sarà proiettata la massima dispersione di questi punti?

Considera le proiezioni dei punti sulla linea A (mostrata in blu). Le coordinate delle proiezioni di questi punti sulla linea A sono: 2, 8, 10. Il valore medio è 6 2 / 3 . Varianza (2-6 2/3)+ (8-6 2/3)+ (10-6 2/3)=34 2/3 .

Consideriamo ora la linea B (mostrata in verde). Coordinate del punto - 2, 3, 7; il valore medio è 4, la varianza è 14. Pertanto, una proporzione minore della varianza si riflette sulla riga B rispetto alla riga A.

Qual è questa quota? Poiché le linee A e B sono ortogonali (perpendicolari), le quote della varianza totale proiettata su A e B non si intersecano. Ciò significa che la dispersione totale della localizzazione dei punti di interesse per noi può essere calcolata come somma di questi due termini: 34 2 / 3 +14=48 2 / 3 . Allo stesso tempo, il 71,2% della varianza totale è proiettato sulla linea A e il 28,8% sulla linea B.

E come determinare quale retta influenzerà la proporzione massima della varianza? Questa linea corrisponderà alla linea di regressione per i punti di interesse, contrassegnata come C (rossa). Questa retta rifletterà il 77,2% della varianza totale e questo è il valore massimo possibile per questa disposizione di punti. Si chiama tale retta, sulla quale viene proiettata la quota massima della varianza totale prima componente principale.

E su quale retta dovrebbe riflettersi il restante 22,8% della varianza totale? Su una retta perpendicolare alla prima componente principale. Questa linea sarà anche la componente principale, perché rifletterà la massima proporzione possibile della varianza (ovviamente senza tener conto di quella che ha interessato la prima componente principale). Quindi questo è - seconda componente principale.

Dopo aver calcolato queste componenti principali utilizzando Statistica (descriveremo il dialogo poco dopo), otterremo l'immagine mostrata in Fig. 9.1.2. Le coordinate dei punti sui componenti principali sono mostrate in deviazioni standard.


Riso. 9.1.2. La posizione dei tre punti mostrata in fig. 9.1.1, sul piano delle due componenti principali. Perché questi punti sono posizionati l'uno rispetto all'altro in modo diverso rispetto alla Fig. 9.1.1?

Sulla fig. 9.1.2 viene modificata la posizione relativa dei punti. Per interpretare correttamente tali immagini in futuro, si dovrebbero considerare le ragioni delle differenze nella posizione dei punti in Fig. 9.1.1 e 9.1.2 per i dettagli. Il punto 1 in entrambi i casi è a destra (ha una coordinata più grande per il primo segno e la prima componente principale) rispetto al punto 2. Ma, per qualche ragione, il punto 3 nella posizione iniziale è al di sotto degli altri due punti (ha valore più piccolo segno 2), e sopra altri due punti sul piano delle componenti principali (ha una coordinata grande nella seconda componente). Ciò è dovuto al fatto che il metodo delle componenti principali ottimizza proprio la varianza dei dati iniziali proiettati sugli assi da esso scelti. Se la componente principale è correlata con qualche asse originario, la componente e l'asse possono essere diretti nella stessa direzione (hanno una correlazione positiva) o in direzioni opposte (hanno una correlazione negativa). Entrambe queste opzioni sono equivalenti. L'algoritmo dei componenti principali può o meno "capovolgere" qualsiasi aereo; non se ne dovrebbero trarre conclusioni.

Tuttavia, i punti in Fig. 9.1.2 non sono solo “sottosopra” rispetto alla loro posizione relativa in fig. 9.1.1; anche la loro disposizione reciproca è cambiata in un certo modo. Le differenze tra i punti della seconda componente principale sembrano accentuarsi. Il 22,76% della varianza totale attribuibile alla seconda componente “diffonde” i punti alla stessa distanza del 77,24% della varianza attribuibile alla prima componente principale.

Affinché la posizione dei punti sul piano dei componenti principali corrisponda alla loro posizione effettiva, questo piano dovrebbe essere distorto. Sulla fig. 9.1.3. sono mostrati due cerchi concentrici; i loro raggi sono correlati come frazioni delle dispersioni riflesse dalla prima e dalla seconda componente principale. L'immagine corrispondente alla fig. 9.1.2, distorto in modo tale deviazione standard secondo la prima componente principale corrispondeva a un cerchio più grande, e secondo la seconda - a uno più piccolo.


Riso. 9.1.3. Abbiamo tenuto conto che la prima componente principale rappresenta b di una frazione della varianza maggiore della seconda. Per fare ciò, abbiamo distorto la Fig. 9.1.2 adattandolo a due cerchi concentrici i cui raggi sono rapportati come frazioni degli scostamenti attribuibili alle componenti principali. Ma la posizione dei punti non corrisponde ancora a quella originale mostrata in Fig. 9.1.1!

E perché la posizione relativa dei punti in Fig. 9.1.3 non corrisponde a quello di fig. 9.1.1? Nella figura originale, fig. 9.1 i punti sono localizzati secondo le loro coordinate e non secondo le proporzioni della dispersione che cadono su ciascun asse. Una distanza di 1 unità sulla prima caratteristica (lungo l'asse x) in Fig. 9.1.1, c'è una proporzione minore della dispersione dei punti lungo questo asse rispetto alla distanza di 1 unità secondo la seconda caratteristica (lungo l'asse y). E nella Figura 9.1.1, le distanze tra i punti sono determinate con precisione dalle unità in cui sono misurate le caratteristiche, con le quali sono descritte.

Complichiamo un po' il compito. In tavola. 9.1.1 mostra le coordinate di 10 punti nello spazio a 10 dimensioni. I primi tre punti e le prime due dimensioni sono l'esempio che abbiamo appena visto.

Tabella 9.1.1. Coordinate del punto per ulteriori analisi

Coordinate

A fini didattici, considereremo prima solo una parte dei dati della tabella. 9.1.1. Sulla fig. 9.1.4 vediamo la posizione di dieci punti sul piano delle prime due caratteristiche. Si noti che la prima componente principale (riga C) è passata in modo leggermente diverso rispetto al caso precedente. Non c'è da stupirsi: la sua posizione è influenzata da tutti i punti considerati.


Riso. 9.1.4. Abbiamo aumentato il numero di punti. La prima componente principale è già leggermente diversa, perché è stata influenzata dai punti aggiunti

Sulla fig. 9.1.5 mostra la posizione dei 10 punti che abbiamo considerato sul piano delle prime due componenti. Si noti che tutto è cambiato, non solo la proporzione di varianza che va a ciascuna componente principale, ma anche la posizione dei primi tre punti!


Riso. 9.1.5. Ordinazione nel piano delle prime componenti principali di 10 punti, descritte in Tabella. 9.1.1. Sono stati considerati solo i valori dei primi due segni, le ultime 8 colonne della Tabella. 9.1.1 non utilizzato

In generale, questo è naturale: poiché i componenti principali sono posizionati in modo diverso, è cambiata anche la posizione relativa dei punti.

Difficoltà nel confrontare la posizione dei punti sul piano dei componenti principali e sul piano originario dei valori delle loro caratteristiche possono causare sconcerto: perché utilizzare un metodo così difficile da interpretare? La risposta è semplice. Nel caso in cui gli oggetti confrontati siano descritti da due sole caratteristiche, è del tutto possibile utilizzare la loro ordinazione secondo queste caratteristiche iniziali. Tutti i vantaggi del metodo delle componenti principali si manifestano nel caso di dati multidimensionali. In questo caso, il metodo della componente principale è modo effettivo riduzione della dimensione dei dati.

9.2. Transizione ai dati iniziali con un numero elevato di dimensioni

Considera di più caso difficile: analizziamo i dati presentati in Tabella. 9.1.1 per tutte e dieci le funzionalità. Sulla fig. 9.2.1 mostra come viene chiamata la finestra del metodo che ci interessa.


Riso. 9.2.1. Esecuzione del metodo del componente principale

Saremo interessati solo alla selezione delle caratteristiche per l'analisi, sebbene la finestra di dialogo di Statistica consenta una messa a punto molto più fine (Fig. 9.2.2).


Riso. 9.2.2. Selezione delle variabili per l'analisi

Al termine dell'analisi, viene visualizzata una finestra con i suoi risultati con diverse schede (Fig. 9.2.3). Tutte le finestre principali sono disponibili dalla prima scheda.


Riso. 9.2.3. La prima scheda della finestra di dialogo Risultati analisi componenti principali

Si può notare che l'analisi ha identificato 9 componenti principali e, con il loro aiuto, ha descritto il 100% della varianza riflessa in 10 caratteristiche iniziali. Ciò significa che un segno era superfluo, ridondante.

Iniziamo a visualizzare i risultati dal pulsante "Plot case factor voordinates, 2D": mostrerà la posizione dei punti sul piano definito dalle due componenti principali. Premendo questo pulsante, entreremo in una finestra di dialogo in cui dovremo specificare quali componenti utilizzeremo; è naturale iniziare l'analisi con la prima e la seconda componente. Il risultato è in fig. 9.2.4.


Riso. 9.2.4. Ordinazione degli oggetti considerati sul piano delle prime due componenti principali

La posizione dei punti è cambiata, e questo è naturale: nuove funzionalità sono coinvolte nell'analisi. Sulla fig. 9.2.4 riflette oltre il 65% della diversità totale nella posizione dei punti l'uno rispetto all'altro, e questo è già un risultato non banale. Ad esempio, tornando alla tabella. 9.1.1, si può fare in modo che i punti 4 e 7, così come 8 e 10 siano davvero abbastanza vicini tra loro. Tuttavia, le differenze tra di loro possono riguardare altre componenti principali non mostrate in figura: in fondo rappresentano anche un terzo della restante variabilità.

A proposito, quando si analizza il posizionamento dei punti sul piano dei componenti principali, potrebbe essere necessario analizzare le distanze tra di loro. Il modo più semplice è ottenere una matrice di distanze tra punti utilizzando il modulo per l'analisi dei cluster.

E in che modo i componenti principali selezionati sono correlati alle caratteristiche originali? Questo può essere trovato premendo il pulsante (Fig. 9.2.3) Plot var. coordinate fattoriali, 2D. Il risultato è in fig. 9.2.5.


Riso. 9.2.5. Proiezioni delle caratteristiche iniziali sul piano delle prime due componenti principali

Osserviamo il piano delle due componenti principali "dall'alto". Le caratteristiche iniziali che non sono in alcun modo correlate alle componenti principali saranno ad esse perpendicolari (o quasi perpendicolari) e si rifletteranno in brevi segmenti che terminano vicino all'origine. Pertanto, la caratteristica n. 6 è la meno associata alle prime due componenti principali (sebbene dimostri una certa correlazione positiva con la prima componente). I segmenti corrispondenti a quelle caratteristiche che sono completamente riflesse nel piano dei componenti principali termineranno su un cerchio di raggio unitario che racchiude il centro del motivo.

Ad esempio, puoi vedere che la prima componente principale è stata maggiormente influenzata dalle caratteristiche 10 (correlata positivamente) e 7 e 8 (correlata negativamente). Per visualizzare più in dettaglio la struttura di tali correlazioni, è possibile fare clic sul pulsante Coordinate fattoriali delle variabili e ottenere la tabella mostrata in Fig. 9.2.6.


Riso. 9.2.6. Correlazioni tra caratteristiche iniziali e componenti principali selezionati (fattori)

Il pulsante Autovalori visualizza i valori chiamati autovalori delle componenti principali. Nella parte superiore della finestra mostrata in Fig. 9.2.3, tali valori sono derivati ​​per le prime componenti; il pulsante Scree plot li mostra in una forma conveniente per la percezione (Fig. 9.2.7).


Riso. 9.2.7. Autovalori delle componenti principali selezionate e quote della varianza totale da esse riflessa

Per prima cosa devi capire cosa mostra esattamente il valore dell'autovalore. Questa è una misura della varianza riflessa nella componente principale, misurata in termini di quantità di varianza per caratteristica nei dati di input. Se l'autovalore della prima componente principale è 3,4, significa che ha una varianza maggiore rispetto alle tre caratteristiche dell'insieme iniziale. Gli autovalori sono linearmente correlati alla proporzione della varianza attribuibile alla componente principale, l'unica cosa è che la somma degli autovalori è uguale al numero delle caratteristiche iniziali, e la somma delle quote di varianza è 100% .

E cosa significa che le informazioni sulla variabilità per 10 tratti si riflettevano in 9 componenti principali? Che una delle caratteristiche iniziali fosse ridondante non ha aggiunto alcuna nuova informazione. E così è stato; in fig. 9.2.8 mostra come è stato generato l'insieme di punti mostrato nella Tabella 1. 9.1.1.

L'analisi dei componenti principali (PCA) semplifica la complessità dei dati ad alta dimensione preservando tendenze e modelli. Lo fa convertendo i dati in dimensioni più piccole, che agiscono come riepiloghi delle funzionalità. Tali dati sono molto comuni in vari rami della scienza e della tecnologia e sorgono quando vengono misurati diversi tratti per ciascun campione, come l'espressione di molte specie. Questo tipo di dati presenta problemi causati da un aumento del tasso di errore dovuto a correzioni multiple dei dati.

Il metodo è simile al clustering: trova modelli non collegati e li analizza, controllando se i campioni provengono da diversi gruppi di studio e se presentano differenze significative. Come in tutto metodi statistici, può essere applicato in modo errato. Il ridimensionamento delle variabili può portare a risultati di analisi diversi ed è importante che non venga regolato in modo che corrisponda al valore precedente dei dati.

Obiettivi dell'analisi dei componenti

Lo scopo principale del metodo è rilevare e ridurre la dimensionalità di un set di dati, per determinare nuove variabili di base significative. Per fare ciò, si propone di utilizzare strumenti speciali, ad esempio per raccogliere dati multidimensionali in una matrice di dati TableOfReal in cui le righe sono associate a casi e colonne di variabili. Pertanto, TableOfReal viene interpretato come vettori di dati numberOfRows, ogni vettore ha un numero di elementi Columns.

Tradizionalmente, l'analisi delle componenti principali viene eseguita su una matrice di covarianza o su una matrice di correlazione, che può essere calcolata dalla matrice di dati. La matrice di covarianza contiene somme scalate di quadrati e prodotti incrociati. La matrice di correlazione è simile alla matrice di covarianza, ma in essa sono state prima standardizzate le variabili, cioè le colonne. Innanzitutto, dovrai standardizzare i dati se le varianze o le unità di misura delle variabili sono molto diverse. Per eseguire l'analisi, seleziona la matrice di dati TabelOfReal nell'elenco degli oggetti e fai clic su vai.

Ciò comporterà la comparsa di un nuovo oggetto nell'elenco di oggetti in base al metodo del componente principale. Ora puoi tracciare le curve agli autovalori per avere un'idea dell'importanza di ciascuna. E anche il programma può offrire un'azione: ottenere la proporzione della varianza o verificare l'uguaglianza del numero degli autovalori e ottenere la loro uguaglianza. Poiché i componenti sono ottenuti risolvendo uno specifico problema di ottimizzazione, hanno alcune proprietà "intrinseche", come la massima variabilità. Inoltre, ci sono una serie di altre proprietà che l'analisi fattoriale può fornire:

  • la varianza di ciascuna, mentre la quota della varianza totale delle variabili iniziali è data dai propri valori;
  • calcoli di valutazione che illustrino il valore di ciascuna componente sotto osservazione;
  • ottenere carichi che descrivono la correlazione tra ogni componente e ogni variabile;
  • correlazione tra le variabili originali riprodotte utilizzando la componente p;
  • la riproduzione dei dati originali può essere riprodotta con componenti p;
  • componenti "rotanti" per aumentarne l'interpretabilità.

Selezione del numero di punti di stoccaggio

Esistono due modi per selezionare il numero richiesto di componenti da memorizzare. Entrambi i metodi si basano su relazioni tra autovalori. Per fare ciò, si consiglia di tracciare i valori. Se i punti sul grafico tendono ad appiattirsi e sono abbastanza vicini allo zero, allora possono essere ignorati. Limitare il numero di componenti a un numero che rappresenti una determinata proporzione della varianza totale. Ad esempio, se l'utente soddisfa il 95% della varianza totale, ottenere il numero di componenti (VAF) 0,95.

I componenti principali sono ottenuti progettando una struttura multidimensionale analisi statistica metodo delle componenti principali dei vettori di dati sullo spazio degli autovettori. Questo può essere fatto in due modi: direttamente da TableOfReal senza prima generare un oggetto PCA, quindi puoi visualizzare la configurazione o i suoi numeri. Selezionare oggetto e TableOfReal insieme e 'Configurazione', quindi l'analisi viene eseguita nell'ambiente del componente.

Se il punto di partenza risulta essere una matrice simmetrica, come una matrice di covarianza, eseguire prima la riduzione in forma e quindi l'algoritmo QL con spostamenti impliciti. Se, al contrario, il punto di partenza è una matrice di dati, allora è impossibile formare una matrice con somme di quadrati. Invece, si muovono da un modo numericamente più stabile e formano espansioni di valore singolare. Quindi la matrice conterrà autovettori e gli elementi diagonali quadrati - autovalori.

Il componente principale è la combinazione lineare normalizzata dei predittori originali nel set di dati del componente principale per i manichini. Nell'immagine sopra, PC1 e PC2 sono i componenti principali. Diciamo che ci sono un certo numero di predittori come X1, X2...,Xp.

Il componente principale può essere scritto come: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 - è il primo componente principale;
  • p1 - ​​​​è il vettore di carico costituito dai carichi (1, 2.) della prima componente principale.

I carichi sono limitati alla somma del quadrato di 1. Ciò è dovuto al fatto che grandi carichi possono portare a grandi dispersioni. Definisce inoltre la direzione della componente principale (Z1) in cui i dati differiscono maggiormente. Ciò porta al fatto che la linea nello spazio delle p-misure è la più vicina alle n-osservazioni.

La prossimità viene misurata utilizzando la distanza euclidea rms. X1..Xp sono predittori normalizzati. I predittori normalizzati hanno un valore medio pari a zero e deviazione standard uguale a uno. Pertanto, il primo componente principale è una combinazione lineare delle variabili predittive originali che cattura la varianza massima nel set di dati. Determina la direzione della maggiore variabilità nei dati. Maggiore è la variabilità registrata nella prima componente, maggiori sono le informazioni da essa ricevute. Nessun altro può avere una volatilità superiore al primo major.

Il primo componente principale risulta nella linea più vicina ai dati e riduce al minimo la somma del quadrato della distanza tra il punto dati e la linea. Anche la seconda componente principale (Z2). combinazione lineare predittori originali che catturano la varianza rimanente nel set di dati e non sono correlati Z1. In altre parole, la correlazione tra la prima e la seconda componente dovrebbe essere zero. Può essere rappresentato come: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Se non sono correlati, le loro direzioni devono essere ortogonali.

Dopo che i componenti principali sono stati calcolati, inizia il processo di previsione dei dati di test che li utilizzano. Il processo del metodo dei componenti principali per i manichini è semplice.

Ad esempio, è necessario effettuare una trasformazione al test set, includendo la funzione centro e scala nel linguaggio R (v.3.4.2) e la sua libreria rvest. R è un linguaggio di programmazione gratuito per il calcolo statistico e la grafica. È stato ricostruito nel 1992 per risolvere i problemi statistici degli utenti. Questo è il processo di simulazione completo dopo l'estrazione della PCA.

Per implementare PCA in Python, importa i dati dalla libreria sklearn. L'interpretazione rimane la stessa degli utenti R. Solo il set di dati utilizzato per Python è una versione ripulita, senza valori mancanti imputati e variabili categoriali convertite in numeriche. Il processo di simulazione rimane lo stesso descritto sopra per gli utenti R. Analisi delle componenti principali, esempio di calcolo:

L'idea alla base del metodo della componente principale è di approssimare questa espressione per eseguire l'analisi fattoriale. Invece di sommare da 1 a p, ora somma da 1 a m, ignorando quest'ultimo membri del pomeriggio nella somma e ottenendo la terza espressione. È possibile riscriverlo come mostrato nell'espressione utilizzata per definire la matrice di caricamento del fattore L, che fornisce l'espressione finale in notazione matriciale. Se vengono utilizzate misurazioni standardizzate, sostituire S con la matrice del campione di correlazione R.

Questa forma la matrice di caricamento dei fattori L nell'analisi fattoriale ed è seguita dalla L trasposta. Per stimare varianze specifiche, modellare i fattori della matrice varianza-covarianza.

Ora sarà uguale alla matrice varianza-covarianza meno LL ".

  • Xi è il vettore delle osservazioni per l'i-esimo soggetto.
  • S denota la nostra matrice di varianza-covarianza campionaria.

Quindi gli autovalori p per questa matrice di covarianza della varianza, nonché i corrispondenti autovettori per questa matrice.

Autovalori S:λ^1, λ^2, ... , λ^p.

Autovettori S: e^1, e^2, ... , e^n.

L'analisi PCA è una tecnica di analisi multivariata potente e popolare che consente di esplorare set di dati multivariati con variabili quantitative. Secondo questa tecnica, il metodo delle componenti principali è ampiamente utilizzato in bioinformatica, marketing, sociologia e molti altri campi. XLSTAT fornisce un modo completo e flessibile per esplorare i dati direttamente in Excel e offre diverse opzioni standard e avanzate che ti forniranno una profonda comprensione dei dati dell'utente.

È possibile eseguire il programma su dati grezzi o matrici di differenze, aggiungere ulteriori variabili o osservazioni, filtrare le variabili in base a criteri diversi per ottimizzare la lettura delle carte. Inoltre, puoi eseguire i turni. Cerchio di correlazione facile da impostare, grafico di osservazione come grafici excel standard. È sufficiente trasferire i dati dal report dei risultati per utilizzarli nell'analisi.

XLSTAT offre diversi metodi di elaborazione dei dati da utilizzare sull'input prima che venga calcolata la componente principale:

  1. Pearson, un classico PCA che standardizza automaticamente i dati per i calcoli per evitare variabili gonfie con grandi deviazioni dal risultato.
  2. Covarianza che funziona con deviazioni non standard.
  3. Policorico, per dati ordinali.

Esempi di analisi dei dati dimensionali

Puoi considerare il metodo delle componenti principali nell'esempio dell'implementazione di una correlazione simmetrica o matrice di covarianza. Ciò significa che la matrice deve essere numerica e avere dati standardizzati. Diciamo che esiste un set di dati con dimensioni di 300 (n) × 50 (p). Dove n è il numero di osservazioni e p è il numero di predittori.

Poiché c'è un grande p = 50, potrebbe esserci un grafico a dispersione p(p-1)/2. In questo caso, sarebbe un buon approccio scegliere un sottoinsieme del predittore p(p<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Un esempio per una matrice con due variabili. Questo esempio di componenti principali crea un set di dati con due variabili (lunghezza grande e lunghezza diagonale) utilizzando dati Davis artificiali.

I componenti possono essere disegnati su un grafico a dispersione come segue.

Questo grafico illustra l'idea di un primo o principale componente che fornisce un riepilogo ottimale dei dati: nessun'altra linea tracciata su un tale grafico a dispersione produrrebbe un insieme di valori di punti dati previsti su una linea con varianza minore.

Il primo componente ha anche applicazioni nella regressione dell'asse principale ridotto (RMA), in cui si presume che entrambe le variabili x e y abbiano errori o incertezze, o dove non esiste una chiara distinzione tra predittore e risposta.

L'analisi delle componenti principali in econometria è l'analisi di variabili come PNL, inflazione, tassi di cambio, ecc. Le loro equazioni vengono quindi valutate sui dati disponibili, principalmente serie temporali aggregate. Tuttavia, i modelli econometrici possono essere utilizzati per molte applicazioni diverse da quelle macroeconomiche. Quindi econometria significa misurazione economica.

L'applicazione di metodi statistici all'econometria rilevante dei dati mostra la relazione tra variabili economiche. Un semplice esempio di modello econometrico. Si presume che la spesa mensile dei consumatori sia linearmente correlata al reddito dei consumatori nel mese precedente. Quindi il modello sarà costituito dall'equazione

Il compito di un econometrico è ottenere stime dei parametri aeb. Queste stime dei parametri, se utilizzate nell'equazione del modello, prevedono valori di consumo futuri che dipenderanno dal reddito del mese precedente. Ci sono alcune cose da tenere a mente quando si sviluppano questi tipi di modelli:

  • la natura del processo probabilistico che genera i dati;
  • livello di conoscenza al riguardo;
  • dimensione del sistema;
  • forma di analisi;
  • orizzonte di previsione;
  • complessità matematica del sistema.

Tutte queste ipotesi sono importanti perché influenzano le fonti di errore risultanti dal modello. Inoltre, per risolvere questi problemi, è necessario determinare il metodo di previsione. Può essere ridotto a un modello lineare anche se c'è solo un piccolo campione. Questo tipo è uno dei più comuni per i quali è possibile creare un'analisi predittiva.

Statistiche non parametriche

L'analisi delle componenti principali per i dati non parametrici si riferisce a metodi di misurazione in cui i dati vengono estratti da una distribuzione specifica. I metodi statistici non parametrici sono ampiamente utilizzati in vari tipi di ricerca. In pratica, quando l'ipotesi di normalità non è soddisfatta, i metodi statistici parametrici possono portare a risultati fuorvianti. Al contrario, i metodi non parametrici fanno ipotesi molto meno stringenti sulla distribuzione tra le dimensioni.

Sono validi indipendentemente dalle distribuzioni sottostanti delle osservazioni. A causa di questo vantaggio interessante, sono stati sviluppati molti diversi tipi di test non parametrici per analizzare diversi tipi di progetti sperimentali. Tali progetti riguardano la progettazione di campioni singoli, la progettazione di campioni doppi, la progettazione di blocchi randomizzati. Attualmente, per semplificare l'analisi dell'affidabilità dei sistemi ferroviari viene utilizzato un approccio bayesiano non parametrico che utilizza il metodo delle componenti principali.

Un sistema ferroviario è un tipico sistema complesso su larga scala con sottosistemi interconnessi che contengono numerosi componenti. L'affidabilità del sistema viene mantenuta attraverso adeguate misure di manutenzione e una gestione delle risorse economicamente vantaggiosa richiede un'accurata valutazione dell'affidabilità al livello più basso. Tuttavia, i dati di affidabilità reale a livello di componenti del sistema ferroviario non sono sempre disponibili nella pratica, per non parlare del completamento. La distribuzione dei cicli di vita dei componenti da parte dei produttori è spesso oscurata e complicata dall'utilizzo effettivo e dagli ambienti di lavoro. Pertanto, l'analisi dell'affidabilità richiede una metodologia adeguata per stimare la durata di un componente in assenza di dati di guasto.

L'analisi delle componenti principali nelle scienze sociali viene utilizzata per svolgere due compiti principali:

  • analisi secondo dati di ricerca sociologica;
  • costruire modelli di fenomeni sociali.

Algoritmi per il calcolo dei modelli

Gli algoritmi di analisi dei componenti principali danno un'idea diversa della struttura del modello e della sua interpretazione. Rappresentano il modo in cui la PCA viene utilizzata in tutte le discipline. L'algoritmo NIPALS iterativo non lineare dei minimi quadrati è un metodo sequenziale per il calcolo dei componenti. Il calcolo può essere interrotto anticipatamente quando l'utente ritiene che ce ne siano a sufficienza. La maggior parte dei pacchetti per computer tende a utilizzare l'algoritmo NIPALS poiché presenta due vantaggi principali:

  • gestisce i dati mancanti;
  • calcola in sequenza i componenti.

Lo scopo di considerare questo algoritmo:

  • fornisce ulteriori informazioni sul significato di carichi e stime;
  • mostra come ogni componente non dipenda ortogonalmente da altri componenti;
  • mostra come l'algoritmo può gestire i dati mancanti.

L'algoritmo estrae ogni componente in sequenza, partendo dalla prima direzione di massima varianza e poi dalla seconda, e così via NIPALS calcola un componente alla volta. Il primo calcolato è equivalente a t1t1 e i vettori p1p1 che sarebbero trovati da una scomposizione di autovalori o valori singolari possono gestire i dati mancanti in XX. Converge sempre, ma a volte la convergenza può essere lenta. È anche noto come algoritmo di potenza per il calcolo di autovettori e autovalori e funziona alla grande per set di dati molto grandi. Google ha utilizzato questo algoritmo per le prime versioni del suo motore di ricerca.

L'algoritmo NIPALS è mostrato nella foto sotto.

Le stime dei coefficienti della matrice T sono quindi calcolate come T=XW e i coefficienti di regressione parziale dei quadrati B da Y a X sono calcolati come B=WQ. Un metodo di stima alternativo per parti di regressione dei minimi quadrati parziali può essere descritto come segue.

Il metodo del componente principale è uno strumento per determinare i principali assi di varianza in un set di dati e semplifica l'esplorazione delle variabili di dati chiave. Applicato correttamente, il metodo è uno dei più potenti nel toolbox di analisi dei dati.

In questo articolo, vorrei parlare di come funziona esattamente l'analisi delle componenti principali (PCA) dal punto di vista dell'intuizione che sta dietro al suo apparato matematico. Il più semplice possibile, ma dettagliato.

La matematica in generale è una scienza molto bella ed elegante, ma a volte la sua bellezza è nascosta dietro un mucchio di strati di astrazione. È meglio mostrare questa bellezza con esempi semplici, che, per così dire, possono essere distorti, giocati e toccati, perché alla fine tutto risulta essere molto più semplice di quanto sembri a prima vista: la cosa più importante è capire e immagina.

Nell'analisi dei dati, come in qualsiasi altra analisi, a volte è utile creare un modello semplificato che descriva lo stato reale delle cose nel modo più accurato possibile. Accade spesso che i segni siano abbastanza dipendenti l'uno dall'altro e la loro presenza simultanea sia ridondante.

Ad esempio, il nostro consumo di carburante è misurato in litri per 100 km e negli Stati Uniti in miglia per gallone. A prima vista, le quantità sono diverse, ma in realtà sono strettamente dipendenti l'una dall'altra. Ci sono 1600 km in un miglio e 3,8 litri in un gallone. Un segno dipende strettamente dall'altro, conoscendone uno, conosciamo l'altro.

Ma molto più spesso accade che i segni non dipendano l'uno dall'altro in modo così rigoroso e (importante!) non così chiaramente. La cilindrata in generale ha un effetto positivo sull'accelerazione fino a 100 km/h, ma questo non è sempre vero. E può anche risultare che, tenendo conto di fattori non visibili a prima vista (come il miglioramento della qualità del carburante, l'uso di materiali più leggeri e altre conquiste moderne), l'anno dell'auto non è molto, ma influisce anche la sua accelerazione.

Conoscendo le dipendenze e la loro forza, possiamo esprimere diversi segni attraverso uno, unirli insieme, per così dire, e lavorare con un modello più semplice. Certo, molto probabilmente non sarà possibile evitare la perdita di informazioni, ma è il metodo PCA che ci aiuterà a minimizzarla.

Più in senso stretto, questo metodo approssima una nuvola n-dimensionale di osservazioni a un ellissoide (anch'esso n-dimensionale), i cui semiassi saranno i futuri componenti principali. E quando si proietta su tali assi (riduzione della dimensione), viene preservata la maggior quantità di informazioni.

Passaggio 1. Preparazione dei dati

Qui, per semplicità dell'esempio, non prenderò set di dati di addestramento reali per dozzine di funzionalità e centinaia di osservazioni, ma farò il mio esempio di giocattolo, il più semplice possibile. 2 segni e 10 osservazioni saranno sufficienti per descrivere cosa e, soprattutto, perché, accade nelle viscere dell'algoritmo.

Generiamo un campione:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) print X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.]

In questo esempio, abbiamo due caratteristiche che sono fortemente correlate tra loro. Utilizzando l'algoritmo PCA, possiamo facilmente trovare una funzionalità combinata e, a costo di alcune informazioni, esprimere entrambe queste funzionalità con una nuova. Allora, scopriamolo!

Cominciamo con alcune statistiche. Ricordiamo che i momenti sono usati per descrivere una variabile casuale. Abbiamo bisogno di - mat. aspettativa e varianza. Possiamo dire che mat. l'aspettativa è il "centro di gravità" della quantità e la varianza le sue "dimensioni". In parole povere, mat. l'aspettativa specifica la posizione della variabile casuale e la varianza ne specifica la dimensione.

Il processo di proiezione sul vettore stesso non influisce in alcun modo sui valori medi, poiché per ridurre al minimo la perdita di informazioni, il nostro vettore deve passare per il centro del nostro campione. Pertanto, non c'è nulla di cui preoccuparsi se centramo il nostro campione: lo spostiamo linearmente in modo che i valori medi delle caratteristiche siano uguali a 0. Ciò semplificherà notevolmente i nostri ulteriori calcoli (anche se vale la pena notare che possiamo fare senza centraggio).
L'operatore, l'inverso dello spostamento sarà uguale al vettore delle medie originali: sarà necessario ripristinare il campione nella dimensione originale.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Vettore medio: ", m OUT: (array([ -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5]), Array ([ -8.44644233, -8.32845585, --4.93314426, -2.56723136, 1.01013247, 0.58413955555555555555555555555555555555555555555555555555555555555555555555555555555EL 4.21440647, 9.59501658 ])) Vettore medio: (5.5, 10.314393916)

La varianza dipende fortemente dagli ordini di grandezza della variabile casuale, cioè sensibile al ridimensionamento. Pertanto, se le unità di misura delle caratteristiche differiscono notevolmente nei loro ordini, si consiglia vivamente di standardizzarle. Nel nostro caso, i valori non differiscono molto negli ordini, quindi per semplicità dell'esempio, non eseguiremo questa operazione.

Passaggio 2. Matrice di covarianza

Nel caso di una variabile casuale multidimensionale (vettore casuale), la posizione del centro sarà comunque un tappetino. aspettative delle sue proiezioni sull'asse. Ma per descriverne la forma non basta più solo la sua dispersione lungo gli assi. Guarda questi grafici, tutte e tre le variabili casuali hanno la stessa aspettativa e varianza e le loro proiezioni sugli assi saranno generalmente le stesse!


Per descrivere la forma di un vettore casuale è necessaria una matrice di covarianza.

Questa è una matrice che (i,j)-element è una correlazione di caratteristiche (X i , X j). Ricorda la formula di covarianza:

Nel nostro caso è semplificato, poiché E(X i) = E(X j) = 0:

Si noti che quando X i = X j:

e questo è vero per qualsiasi variabile casuale.

Quindi, nella nostra matrice lungo la diagonale ci saranno delle varianze delle caratteristiche (perché i = j), e nelle restanti celle ci saranno le covarianze delle corrispondenti coppie di caratteristiche. E a causa della simmetria della covarianza, anche la matrice sarà simmetrica.

Commento: La matrice di covarianza è una generalizzazione della varianza al caso di variabili casuali multidimensionali - descrive anche la forma (scatter) della variabile casuale, proprio come la varianza.

Infatti, la varianza di una variabile casuale unidimensionale è una matrice di covarianza 1x1, in cui il suo unico termine è dato dalla formula Cov(X,X) = Var(X).

Quindi, formiamo la matrice di covarianza Σ per il nostro campione Per fare ciò, calcoliamo le varianze di X i e X j , nonché la loro covarianza. Puoi usare la formula sopra, ma dato che siamo armati di Python, è un peccato non usare la funzione numpy.cov(X). Prende come input un elenco di tutte le caratteristiche di una variabile casuale e restituisce la sua matrice di covarianza e dove X è un vettore casuale n-dimensionale (n-numero di righe). La funzione è ottima per calcolare la varianza imparziale, per la covarianza di due quantità e per compilare la matrice di covarianza.
(Ricorda che in Python, una matrice è rappresentata da una colonna-array di righe-array.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Varianza di X: ", np.cov(Xcentered) print "Varianza di Y: ", np.cov(Xcentered) print "Covarianza X e Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]]

Passaggio 3. Autocoppie e Autocoppie

Ok, abbiamo una matrice che descrive la forma della nostra variabile casuale, da cui possiamo ricavare le sue dimensioni in xey (cioè X 1 e X 2), così come una forma approssimativa sul piano. Ora dobbiamo trovare un tale vettore (nel nostro caso, solo uno), che massimizzerebbe la dimensione (varianza) della proiezione del nostro campione su di esso.

Commento: La generalizzazione della varianza a dimensioni superiori è la matrice di covarianza ei due concetti sono equivalenti. Quando viene proiettato su un vettore, la varianza di proiezione viene massimizzata e, quando viene proiettato su spazi di ordine superiore, viene massimizzata l'intera matrice di covarianza.

Quindi, prendiamo un vettore unitario su cui proietteremo il nostro vettore casuale X. Quindi la proiezione su di esso sarà uguale a v T X. La varianza della proiezione sul vettore sarà rispettivamente uguale a Var(v T X). In termini generali, in forma vettoriale (per quantità centrate), la varianza è espressa come segue:

Di conseguenza, la varianza di proiezione è:

È facile vedere che la varianza è massimizzata al valore massimo di v T Σv. La relazione di Rayleigh ci aiuterà qui. Senza entrare troppo nella matematica, dirò solo che la relazione di Rayleigh ha un caso speciale per le matrici di covarianza:

L'ultima formula dovrebbe essere familiare dall'argomento della scomposizione di una matrice in autovettori e valori. x è un autovettore e λ è un autovalore. Il numero di autovettori e valori è uguale alla dimensione della matrice (e i valori possono essere ripetuti).

A proposito, in inglese si chiamano autovalori e vettori autovalori e autovettori rispettivamente.
Penso che suoni molto più bello (e conciso) dei nostri termini.

Pertanto, la direzione della massima dispersione della proiezione coincide sempre con l'autovettore avente l'autovalore massimo uguale al valore di questa dispersione.

E questo vale anche per le proiezioni su più dimensioni: la varianza (matrice di covarianza) della proiezione su uno spazio m-dimensionale sarà massima nella direzione degli m autovettori che hanno autovalori massimi.

La dimensione del nostro campione è pari a due e il numero di autovettori in esso, rispettivamente, è 2. Troviamoli.

La libreria numpy implementa la funzione numpy.linalg.eig(X), dove X è una matrice quadrata. Restituisce 2 array: un array di autovalori e un array di autovettori (vettori di colonna). E i vettori sono normalizzati: la loro lunghezza è uguale a 1. Proprio quello che ti serve. Questi 2 vettori definiscono una nuova base per il campione, tale che i suoi assi coincidano con i semiassi dell'ellisse di approssimazione del nostro campione.



In questo grafico, abbiamo approssimato il nostro campione con un'ellisse con raggi di 2 sigma (cioè, dovrebbe contenere il 95% di tutte le osservazioni - che, in linea di principio, è ciò che osserviamo qui). Ho invertito il vettore più grande (la funzione eig(X) lo ha invertito) - ci preoccupiamo della direzione, non dell'orientamento del vettore.

Fase 4 Riduzione dimensionale (proiezione)

Il vettore più grande ha una direzione simile alla retta di regressione e, proiettandoci sopra il nostro campione, perderemo informazioni paragonabili alla somma dei termini residui della regressione (solo la distanza è ora euclidea e non delta in Y). Nel nostro caso, la dipendenza tra le caratteristiche è molto forte, quindi la perdita di informazioni sarà minima. Il "prezzo" della proiezione - la varianza sull'autovettore più piccolo - come si può vedere dal grafico precedente, è molto piccolo.

Commento: gli elementi diagonali della matrice di covarianza mostrano le varianze rispetto alla base originale e i suoi autovalori – rispetto al nuovo (componenti principali).

Spesso è necessario stimare la quantità di informazioni perse (e salvate). È meglio esprimerlo in percentuale. Prendiamo le varianze lungo ciascuno degli assi e le dividiamo per la somma totale delle varianze lungo gli assi (ovvero la somma di tutti gli autovalori della matrice di covarianza).
Pertanto, il nostro vettore più grande descrive 45,994 / 46,431 * 100% = 99,06% e quello più piccolo, rispettivamente, circa 0,94%. Scartando un vettore più piccolo e proiettando i dati su uno più grande, perdiamo meno dell'1% delle informazioni! Ottimo risultato!

Commento: In pratica, nella maggior parte dei casi, se la perdita totale di informazioni non supera il 10-20%, allora puoi tranquillamente ridurre la dimensione.

Per effettuare la proiezione, come accennato in precedenza al punto 3, è necessario eseguire l'operazione v T X (il vettore deve essere di lunghezza 1). Oppure, se non abbiamo un vettore, ma un iperpiano, al posto del vettore v T prendiamo la matrice dei vettori di base V T . Il vettore (o matrice) risultante sarà un array di proiezioni delle nostre osservazioni.

V = (-vecs, -vecs) Xnew = punto(v,Xcentered)

punto(X,Y)- prodotto termine per termine (è così che moltiplichiamo vettori e matrici in Python)

È facile vedere che i valori di proiezione corrispondono all'immagine nel grafico precedente.

Passaggio 5. Recupero dei dati

È conveniente lavorare con la proiezione, costruire ipotesi sulla sua base e sviluppare modelli. Ma non sempre le componenti principali ottenute avranno un significato chiaro, comprensibile per un estraneo. A volte è utile decodificare, ad esempio, i valori anomali rilevati per vedere quanto valgono le loro osservazioni.

È molto semplice. Abbiamo tutte le informazioni necessarie, ovvero le coordinate dei vettori di base nella base originale (vettori su cui abbiamo proiettato) e il vettore delle medie (per lo scentramento). Prendi, ad esempio, il valore più grande: 10.596 ... e decodificalo. Per fare ciò, moltiplichiamolo a destra per il vettore trasposto e aggiungiamo il vettore delle medie, o in forma generale per l'intero campione: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Original: ", X[:,9] OUT: Restored: [ 10.13864361 19.84190935] Original: [ 10. 19.9094105]

La differenza è piccola, ma esiste. Dopotutto, le informazioni perse non possono essere recuperate. Tuttavia, se la semplicità è più importante dell'accuratezza, il valore recuperato si avvicina bene al valore originale.

Invece di una conclusione, controlla l'algoritmo

Quindi, abbiamo analizzato l'algoritmo, mostrato come funziona su un esempio di giocattolo, ora resta solo da confrontarlo con il PCA implementato in sklearn - dopotutto, lo useremo.

Da sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Parametro n_componenti indica il numero di dimensioni a cui verrà effettuata la proiezione, ovvero a quante dimensioni vogliamo ridurre il nostro set di dati. In altre parole, questi sono n autovettori con gli autovettori più grandi. Verifichiamo il risultato della riduzione dimensionale:

Print "Our reduced X: n", Xnew print "Sklearn reduced X: n", XPCAreduced OUT: Our reduced X: [ -9.56404106 -9.02021625 -5.52974822 -2.96481262 0.68933859 0.74406645 2.33433492 7.39307974 5.3212742 10.59672425] Sklearn reduced X: [[ -9.56404106 ] [ -9.02021625] [ -5.52974822] [ -2.96481262] [ 0.68933859] [ 0.74406645] [ 2.33433492] [ 7.39307974] [ 5.3212742 ] [ 10.59672425]]

Abbiamo restituito il risultato come una matrice di vettori colonna di osservazioni (questo è più canonico dal punto di vista dell'algebra lineare), mentre PCA in sklearn restituisce un array verticale.

In linea di principio, questo non è critico, vale solo la pena notare che nell'algebra lineare è canonico scrivere matrici tramite vettori di colonna e nell'analisi dei dati (e in altre aree relative al database) le osservazioni (transazioni, record) sono solitamente scritte in righe.

Verifichiamo altri parametri del modello: la funzione ha una serie di attributi che consentono di accedere a variabili intermedie:

vettore medio: significare_
- Vettore di proiezione (matrice): componenti_
- Dispersione degli assi di proiezione (selettivi): spiegata_varianza_
- Quota di informazioni (quota di varianza totale): rapporto_varianza_spiegato_

Commento: Spiegazione_varianza_ mostra selettivo varianza, mentre la funzione cov() per costruire la matrice di covarianza calcola imparziale dispersione!

Confrontiamo i valori da noi ottenuti con i valori della funzione libreria.

Print "Vettore medio: ", pca.mean_, m print "Proiezione: ", pca.components_, v print "Rapporto di varianza spiegato: ", pca.explained_variance_ratio_, l/sum(l) OUT: vettore medio: [ 5.5 10.31439392] (5.5, 10.314393916) Proiezione: [[[0.43774316 0.89910006]]] (0.43774316434772387, 0.89910006232167594) ha spiegato varianza: [41.39455058] 45.993918 ESPLEGAZIONE RAPARAZIONE: [0,990)

L'unica differenza è nelle varianze, ma come accennato, abbiamo utilizzato la funzione cov(), che utilizza la varianza imparziale, mentre l'attributo spiegato_varianza_ restituisce la varianza campionata. Differiscono solo per il fatto che il primo divide per (n-1) per ottenere l'aspettativa, e il secondo divide per n. È facile verificare che 45,99 ∙ (10 - 1) / 10 = 41,39.

Tutti gli altri valori sono gli stessi, il che significa che i nostri algoritmi sono equivalenti. E infine, noto che gli attributi dell'algoritmo della libreria hanno una precisione minore, poiché probabilmente è ottimizzato per la velocità, o semplicemente arrotonda i valori per comodità (o ho qualche difetto).

Commento: il metodo della libreria proietta automaticamente sugli assi che massimizzano la varianza. Questo non è sempre razionale. Ad esempio, in questa figura, una riduzione dimensionale imprecisa porterà al fatto che la classificazione diventerà impossibile. Tuttavia, la proiezione su un vettore più piccolo ridurrà con successo la dimensionalità e conserverà il classificatore.

Quindi, abbiamo considerato i principi dell'algoritmo PCA e la sua implementazione in sklearn. Spero che questo articolo sia stato abbastanza chiaro per coloro che stanno appena iniziando a familiarizzare con l'analisi dei dati e anche almeno un po' informativo per coloro che conoscono bene questo algoritmo. La presentazione intuitiva è estremamente utile per capire come funziona il metodo e la comprensione è molto importante per impostare correttamente il modello scelto. Grazie per l'attenzione!

PS: Si prega di non rimproverare l'autore per eventuali imprecisioni. L'autore stesso è in procinto di familiarizzare con l'analisi dei dati e vuole aiutare quelli come lui nel processo di padronanza di questo straordinario campo di conoscenza! Ma sono ben accette critiche costruttive ed esperienze variegate!

Metodo del componente principale(PCA - Analisi dei componenti principali) è uno dei modi principali per ridurre la dimensione dei dati con la minima perdita di informazioni. Inventato nel 1901 da Karl Pearson, è ampiamente utilizzato in molti settori. Ad esempio, per la compressione dei dati, la "visione artificiale", il riconoscimento di modelli visibili, ecc. Il calcolo delle componenti principali si riduce al calcolo degli autovettori e degli autovalori della matrice di covarianza dei dati originari. Il metodo del componente principale viene spesso chiamato Trasformazione Karhunen-Löwe(trasformata di Karhunen-Loeve) o Trasformazione alberghiera(Trasformata alberghiera). Anche i matematici Kosambi (1943), Pugachev (1953) e Obukhova (1954) hanno lavorato su questo problema.

Il problema dell'analisi delle componenti principali mira ad approssimare (approssimare) i dati mediante varietà lineari di dimensione inferiore; trovare sottospazi di dimensione inferiore, nella proiezione ortogonale su cui la diffusione dei dati (cioè la deviazione standard dal valore medio) è massima; trovare sottospazi di dimensione inferiore, nella proiezione ortogonale su cui la distanza tra i punti radice-quadrato medio è massima. In questo caso, si opera con insiemi finiti di dati. Sono equivalenti e non utilizzano alcuna ipotesi sulla generazione di dati statistici.

Inoltre, il compito dell'analisi delle componenti principali può essere l'obiettivo di costruire per una data variabile casuale multidimensionale una tale trasformazione ortogonale di coordinate che, di conseguenza, le correlazioni tra le singole coordinate svaniscano. Questa versione funziona con variabili casuali.

Fig.3

La figura sopra mostra i punti P i sul piano, p i è la distanza da P i alla linea AB. Alla ricerca di una retta AB minimizzando la somma

Il metodo delle componenti principali è iniziato con il problema della migliore approssimazione (approssimazione) di un insieme finito di punti mediante rette e piani. Ad esempio, dato un insieme finito di vettori. Per ogni k = 0,1,...,n ? 1 tra tutte le varietà lineari k-dimensionali trovate tale che la somma delle deviazioni al quadrato di x i da L k sia minima:

dove? Distanza euclidea da un punto a una varietà lineare.

Qualsiasi varietà lineare k-dimensionale può essere definita come un insieme di combinazioni lineari, in cui i parametri in i attraversano la linea reale, eh? insieme ortonormale di vettori

dov'è la norma euclidea, ? Prodotto punto euclideo, o in forma coordinata:

Soluzione del problema di approssimazione per k = 0,1,...,n ? 1 è dato da un insieme di varietà lineari annidate

Queste varietà lineari sono definite da un insieme ortonormale di vettori (vettori componenti principali) e un vettore a 0 . Il vettore a 0 è ricercato come soluzione al problema di minimizzazione per L 0:

Il risultato è una media campionaria:

Il matematico francese Maurice Frechet Frechet Maurice René (02/09/1878 - 04/06/1973) è un matematico francese eccezionale. Ha lavorato nel campo della topologia e dell'analisi funzionale, teoria della probabilità. Autore di moderni concetti di spazio metrico, compattezza e completezza. Aut. nel 1948 notò che la definizione variazionale della media come punto che minimizza la somma delle distanze al quadrato dai punti dati è molto conveniente per costruire statistiche in uno spazio metrico arbitrario e costruì una generalizzazione della statistica classica per spazi generali, chiamata metodo generalizzato dei minimi quadrati.

I vettori dei componenti principali possono essere trovati come soluzioni a problemi di ottimizzazione simili:

1) centralizzare i dati (sottrarre la media):

2) trovare la prima componente principale come soluzione al problema;

3) Sottrarre dai dati la proiezione sulla prima componente principale:

4) trovare il secondo componente principale come soluzione al problema

Se la soluzione non è univoca, scegline una.

2k-1) Sottrarre la proiezione sulla (k ? 1)-esima componente principale (ricordare che le proiezioni sulle precedenti (k ? 2) componenti principali sono già state sottratte):

2k) trovare la k-esima componente principale come soluzione al problema:

Se la soluzione non è univoca, scegline una.

Riso. quattro

La prima componente principale massimizza la varianza campionaria della proiezione dei dati.

Ad esempio, supponiamo di avere un insieme centrato di vettori di dati in cui la media aritmetica di x i è zero. Un compito? trovare una tale trasformazione ortogonale in un nuovo sistema di coordinate per il quale sarebbero vere le seguenti condizioni:

1. La varianza campionaria dei dati lungo la prima coordinata (componente principale) è massima;

2. La varianza campionaria dei dati lungo la seconda coordinata (seconda componente principale) è massima nella condizione di ortogonalità alla prima coordinata;

3. La dispersione campionaria dei dati lungo i valori della k-esima coordinata è massima nella condizione di ortogonalità al primo k ? 1 coordinate;

La varianza campionaria dei dati lungo la direzione data dal vettore normalizzato a k è

(poiché i dati sono centrati, la varianza campionaria qui è la stessa della deviazione quadratica media da zero).

Risolvere il problema del miglior adattamento produce lo stesso insieme di componenti principali della ricerca di proiezioni ortogonali con la maggiore dispersione, per un motivo molto semplice:

e il primo termine non dipende da a k .

La matrice di conversione dei dati in componenti principali è costruita dai vettori "A" delle componenti principali:

Qui a i sono vettori colonna ortonormali delle componenti principali disposte in ordine decrescente di autovalori, l'apice T significa trasposizione. La matrice A è ortogonale: AA T = 1.

Dopo la trasformazione, la maggior parte della variazione dei dati sarà concentrata nelle prime coordinate, il che rende possibile scartare quelle rimanenti e considerare uno spazio dimensionale ridotto.

Il più antico metodo di selezione dei componenti principali è La regola del Kaiser, Kaiser Johann Henrich Gustav (Kaiser Johann Henrich Gustav, 16/03/1853, Brezno, Prussia - 14/10/1940, Germania) - un eccezionale matematico, fisico, ricercatore tedesco nel campo dell'analisi spettrale. Aut. secondo cui quelle componenti principali sono significative per le quali

cioè, l i supera il valore medio di l (la varianza media campionaria delle coordinate del vettore di dati). La regola di Kaiser funziona bene nei casi semplici in cui ci sono diverse componenti principali con l i che sono molto più grandi della media e il resto degli autovalori è inferiore a essa. In casi più complessi, può fornire troppe componenti principali significative. Se i dati sono normalizzati alla varianza unitaria del campione lungo gli assi, allora la regola di Kaiser assume una forma particolarmente semplice: sono significative solo le componenti principali per le quali l i > 1.

Uno degli approcci euristici più popolari per stimare il numero di componenti principali necessari è regola di canna rotta, quando l'insieme degli autovalori normalizzato alla somma unitaria (, i = 1,...n) viene confrontato con la distribuzione delle lunghezze dei frammenti di una canna di lunghezza unitaria spezzata in n ? 1° punto scelto casualmente (i punti di rottura sono scelti indipendentemente e sono equamente distribuiti lungo la lunghezza della canna). Se L i (i = 1,...n) sono le lunghezze dei pezzi di canna ottenuti, numerate in ordine decrescente di lunghezza: , allora l'aspettativa di L i:

Consideriamo un esempio che consiste nello stimare il numero dei componenti principali secondo la regola del bastone spezzato nella dimensione 5.

Riso. 5.

Per la regola della canna spezzata, il k-esimo autovettore (in ordine decrescente di autovalori l i) viene memorizzato nell'elenco delle componenti principali se

La figura sopra mostra un esempio per il caso a 5 dimensioni:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 \u003d (1/3 + 1/4 + 1/5) / 5;

l 4 \u003d (1/4 + 1/5) / 5; l 5 \u003d (1/5) / 5.

Ad esempio, selezionato

0.5; =0.3; =0.1; =0.06; =0.04.

Secondo la regola di un bastone rotto, in questo esempio, dovrebbero essere lasciati 2 componenti principali:

Va solo tenuto presente che la regola della canna spezzata tende a sottovalutare il numero delle componenti principali significative.

Dopo aver proiettato sulle prime k componenti principali c, è conveniente normalizzare alla varianza unitaria (campione) lungo gli assi. La dispersione lungo l'i-esima componente principale è uguale), quindi per la normalizzazione è necessario dividere la coordinata corrispondente per. Questa trasformazione non è ortogonale e non preserva il prodotto scalare. Dopo la normalizzazione, la matrice di covarianza della proiezione dei dati diventa unità, le proiezioni su due direzioni ortogonali qualsiasi diventano valori indipendenti e qualsiasi base ortonormale diventa la base delle componenti principali (ricordiamo che la normalizzazione cambia la relazione di ortogonalità del vettore). La mappatura dallo spazio dati iniziale alle prime k componenti principali insieme alla normalizzazione è data dalla matrice

È questa trasformazione che viene spesso chiamata trasformazione di Karhunen-Loeve, cioè il metodo stesso delle componenti principali. Qui a i sono vettori colonna e l'apice T significa trasporre.

In statistica, quando si utilizza il metodo delle componenti principali, vengono utilizzati diversi termini speciali.

Matrice di dati, dove ogni riga è un vettore di dati preelaborati (centrato e opportunamente normalizzato), il numero di righe è m (il numero di vettori di dati), il numero di colonne è n (la dimensione dello spazio dati);

Matrice di carico(Caricamenti), dove ogni colonna è un vettore componente principale, il numero di righe è n (dimensione dello spazio dati), il numero di colonne è k (il numero di vettori componenti principali selezionati per la proiezione);

Matrice di fatturazione(Punteggi)

dove ogni riga è la proiezione del vettore di dati su k componenti principali; numero di righe - m (numero di vettori di dati), numero di colonne - k (numero di vettori componenti principali selezionati per la proiezione);

Matrice del punteggio Z(Punteggi Z)

dove ogni riga è la proiezione del vettore di dati sulle k componenti principali, normalizzata alla varianza unitaria del campione; numero di righe - m (numero di vettori di dati), numero di colonne - k (numero di vettori componenti principali selezionati per la proiezione);

Matrice di errore (avanzi) (Errori o residui)

Formula base:

Pertanto, il metodo delle componenti principali è uno dei metodi principali della statistica matematica. Il suo scopo principale è distinguere tra la necessità di studiare gli array di dati con un minimo del loro utilizzo.

Condividere