Značenje svojstvenih vrijednosti u metodi glavne komponente. Koncept glavnih komponenti

Glavne komponente

5.1 Metode višestruke regresije i kanonske korelacije uključuju cijepanje postojećeg skupa karakteristika na dva dijela. Međutim, takva podjela možda nije uvijek objektivno utemeljena, te stoga postoji potreba za takvim pristupima analizi odnosa indikatora koji bi uključivali sagledavanje vektora obilježja u cjelini. Naravno, prilikom implementacije ovakvih pristupa može se uočiti određena heterogenost u ovoj bateriji karakteristika, kada se objektivno identifikuje nekoliko grupa varijabli. Za karakteristike iz jedne takve grupe unakrsne korelacije biće mnogo veći u poređenju sa kombinacijama indikatora iz različitih grupa. Međutim, ovo grupisanje će se zasnivati na rezultatima objektivne analize podataka, a ne na apriorno proizvoljnim razmatranjima istraživača.

5.2 Prilikom proučavanja korelacija unutar nekih single set m karakteristike

X"= X 1 X 2 X 3 ... X m

možete koristiti istu metodu koja je korišćena u analizi višestruke regresije i metodu kanonskih korelacija - dobijanje novih varijabli, čije varijacije u potpunosti odražavaju postojanje multivarijantnih korelacija.

Svrha razmatranja unutargrupnih odnosa jednog skupa karakteristika je da se identifikuju i vizualizuju objektivno postojeći glavni pravci korelativne varijacije ovih varijabli. Stoga, u ove svrhe, možete uvesti neke nove varijable Y i , pronađene kao linearne kombinacije originalnog skupa karakteristika X

Y 1 = b 1"X= b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Y 2 = b 2"X= b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

Y 3 = b 3"X= b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Y m = b m "X= b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

i ima niz poželjnih svojstava. Neka je, radi određenosti, broj novih karakteristika jednak broju originalnih indikatora (m).

Jedno od takvih poželjnih optimalnih svojstava može biti međusobna nekorelacija novih varijabli, odnosno dijagonalni oblik njihovih kovarijansna matrica

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

Sy= 0 0 s y3 2 ... 0 , (5.2)

... ... ... ... ...

0 0 0 … s ym 2

gdje je s yi 2 varijansa i-te nove karakteristike Y i . Nekoreliranost novih varijabli, pored svoje očigledne pogodnosti, ima važno svojstvo - svaka nova karakteristika Y i će uzeti u obzir samo svoj nezavisni dio informacija o varijabilnosti i korelaciji izvornih indikatora X.

Drugo neophodno svojstvo novih znakova je uredno obračunavanje varijacija početnih indikatora. Dakle, neka prva nova varijabla Y 1 uzme u obzir maksimalan udio ukupne varijacije karakteristika X. Ovo je, kao što ćemo kasnije vidjeti, ekvivalentno zahtjevu da Y 1 ima maksimalnu moguću varijansu s y1 2 . Uzimajući u obzir jednakost (1.17), ovaj uslov se može zapisati kao

s y1 2 = b 1 "Sb 1= max , (5.3)

gdje S- kovarijansna matrica početnih karakteristika X, b 1- vektor koji uključuje koeficijente b 11 , b 12 , b 13 , ..., b 1m sa kojima se po vrijednostima X 1 , X 2 , X 3 , ..., X m može dobiti vrijednost Y 1 .

Neka druga nova varijabla Y 2 opisuje maksimalni dio te komponente ukupne varijacije koja je ostala nakon uzimanja u obzir njenog najvećeg udjela u varijabilnosti prve nove karakteristike Y 1 . Da bi se to postiglo, potrebno je ispuniti uslov

s y2 2 = b 2 "Sb 2= max , (5.4)

na nultom spoju Y 1 sa Y 2 , (tj. r y1y2 = 0) i na s y1 2 > s y2 2 .

Slično, treća nova karakteristika Y 3 bi trebala opisati treći najvažniji dio varijacije originalnih karakteristika, za koju bi njegova varijacija također trebala biti maksimalna

s y3 2 = b 3 "Sb 3= max , (5.5)

pod uslovom da Y 3 nije u korelaciji sa prva dva nova svojstva Y 1 i Y 2 (tj. r y1y3 = 0, r y2y3 = 0) i s y1 2 > s y2 > s y3 2 .

Dakle, varijanse svih novih varijabli karakteriziraju redoslijed po veličini

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Vektori iz formule (5.1) b 1 , b 2 , b 3 , ..., b m , uz pomoć kojih treba izvršiti prijelaz na nove varijable Y i, može se zapisati u obliku matrice

B = b 1 b 2 b 3 ... b m . (5.7)

Prelazak sa skupa početnih karakteristika X na skup novih varijabli Y može se predstaviti kao matrična formula

Y = B" X , (5.8)

a dobijanje matrice kovarijanse novih karakteristika i postizanje uslova (5.2) nekoreliranih novih varijabli u skladu sa formulom (1.19) može se predstaviti kao

B"SB= Sy , (5.9)

gdje je matrica kovarijanse novih varijabli Sy zbog njihove nekorelacije ima dijagonalni oblik. Iz teorije matrica (odjeljak A.25 Dodatak A) poznato je da, dobivši za neku simetričnu matricu A sopstveni vektori u i i brojevi l i i

pozivanje matrica iz njih U I L, moguće je, u skladu sa formulom (A.31), dobiti rezultat

U "AU= L ,

gdje L je dijagonalna matrica koja uključuje vlastite vrijednosti simetrične matrice A. Lako je vidjeti da se posljednja jednakost u potpunosti poklapa sa formulom (5.9). Stoga se može izvući sljedeći zaključak. Poželjna svojstva novih varijabli Y može se osigurati ako vektori b 1 , b 2 , b 3 , ..., b m , uz pomoć kojih treba izvršiti prijelaz na ove varijable, bit će svojstveni vektori matrice kovarijanse početnih karakteristika S. Tada će disperzije novih karakteristika s yi 2 biti vlastite vrijednosti

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Nove varijable, na koje se prijelaz prema formulama (5.1) i (5.8) vrši korištenjem vlastitih vektora matrice kovarijanse originalnih karakteristika, nazivaju se glavne komponente. Zbog činjenice da je broj svojstvenih vektora matrice kovarijanse općenito jednak m - broju početnih karakteristika za ovu matricu, broj glavnih komponenti je također jednak m.

U skladu s teorijom matrica, da bi se pronašle vlastite vrijednosti i vektori matrice kovarijanse, treba riješiti jednačinu

(S-l i I)b i = 0 . (5.11)

Ova jednadžba ima rješenje ako je zadovoljen uslov da je determinanta jednaka nuli

½ S-l i I½ = 0. (5.12)

Ovaj uslov u suštini takođe se ispostavlja kao jednačina čiji su koreni sve sopstvene vrednosti l 1 , l 2 , l 3 , ..., lm matrice kovarijanse koje se istovremeno poklapaju sa varijacijama glavnih komponenti. Nakon dobijanja ovih brojeva, za svaki i-ti od njih, prema jednačini (5.11), možete dobiti odgovarajući svojstveni vektor b i . U praksi se koriste posebne iterativne procedure za izračunavanje svojstvenih vrijednosti i vektora (Dodatak B).

Svi sopstveni vektori se mogu zapisati kao matrica B, što će biti ortonormalna matrica, tako da (odjeljak A.24 Dodatak A) za njega se izvodi

B"B = bb" = I . (5.13)

Ovo posljednje znači da za bilo koji par vlastitih vektora, b i "b j= 0, a za svaki takav vektor jednakost b i "b i = 1.

5.4 Ilustrujmo izvođenje glavnih komponenti za najjednostavniji slučaj dvije početne karakteristike X 1 i X 2 . Matrica kovarijanse za ovaj skup je

gdje su s 1 i s 2 standardne devijacije karakteristika X 1 i X 2, a r je koeficijent korelacije između njih. Tada se uslov (5.12) može zapisati kao

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Slika 5.1.Geometrijsko značenje glavnih komponenti

Proširujući determinantu, možemo dobiti jednačinu

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0,

rješavajući koje, možete dobiti dva korijena l 1 i l 2 . Jednačina (5.11) se može napisati i kao

s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Zamjenom l 1 u ovu jednačinu dobijamo linearni sistem

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0,

čije su rješenje elementi prvog svojstvenog vektora b 11 i b 12 . Nakon slične zamjene drugog korijena l 2 nalazimo elemente drugog svojstvenog vektora b 21 i b 22 .

5.5 Saznajmo geometrijsko značenje glavne komponente. Ovo se može uraditi vizuelno samo za najjednostavniji slučaj dve karakteristike X 1 i X 2 . Neka ih karakteriše dvodimenzionalno normalna distribucija sa pozitivnom vrijednošću koeficijenta korelacije. Ako se sva pojedinačna zapažanja primjenjuju na ravninu koju čine osi karakteristika, tada će se tačke koje im odgovaraju nalaziti unutar određene korelacijske elipse (slika 5.1). Nove karakteristike Y 1 i Y 2 se također mogu prikazati na istoj ravni kao nove ose. Prema značenju metode, za prvu glavnu komponentu Y 1 , koja uzima u obzir najveću moguću ukupnu varijansu karakteristika X 1 i X 2 , treba postići maksimum njene varijanse. To znači da za Y 1 treba pronaći takav

osi tako da širina distribucije njegovih vrijednosti bude najveća. Očigledno, to će se postići ako se ova osa poklapa u pravcu sa najvećom osom korelacione elipse. Zaista, ako projektujemo sve tačke koje odgovaraju pojedinačnim opažanjima na ovu koordinatu, dobićemo normalnu distribuciju sa najvećim mogućim rasponom i najvećom disperzijom. Ovo će biti raspodjela pojedinačnih vrijednosti prve glavne komponente Y 1 .

Os koja odgovara drugoj glavnoj komponenti Y 2 mora biti povučena okomito na prvu osu, kao što to slijedi iz uvjeta nekoreliranih glavnih komponenti. Zaista, u ovom slučaju dobićemo novi koordinatni sistem sa osama Y 1 i Y 2 koje se poklapaju u pravcu sa osovinama korelacione elipse. Može se vidjeti da korelacija elipsa, kada se razmatra u novi sistem koordinate pokazuje nekorelirane pojedinačne vrijednosti Y 1 i Y 2 , dok je za vrijednosti originalnih karakteristika X 1 i X 2 uočena korelacija.

Prelazak sa osa povezanih sa originalnim karakteristikama X 1 i X 2 na novi koordinatni sistem orijentisan na glavne komponente Y 1 i Y 2 je ekvivalentan rotiranju starih osa za neki ugao j. Njegova vrijednost se može naći po formuli

Tg 2j = . (5.14)

Prijelaz sa vrijednosti karakteristika X 1 i X 2 na glavne komponente može se izvršiti u skladu s rezultatima analitičke geometrije u obliku

Y 1 \u003d X 1 cos j + X 2 sin j

Y 2 \u003d - X 1 sin j + X 2 cos j.

Isti rezultat se može zapisati u matričnom obliku

Y 1 \u003d cos j sin j X 1 i Y 2 \u003d -sin j cos j X 1,

što tačno odgovara transformaciji Y 1 = b 1"X i Y 2 = b 2"X. Drugim riječima,

= B" . (5.15)

Prema tome, matrica svojstvenog vektora također se može tretirati kao uključena trigonometrijske funkcije ugao rotacije koji treba izvesti da bi se pomaknuo od koordinatnog sistema povezanog s originalnim karakteristikama na nove ose zasnovane na glavnim komponentama.

Ako imamo m početnih karakteristika X 1 , X 2 , X 3 , ..., X m , tada će zapažanja koja čine uzorak koji se razmatra biti smještena unutar nekog m-dimenzionalnog korelacionog elipsoida. Tada će se osa prve glavne komponente poklapati u pravcu sa najvećom osom ovog elipsoida, osa druge glavne komponente će se poklapati sa drugom osom ovog elipsoida, itd. Prelazak sa originalnog koordinatnog sistema povezanog sa osama karakteristika X 1 , X 2 , X 3 , ..., X m na nove ose glavnih komponenti biće ekvivalentan implementaciji nekoliko rotacija starih osa pomoću uglovi j 1 , j 2 , j 3 , .. ., i matrica prijelaza B off set X na sistem glavnih komponenti Y, koji se sastoji od vlastitih kapaka-

tori kovarijansne matrice, uključuje trigonometrijske funkcije uglova novog koordinatne ose sa starim osovinama originalnih karakteristika.

5.6 U skladu sa svojstvima svojstvenih vrijednosti i vektora, tragovi kovarijansnih matrica početnih karakteristika i glavnih komponenti su jednaki. Drugim riječima

tr S= tr S y = tr L (5.16)

s 11 + s 22 + ... + s mm \u003d l 1 + l 2 + ... + l m,

one. zbroj svojstvenih vrijednosti matrice kovarijanse jednak je zbroju varijansi svih početnih karakteristika. Stoga se može govoriti o nekoj ukupnoj vrijednosti varijanse početnih karakteristika jednakoj tr S, i uzima se u obzir sistemom svojstvenih vrijednosti.

Činjenica da prva glavna komponenta ima maksimalnu varijansu jednaku l 1 automatski znači da ona također opisuje maksimalni udio ukupne varijacije originalnih karakteristika tr S. Slično, druga glavna komponenta ima drugu najveću varijansu l 2 , koja odgovara drugom najvećem obračunatom udjelu ukupne varijacije originalnih karakteristika, i tako dalje.

Za svaku glavnu komponentu moguće je odrediti udio ukupne vrijednosti varijabilnosti početnih karakteristika koje ona opisuje

5.7 Očigledno, ideja ukupne varijacije skupa početnih karakteristika X 1 , X 2 , X 3 , ..., X m , mjereno vrijednošću tr S, ima smisla samo kada se sve ove karakteristike mjere u istim jedinicama. U suprotnom ćete morati da dodate disperzije različitih karakteristika, od kojih će neke biti izražene u kvadratima milimetara, druge u kvadratima kilograma, treće u kvadratima radijana ili stepeni, itd. Ova poteškoća se može lako izbjeći ako se sa imenovanih vrijednosti karakteristika X ij prijeđe na njihove normalizirane vrijednosti z ij = (X ij - M i)./ S i gdje su M i i S i aritmetička sredina i standardna devijacija i-te karakteristike. Normalizovane karakteristike z imaju nultu sredinu, jedinične varijanse i nisu povezane ni sa jednom jedinicom mere. Kovarijansna matrica početnih karakteristika Sće se pretvoriti u matricu korelacije R.

Sve što je rečeno o glavnim komponentama pronađenim za matricu kovarijanse ostaje tačno za matricu R. Ovdje je također moguće, oslanjajući se na svojstvene vektore korelacijske matrice b 1 , b 2 , b 3 , ..., b m , idite od početnih karakteristika z i na glavne komponente y 1 , y 2 , y 3 , ..., y m

y 1 = b 1 "z

y 2 = b 2 "z

y 3 = b 3 "z

y m = b m "z .

Ova transformacija se također može napisati u kompaktnom obliku

y = B"z ,

Slika 5.2. Geometrijsko značenje glavnih komponenti za dvije normalizirane karakteristike z 1 i z 2

gdje y- vektor vrijednosti glavnih komponenti, B- matrica uključujući sopstvene vektore, z- vektor početnih normalizovanih karakteristika. Jednakost je takođe istinita

B „RB= ... ... … , (5.18)

gdje su l 1 , l 2 , l 3 , ..., l m vlastite vrijednosti korelacijske matrice.

Rezultati dobiveni analizom korelacijske matrice razlikuju se od sličnih rezultata za matricu kovarijanse. Prvo, sada je moguće razmotriti karakteristike mjerene u različitim jedinicama. Drugo, svojstveni vektori i brojevi pronađeni za matrice R I S, takođe su različiti. Treće, glavne komponente određene korelacionom matricom i zasnovane na normalizovanim vrednostima karakteristika z ispadaju centrirane - tj. imaju nulte srednje vrijednosti.

Nažalost, nakon što smo odredili svojstvene vektore i brojeve za matricu korelacije, nemoguće je prijeći sa njih na slične vektore i brojeve matrice kovarijanse. U praksi se glavne komponente zasnovane na korelacionoj matrici obično koriste kao univerzalnije.

5.8 Razmotrimo geometrijsko značenje glavnih komponenti koje su određene iz korelacijske matrice. Slučaj dvije karakteristike z 1 i z 2 je ovdje ilustrativan. Koordinatni sistem povezan sa ovim normalizovanim karakteristikama ima nultu tačku koja se nalazi u centru grafa (slika 5.2). Centralna tačka korelacione elipse,

uključujući sva pojedinačna zapažanja, poklapa se sa centrom koordinatnog sistema. Očigledno je da će se os prve glavne komponente, koja ima maksimalnu varijaciju, poklopiti sa najvećom osom korelacione elipse, a koordinata druge glavne komponente će biti orijentisana duž druge ose ove elipse.

Prelazak sa koordinatnog sistema povezanog sa originalnim karakteristikama z 1 i z 2 na nove ose glavnih komponenti je ekvivalentan rotiranju prvih ose za neki ugao j. Varijance normalizovanih karakteristika su jednake 1 i po formuli (5.14) može se naći vrednost ugla rotacije j jednaka 45 o . Tada će matrica vlastitih vektora, koja se može odrediti u smislu trigonometrijskih funkcija ovog ugla pomoću formule (5.15), biti jednaka

Cos j sin j 1 1 1

B" = = .

Sin j cos j (2) 1/2 -1 1

Vrijednosti vlastitih vrijednosti za dvodimenzionalni slučaj je također lako pronaći. Ispada da je uslov (5.12) u obliku

što odgovara jednačini

l 2 - 2l + 1 - r 2 \u003d 0,

koji ima dva korena

l 1 = 1 + r (5.19)

Dakle, glavne komponente korelacijske matrice za dvije normalizirane karakteristike mogu se pronaći korištenjem vrlo jednostavnih formula

Y 1 = (z 1 + z 2) (5.20)

Y 2 \u003d (z 1 - z 2)

Njihove aritmetičke srednje vrijednosti su jednake nuli, a standardne devijacije su

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 U skladu sa svojstvima svojstvenih vrijednosti i vektora, tragovi korelacijske matrice početnih karakteristika i matrice svojstvenih vrijednosti su jednaki. Ukupna varijacija m normalizovanih karakteristika jednaka je m. Drugim riječima

tr R= m = tr L (5.21)

l 1 + l 2 + l 3 + ... + l m = m .

Tada je udio ukupne varijacije početnih karakteristika, opisanih i-tom glavnom komponentom, jednak

Također možete uvesti koncept P cn - udio ukupne varijacije originalnih karakteristika, opisan sa prvih n glavnih komponenti,

n l 1 + l 2 + ... + l n

P cn = S P i = . (5.23)

Činjenica da za svojstvene vrijednosti postoji poredak oblika l 1 > l 2 > > l 3 > ... > l m znači da će slični odnosi biti karakteristični i za udjele opisane glavnim komponentama varijacije

P 1 > P 2 > P 3 > ... > P m . (5.24)

Svojstvo (5.24) podrazumeva specifičan oblik zavisnosti akumuliranog udela P sn od n (slika 5.3). U ovom slučaju, prve tri glavne komponente opisuju glavni dio varijabilnosti karakteristika. To znači da često nekoliko prvih glavnih komponenti može zajedno činiti do 80 - 90% ukupne varijacije karakteristika, dok će svaka naredna glavna komponenta vrlo malo povećati ovaj udio. Zatim, za dalje razmatranje i tumačenje, samo ovih nekoliko prvih glavnih komponenti može se koristiti sa sigurnošću da opisuju najvažnije obrasce unutargrupne varijabilnosti i korelacije.

Slika 5.3. Zavisnost udjela ukupne varijacije karakteristika P cn, opisanih sa n prvih glavnih komponenti, od vrijednosti n. Broj karakteristika m = 9

Slika 5.4. Definiciji konstrukcije kriterija za izdvajanje glavnih komponenti

znakovi. Zahvaljujući tome, broj novih informativnih varijabli za rad može se smanjiti za faktor 2 - 3. Dakle, glavne komponente imaju još jednu bitnu i korisno svojstvo- uvelike pojednostavljuju opis varijacije originalnih karakteristika i čine ga kompaktnijim. Takvo smanjenje broja varijabli je uvijek poželjno, ali je povezano sa određenim distorzijama u međusobnom rasporedu tačaka koje odgovaraju pojedinačnim zapažanjima u prostoru nekoliko prvih glavnih komponenti u poređenju sa m-dimenzionalnim prostorom izvornih karakteristika. Ova izobličenja proizlaze iz pokušaja da se prostor karakteristika stisne u prostor prvih glavnih komponenti. Međutim, u matematičkoj statistici je dokazano da od svih metoda koje mogu značajno smanjiti broj varijabli, prijelaz na glavne komponente dovodi do najmanjeg izobličenja u strukturi opservacija povezanih s ovim smanjenjem.

5.10 Važno pitanje u analizi glavnih komponenti je problem određivanja njihovog broja za dalje razmatranje. Očigledno, povećanje broja glavnih komponenti povećava kumulativni udio razmatrane varijabilnosti P cn i približava je 1. Istovremeno, kompaktnost rezultirajućeg opisa opada. Izbor broja glavnih komponenti, koji istovremeno obezbeđuje i kompletnost i kompaktnost opisa, može se zasnivati na različitim kriterijumima koji se koriste u praksi. Navodimo najčešće od njih.

Prvi kriterijum se zasniva na razmatranju da broj glavnih komponenti koje se uzimaju u obzir treba da obezbedi dovoljnu informativnu potpunost opisa. Drugim riječima, glavne komponente koje se razmatraju trebale bi opisati većinu ukupne varijabilnosti početnih karakteristika: do 75 - 90%. Izbor određenog nivoa akumuliranog udjela P cn ostaje subjektivan i zavisi kako od mišljenja istraživača tako i od problema koji se rješava.

Drugi sličan kriterij (Kaiserov kriterij) nam omogućava da uključimo glavne komponente sa svojstvenim vrijednostima većim od 1. Zasnovan je na pretpostavci da je 1 varijansa jedne normalizirane početne karakteristike. pjesnik-

Stoga, uključivanje u dalje razmatranje svih glavnih komponenti sa svojstvenim vrijednostima većim od 1 znači da razmatramo samo one nove varijable koje imaju varijanse barem jedne originalne karakteristike. Kaiserov kriterijum je vrlo čest i njegova upotreba je ugrađena u mnoge softverske pakete za statističku obradu podataka kada je potrebno postaviti minimalnu vrijednost razmatrane vlastite vrijednosti, a zadana vrijednost se često uzima jednakom 1.

Cattellov kriterij prosijavanja je teorijski potkrijepljen nešto bolje. Njegova primjena se zasniva na razmatranju grafa na kojem su vrijednosti svih svojstvenih vrijednosti iscrtane u opadajućem redoslijedu (slika 5.4). Cattellov kriterij se temelji na učinku koji je ucrtan na graf, slijed vrijednosti dobijenih svojstvenih vrijednosti obično daje konkavnu liniju. Prvih nekoliko svojstvenih vrijednosti pokazuje nepravolinijski pad njihovog nivoa. Međutim, počevši od neke vlastite vrijednosti, smanjenje ovog nivoa postaje približno pravolinijsko i prilično blago. Uključivanje glavnih komponenti u razmatranje završava se onom čija vlastita vrijednost počinje pravolinijski ravan dio grafa. Dakle, na slici 5.4, u skladu sa Cattellovim kriterijem, u razmatranje treba uključiti samo prve tri glavne komponente, jer se treća vlastita vrijednost nalazi na samom početku pravolinijskog ravnog dijela grafa.

Cattellov kriterijum se zasniva na sledećem. Ako uzmemo u obzir podatke o m karakteristikama, veštački dobijene iz tabele normalno raspoređenih slučajni brojevi, tada će za njih korelacije između karakteristika biti potpuno nasumične i bit će blizu 0. Kada se ovdje pronađu glavne komponente, moći će se uočiti postepeno smanjenje veličine njihovih vlastitih vrijednosti, koje ima pravolinijski karakter. Drugim riječima, pravolinijski pad vlastitih vrijednosti može ukazivati na odsustvo odgovarajućih informacija o korelaciji znakova neslučajnih odnosa.

5.11 Prilikom tumačenja glavnih komponenti najčešće se koriste svojstveni vektori predstavljeni u obliku tzv. opterećenja – koeficijenata korelacije izvornih karakteristika sa glavnim komponentama. Vlastiti vektori b i koje zadovoljavaju jednakost (5.18) dobijaju se u normalizovanom obliku, tako da b i "b i= 1. To znači da je zbir kvadrata elemenata svakog svojstvenog vektora 1. Svojstveni vektori čiji su elementi opterećenja mogu se lako pronaći po formuli

a i= (l i) 1/2 b i . (5.25)

Drugim riječima, množenjem normaliziranog oblika svojstvenog vektora s kvadratnim korijenom njegove vlastite vrijednosti, može se dobiti skup početnih opterećenja karakteristika na odgovarajuću glavnu komponentu. Za vektore opterećenja ispada da je jednakost tačna a i "a i= l i , što znači da je zbir opterećenja na kvadrat na i-tu glavnu komponentu jednak i-toj svojstvenoj vrijednosti. Računalni programi obično daju svojstvene vektore u obliku opterećenja. Ako je potrebno ove vektore dobiti u normaliziranom obliku b i ovo se može učiniti jednostavnom formulom b i = a i/ (l i) 1/2 .

5.12 Matematička svojstva svojstvenih vrijednosti i vektora su takva da, u skladu sa odjeljkom A.25 Aneksi Originalna matrica korelacije R može se predstaviti u obliku R = BLB", što se takođe može napisati kao

R= l 1 b 1 b 1 "+ l 2 b 2 b 2 "+ l 3 b 3 b 3 "+ ... + lm b m b m " . (5.26)

Treba napomenuti da bilo koji od pojmova l i b i b i ", odgovarajući i-ti glavni komponenta je kvadratna matrica

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

l i b i b i "= l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im . (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Ovdje je b ij element i-tog svojstvenog vektora j-te originalne karakteristike. Svaki dijagonalni član takve matrice l i b ij 2 je neki dio varijacije j-tog atributa, opisanog i-tom glavnom komponentom. Tada se varijansa bilo koje j-te karakteristike može predstaviti kao

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

što znači njeno proširenje u smislu doprinosa u zavisnosti od svih glavnih komponenti.

Slično, bilo koji vandijagonalni član l i b ij b ik matrice (5.27) je određeni dio koeficijenta korelacije r jk j-te i k-te karakteristike uzete u obzir od strane i-te glavne komponente. Tada možemo zapisati proširenje ovog koeficijenta kao zbir

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

doprinose svih m glavnih komponenti tome.

Dakle, iz formula (5.28) i (5.29) se jasno vidi da svaka glavna komponenta opisuje određeni dio varijanse svake početne karakteristike i koeficijent korelacije svake njihove kombinacije.

Uzimajući u obzir činjenicu da su elementi normalizovanog oblika svojstvenih vektora b ij povezani sa opterećenjem a ij jednostavnom relacijom (5.25), proširenje (5.26) se takođe može zapisati u terminima sopstvenih vektora opterećenja R = AA", koji se takođe može predstaviti kao

R = a 1 a 1" + a 2 a 2" + a 3 a 3" + ... + a m a m" , (5.30)

one. kao zbir doprinosa svake od m glavnih komponenti. Svaki od ovih doprinosa a i a ja" može se napisati kao matrica

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

a i a ja"= a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

na čijim dijagonalama su postavljeni a ij 2 - doprinosi varijansi j-te početne karakteristike, i vandijagonalni elementi a ij a ik - slični su doprinosi koeficijentu korelacije r jk j-te i k- th karakteristike.

Metoda glavne komponente ili komponentna analiza(analiza glavnih komponenti, PCA) je jedna od najvažnijih metoda u arsenalu zoologa ili ekologa. Nažalost, u onim slučajevima kada je upotreba komponentne analize sasvim prikladna, često se koristi klaster analiza.

Tipičan zadatak za koji je korisna komponentna analiza je sljedeći: postoji određeni skup objekata, od kojih svaki karakterizira određeni (dovoljno veliki) broj karakteristika. Istraživače zanimaju obrasci koji se odražavaju u raznolikosti ovih objekata. U slučaju kada postoji razlog za pretpostavku da su objekti raspoređeni među hijerarhijski podređenim grupama, možete koristiti klaster analizu - metodu klasifikacija(distribucija po grupama). Ako nema razloga očekivati da se neka vrsta hijerarhije odražava u raznovrsnosti objekata, logično je koristiti zaređenje(naručeni aranžman). Ako se svaki objekt karakterizira dovoljno veliki broj karakteristike (barem - na toliki broj karakteristika koje se ne mogu adekvatno odraziti na jednom grafikonu), optimalno je započeti proučavanje podataka analizom glavnih komponenti. Činjenica je da je ova metoda istovremeno i metoda smanjenja dimenzije (broja mjerenja) podataka.

Ako grupu objekata koji se razmatraju karakteriziraju vrijednosti jedne karakteristike, histogram (za kontinuirane karakteristike) ili trakasti grafikon (za karakterizaciju frekvencija diskretne karakteristike) može se koristiti za karakterizaciju njihove raznolikosti. Ako objekte karakteriziraju dvije karakteristike, može se koristiti dvodimenzionalni dijagram raspršenja, ako tri - trodimenzionalni. Šta ako ima mnogo znakova? Možete pokušati razmišljati o dvodimenzionalnom grafikonu međusobnog dogovora objekti jedni prema drugima u višedimenzionalnom prostoru. Obično je takvo smanjenje dimenzije povezano s gubitkom informacija. Od raznih mogućih načina ovakvog prikaza potrebno je odabrati onaj kod kojeg će gubitak informacija biti minimalan.

Pojasnimo ono što je rečeno koristeći najjednostavniji primjer: prijelaz iz dvodimenzionalnog prostora u jednodimenzionalni. Minimalni broj tačaka koji definiše dvodimenzionalni prostor (ravan) je 3. Na sl. 9.1.1 pokazuje položaj tri tačke na ravni. Koordinate ovih tačaka lako se čitaju sa samog crteža. Kako odabrati pravu liniju koja će nositi maksimum informacija o relativnim pozicijama tačaka?

Rice. 9.1.1. Tri tačke na ravni definisane sa dve karakteristike. Na koju će pravu liniju biti projektovana maksimalna disperzija ovih tačaka?

Razmotrite projekcije tačaka na pravu A (prikazano plavom bojom). Koordinate projekcija ovih tačaka na pravu A su: 2, 8, 10. Prosječna vrijednost je 6 2/3. Varijanca (2-6 2/3)+ (8-6 2/3)+ (10-6 2/3)=34 2/3 .

Sada razmotrite liniju B (prikazano u zelenoj boji). Koordinate tačaka - 2, 3, 7; srednja vrijednost je 4, varijansa je 14. Dakle, manji dio varijanse se odražava na liniji B nego na liniji A.

Kakav je ovo udio? Pošto su prave A i B ortogonalne (okomite), udjeli ukupne varijanse projektovane na A i B se ne sijeku. To znači da se ukupna disperzija lokacije tačaka od interesa za nas može izračunati kao zbir ova dva člana: 34 2 / 3 +14=48 2 / 3 . Istovremeno, 71,2% ukupne varijanse projektovano je na liniju A, a 28,8% na liniju B.

I kako odrediti koja će ravna linija utjecati na maksimalan udio varijanse? Ova linija će odgovarati liniji regresije za tačke od interesa, koja je označena kao C (crvena). Ova prava linija će odražavati 77,2% ukupne varijanse, a ovo je najveća moguća vrijednost za ovaj raspored bodova. Takva prava linija, na kojoj se projektuje maksimalni udio ukupne varijanse, naziva se prva glavna komponenta.

I na kojoj pravoj liniji treba odraziti preostalih 22,8% ukupne varijanse? Na pravoj okomitoj na prvu glavnu komponentu. Ova linija će takođe biti glavna komponenta, jer će odražavati najveći mogući udio varijanse (naravno, bez uzimanja u obzir one koja je uticala na prvu glavnu komponentu). Dakle, ovo je - druga glavna komponenta.

Nakon što smo izračunali ove glavne komponente pomoću Statistica (opisaćemo dijalog malo kasnije), dobićemo sliku prikazanu na Sl. 9.1.2. Koordinate tačaka na glavnim komponentama prikazane su u standardnim devijacijama.

Rice. 9.1.2. Položaj tri tačke prikazane na sl. 9.1.1, na ravni dvije glavne komponente. Zašto su ove tačke raspoređene jedna u odnosu na drugu drugačije nego na Sl. 9.1.1?

Na sl. 9.1.2 relativni položaj tačaka se mijenja. Da bi se takve slike u budućnosti pravilno interpretirale, treba razmotriti razloge za razlike u lokaciji tačaka na Sl. 9.1.1 i 9.1.2 za detalje. Tačka 1 u oba slučaja je desno (ima veću koordinatu za prvi znak i prvu glavnu komponentu) od tačke 2. Ali, iz nekog razloga, tačka 3 na početnoj lokaciji je ispod druge dvije tačke (ima najmanju vrijednost znak 2), a iznad dvije druge tačke na ravni glavnih komponenti (ima veliku koordinatu u drugoj komponenti). To je zbog činjenice da metoda glavnih komponenti precizno optimizira varijansu početnih podataka projektiranih na osi koje je on izabrao. Ako je glavna komponenta u korelaciji s nekom originalnom osom, komponenta i osa mogu biti usmjerene u istom smjeru (imaju pozitivnu korelaciju) ili u suprotnim smjerovima (imaju negativne korelacije). Obje ove opcije su ekvivalentne. Algoritam glavnih komponenti može ili ne mora "okrenuti" bilo koju ravan; iz ovoga ne treba izvlačiti nikakve zaključke.

Međutim, tačke na Sl. 9.1.2 nisu samo „naopačke” u poređenju sa njihovim relativnim položajem na sl. 9.1.1; na izvestan način se promenio i njihov međusobni raspored. Čini se da su razlike između tačaka u drugoj glavnoj komponenti pojačane. 22,76% ukupne varijanse koja se može pripisati drugoj komponenti „raširilo je” bodove za istu udaljenost kao 77,24% varijanse koja se može pripisati prvoj glavnoj komponenti.

Da bi lokacija tačaka na ravni glavnih komponenti odgovarala njihovoj stvarnoj lokaciji, ova ravan bi morala biti izobličena. Na sl. 9.1.3. prikazana su dva koncentrična kruga; njihovi polumjeri su povezani kao dijelovi disperzija koje reflektiraju prva i druga glavna komponenta. Slika koja odgovara sl. 9.1.2, iskrivljeno tako da standardna devijacija prema prvoj glavnoj komponenti odgovarala je većem krugu, a prema drugoj - manjoj.

Rice. 9.1.3. Uzeli smo u obzir da prva glavna komponenta čini b o veći dio varijanse od drugog. Da bismo to učinili, iskrivili smo Sl. 9.1.2 uklapanjem u dva koncentrična kruga čiji su polumjeri povezani kao razlomci varijansi koje se mogu pripisati glavnim komponentama. Ali lokacija tačaka još uvijek ne odgovara originalnoj prikazanoj na Sl. 9.1.1!

I zašto je relativni položaj tačaka na sl. 9.1.3 ne odgovara onom na sl. 9.1.1? Na originalnoj slici, sl. 9.1 tačke se nalaze u skladu sa svojim koordinatama, a ne u skladu sa proporcijama disperzije koja pada na svaku osu. Udaljenost od 1 jedinice na prvom elementu (duž x-ose) na Sl. 9.1.1, manji je udio disperzije tačaka duž ove ose od udaljenosti od 1 jedinice prema drugoj osobini (duž y-ose). A na slici 9.1.1, udaljenosti između tačaka određene su precizno jedinicama u kojima se mjere mjere, kojima su opisane.

Hajde da malo zakomplikujemo zadatak. U tabeli. 9.1.1 prikazuje koordinate 10 tačaka u 10-dimenzionalnom prostoru. Prve tri tačke i prve dvije dimenzije su primjer koji smo upravo pogledali.

Tabela 9.1.1. Koordinate tačaka za dalju analizu

	Koordinate

U obrazovne svrhe prvo ćemo razmotriti samo dio podataka iz tabele. 9.1.1. Na sl. 9.1.4 vidimo položaj deset tačaka na ravni prva dva znaka. Imajte na umu da je prva glavna komponenta (linija C) prošla malo drugačije nego u prethodnom slučaju. Nije ni čudo: na njegovu poziciju utječu sve razmatrane točke.

Rice. 9.1.4. Povećali smo broj bodova. Prva glavna komponenta je već malo drugačija, jer su na nju uticale dodatne tačke

Na sl. 9.1.5 pokazuje položaj 10 tačaka koje smo razmatrali na ravni prve dvije komponente. Primijetite da se sve promijenilo, ne samo udio varijanse koji ide na svaku glavnu komponentu, već čak i položaj prve tri tačke!

Rice. 9.1.5. Ordinacija u ravni prve glavne komponente od 10 tačaka, opisana u tabeli. 9.1.1. Razmatrane su samo vrijednosti prva dva znaka, zadnjih 8 kolona tabele. 9.1.1 se ne koristi

Općenito, ovo je prirodno: budući da su glavne komponente drugačije smještene, promijenio se i relativni položaj tačaka.

Poteškoće u usporedbi položaja tačaka na ravnini glavnih komponenti i na izvornoj ravni vrijednosti njihovih karakteristika mogu izazvati zbunjenost: zašto koristiti takvu metodu koju je teško protumačiti? Odgovor je jednostavan. U slučaju da su upoređeni objekti opisani sa samo dva svojstva, sasvim je moguće koristiti njihovu ordinaciju prema ovim početnim karakteristikama. Sve prednosti metode glavnih komponenti očituju se u slučaju višedimenzionalnih podataka. U ovom slučaju, metoda glavne komponente je efikasan način smanjenje dimenzije podataka.

9.2. Prelazak na početne podatke sa velikim brojem dimenzija

Razmotrite više težak slučaj: analizirajmo podatke prikazane u tabeli. 9.1.1 za svih deset karakteristika. Na sl. 9.2.1 pokazuje kako se zove prozor metode koja nas zanima.

Rice. 9.2.1. Pokretanje metode glavne komponente

Nas će zanimati samo izbor karakteristika za analizu, iako dijalog Statistica omogućava mnogo finije podešavanje (slika 9.2.2).

Rice. 9.2.2. Odabir varijabli za analizu

Nakon što je analiza završena, pojavljuje se prozor sa njenim rezultatima sa nekoliko kartica (slika 9.2.3). Svi glavni prozori dostupni su sa prve kartice.

Rice. 9.2.3. Prva kartica dijaloga rezultata analize glavne komponente

Može se vidjeti da je analizom identifikovano 9 glavnih komponenti, i uz njihovu pomoć opisano 100% varijanse koja se ogleda u 10 početnih karakteristika. To znači da je jedan znak bio suvišan, suvišan.

Počnimo da gledamo rezultate sa dugmeta "Plot case factor voordinates, 2D": ono će pokazati lokaciju tačaka na ravni koju definišu dve glavne komponente. Pritiskom na ovo dugme ući ćemo u dijalog u kojem ćemo morati specificirati koje komponente ćemo koristiti; prirodno je započeti analizu sa prvom i drugom komponentom. Rezultat je na sl. 9.2.4.

Rice. 9.2.4. Ordinacija razmatranih objekata na ravni prve dvije glavne komponente

Položaj tačaka se promijenio, i to je prirodno: u analizu su uključene nove karakteristike. Na sl. 9.2.4 odražava više od 65% ukupne raznolikosti u položaju bodova jedan prema drugom, a to je već netrivijalan rezultat. Na primjer, vraćanje na tabelu. 9.1.1, može se osigurati da su tačke 4 i 7, kao i 8 i 10 zaista prilično blizu jedna drugoj. Međutim, razlike između njih mogu se odnositi na druge glavne komponente koje nisu prikazane na slici: na kraju krajeva, one također čine trećinu preostale varijabilnosti.

Uzgred, prilikom analize položaja tačaka na ravni glavnih komponenti, možda će biti potrebno analizirati udaljenosti između njih. Najlakši način je da dobijete matricu udaljenosti između tačaka koristeći modul za analizu klastera.

I kako su odabrane glavne komponente povezane s originalnim karakteristikama? Ovo se može pronaći pritiskom na dugme (slika 9.2.3) Plot var. faktor koordinate, 2D. Rezultat je na sl. 9.2.5.

Rice. 9.2.5. Projekcije početnih karakteristika na ravan prve dvije glavne komponente

Ravan dvije glavne komponente gledamo "odozgo". Početne karakteristike koje nisu ni na koji način povezane sa glavnim komponentama biće okomite (ili skoro okomite) na njih i odražavaće se u kratkim segmentima koji završavaju blizu ishodišta. Dakle, karakteristika br. 6 je najmanje povezana sa prve dvije glavne komponente (iako pokazuje izvjesnu pozitivnu korelaciju s prvom komponentom). Segmenti koji odgovaraju onim karakteristikama koji se u potpunosti reflektuju u ravnini glavnih komponenti završiće na krugu jediničnog radijusa koji obuhvata središte uzorka.

Na primjer, možete vidjeti da su na prvu glavnu komponentu najviše utjecale karakteristike 10 (pozitivna korelacija) i 7 i 8 (negativna korelacija). Da biste detaljnije pogledali strukturu takvih korelacija, možete kliknuti na dugme Faktor koordinate varijabli i dobiti tabelu prikazanu na Sl. 9.2.6.

Rice. 9.2.6. Korelacije između početnih karakteristika i odabranih glavnih komponenti (faktori)

Dugme Eigenvalues prikazuje vrijednosti tzv sopstvene vrijednosti glavnih komponenti. Na vrhu prozora prikazanog na sl. 9.2.3, takve vrijednosti su izvedene za prvih nekoliko komponenti; dugme Scree plot prikazuje ih u obliku pogodnom za percepciju (slika 9.2.7).

Rice. 9.2.7. Vlastite vrijednosti odabranih glavnih komponenti i udjeli ukupne varijanse koje odražavaju

Prvo morate razumjeti šta tačno pokazuje vrijednost svojstvene vrijednosti. Ovo je mjera varijanse koja se odražava u glavnoj komponenti, mjerena u smislu količine varijanse po osobini u ulaznim podacima. Ako je svojstvena vrijednost prve glavne komponente 3,4, to znači da ima veću varijansu od tri karakteristike iz početnog skupa. Svojstvene vrijednosti su linearno povezane sa proporcijom varijanse koja se može pripisati glavnoj komponenti, jedino što je zbir svojstvenih vrijednosti jednak broju početnih karakteristika, a zbir udjela varijanse je 100% .

I šta znači da se informacija o varijabilnosti za 10 osobina ogleda u 9 glavnih komponenti? To što je jedna od početnih karakteristika bila suvišna nije dodala nikakve nove informacije. I tako je bilo; na sl. 9.2.8 pokazuje kako je generisan skup tačaka prikazanih u tabeli 1. 9.1.1.

Analiza glavnih komponenti (PCA) pojednostavljuje složenost visokodimenzionalnih podataka uz očuvanje trendova i obrazaca. To radi pretvaranjem podataka u manje veličine, koje se ponašaju kao sažetak karakteristika. Takvi podaci su vrlo česti u različitim granama nauke i tehnologije, a nastaju kada se izmjeri nekoliko osobina za svaki uzorak, kao što je ekspresija mnogih vrsta. Ova vrsta podataka predstavlja probleme uzrokovane povećanom stopom grešaka zbog višestrukih ispravaka podataka.

Metoda je slična grupiranju – pronalazi nepovezane obrasce i analizira ih, provjeravajući da li su uzorci iz različitih studijskih grupa i da li imaju značajne razlike. Kao i kod svih statističke metode, može se pogrešno primijeniti. Promjenjivo skaliranje može dovesti do različitih rezultata analize, a važno je da se ne prilagođava tako da odgovara prethodnoj vrijednosti podataka.

Ciljevi komponentne analize

Osnovna svrha metode je otkrivanje i smanjenje dimenzionalnosti skupa podataka, određivanje novih značajnih baznih varijabli. Da biste to učinili, predlaže se korištenje posebnih alata, na primjer, za prikupljanje višedimenzionalnih podataka u matrici podataka TableOfReal u kojoj su redovi povezani sa slučajevima i stupcima varijabli. Stoga se TableOfReal tumači kao vektori podataka numberOfRows, pri čemu svaki vektor ima određeni broj Columns elemenata.

Tradicionalno, analiza glavne komponente se izvodi na matrici kovarijanse ili na korelacionoj matrici, koja se može izračunati iz matrice podataka. Matrica kovarijanse sadrži skalirane sume kvadrata i unakrsnih proizvoda. Korelaciona matrica je slična matrici kovarijanse, ali su u njoj prvo standardizovane varijable, odnosno kolone. Prvo, morat ćete standardizirati podatke ako su varijanse ili mjerne jedinice varijabli veoma različite. Da biste izvršili analizu, odaberite matricu podataka TabelOfReal na listi objekata i čak kliknite na Go.

Ovo će rezultirati pojavom novog objekta na listi objekata prema metodi glavne komponente. Sada možete nacrtati krivulje svojstvenih vrijednosti da biste dobili predstavu o važnosti svake od njih. A program također može ponuditi akciju: dobiti proporciju varijanse ili provjeriti jednakost broja svojstvenih vrijednosti i dobiti njihovu jednakost. Pošto se komponente dobijaju rešavanjem specifičnog problema optimizacije, one imaju neka "ugrađena" svojstva, kao što je maksimalna varijabilnost. Osim toga, postoji niz drugih svojstava koje faktorska analiza može pružiti:

varijansu svake, dok je udio ukupne varijanse početnih varijabli dat vlastitim vrijednostima;
kalkulacije evaluacije koje ilustruju vrijednost svake komponente koja se promatra;
dobijanje opterećenja koja opisuju korelaciju između svake komponente i svake varijable;
korelacija između originalnih varijabli reprodukovanih pomoću p-komponente;
reprodukcija originalnih podataka može se reproducirati s p-komponentama;
"rotirajuće" komponente kako bi se povećala njihova interpretabilnost.

Odabir broja skladišnih tačaka

Postoje dva načina da odaberete potreban broj komponenti za skladištenje. Obje metode su zasnovane na odnosima između svojstvenih vrijednosti. Da biste to učinili, preporučuje se iscrtavanje vrijednosti. Ako tačke na grafikonu imaju tendenciju da se izravnaju i dovoljno su blizu nuli, onda se mogu zanemariti. Ograničite broj komponenti na broj koji čini određeni dio ukupne varijanse. Na primjer, ako korisnik zadovolji 95% ukupne varijanse - dobije se broj komponenti (VAF) 0,95.

Glavne komponente se dobijaju projektovanjem višedimenzionalnog Statistička analiza metoda glavnih komponenti vektora podataka na prostoru vlastitih vektora. Ovo se može uraditi na dva načina - direktno iz TableOfReal bez prethodnog generisanja PCA objekta, a zatim možete prikazati konfiguraciju ili njene brojeve. Odaberite objekt i TableOfReal zajedno i 'Configuration', tako da se analiza izvodi u vlastitom okruženju komponente.

Ako se ispostavi da je početna tačka simetrična matrica, kao što je matrica kovarijanse, prvo izvršite redukciju u formu, a zatim QL algoritam sa implicitnim pomacima. Ako je, naprotiv, početna tačka matrica podataka, tada je nemoguće formirati matricu sa zbirom kvadrata. Umjesto toga, oni se kreću sa numerički stabilnijeg načina i formiraju ekspanzije singularnih vrijednosti. Tada će matrica sadržavati vlastite vektore, a kvadratne dijagonalne elemente - sopstvene vrijednosti.

Glavna komponenta je normalizirana linearna kombinacija originalnih prediktora u skupu podataka glavne komponente za lutke. Na gornjoj slici, PC1 i PC2 su glavne komponente. Recimo da postoji niz prediktora kao što su X1, X2...,Xp.

Glavna komponenta se može napisati kao: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

Z1 - je prva glavna komponenta;
p1 - je vektor opterećenja koji se sastoji od opterećenja (1, 2.) prve glavne komponente.

Opterećenja su ograničena na zbir kvadrata od 1. To je zbog činjenice da velika opterećenja mogu dovesti do velike disperzije. Također definira smjer glavne komponente (Z1) gdje se podaci najviše razlikuju. Ovo dovodi do činjenice da je linija u prostoru p-mera najbliža n-opažanjima.

Blizina se mjeri korištenjem rms Euklidske udaljenosti. X1..Xp su normalizirani prediktori. Normalizirani prediktori imaju srednju vrijednost nula, i standardna devijacija jednako jedan. Dakle, prvi glavna komponenta je linearna kombinacija originalnih prediktorskih varijabli koja bilježi maksimalnu varijansu u skupu podataka. On određuje smjer najveće varijabilnosti podataka. Što je veća varijabilnost zabilježena u prvoj komponenti, to će ona dobiti veće informacije. Nijedna druga ne može imati volatilnost veću od prve veće.

Prva glavna komponenta rezultira linijom koja je najbliža podacima i minimizira zbir kvadrata udaljenosti između tačke podataka i linije. Druga glavna komponenta (Z2) je također linearna kombinacija originalni prediktori koji hvataju preostalu varijansu u skupu podataka i nekorelirani su Z1. Drugim riječima, korelacija između prve i druge komponente trebala bi biti nula. Može se predstaviti kao: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Ako nisu u korelaciji, njihovi smjerovi moraju biti ortogonalni.

Nakon što su glavne komponente izračunate, počinje proces predviđanja testnih podataka pomoću njih. Proces metode glavne komponente za lutke je jednostavan.

Na primjer, potrebno je izvršiti transformaciju testnog skupa, uključujući funkciju centra i skale u jeziku R (v.3.4.2) i njegovu rvest biblioteku. R je besplatni programski jezik za statističko računanje i grafiku. Rekonstruisan je 1992. godine radi rješavanja statističkih problema korisnika. Ovo je kompletan proces simulacije nakon ekstrakcije PCA.

Da biste implementirali PCA u python, uvezite podatke iz sklearn biblioteke. Tumačenje ostaje isto kao i za korisnike R. Samo skup podataka koji se koristi za Python je očišćena verzija, bez imputiranih vrijednosti koje nedostaju i kategoričkih varijabli pretvorenih u numeričke. Proces simulacije ostaje isti kao što je gore opisano za korisnike R. Analiza glavne komponente, primjer proračuna:

Ideja koja stoji iza metode glavne komponente je da se ovaj izraz aproksimira da bi se izvršila faktorska analiza. Umjesto zbrajanja od 1 do p, sada se sabira od 1 do m, zanemarujući ovo drugo p-m članova u zbiru i dobijanje trećeg izraza. Moguće je ovo prepisati kao što je prikazano u izrazu koji se koristi za definiranje matrice faktorskog opterećenja L, što daje konačni izraz u matričnom zapisu. Ako se koriste standardizirana mjerenja, zamijenite S matricom korelacionog uzorka R.

Ovo formira matricu faktorskog opterećenja L u faktorskoj analizi, a prati je transponovani L. Da biste procijenili specifične varijanse, modelirajte faktorski model matricu varijanse-kovarijance.

Sada će biti jednaka matrici varijanse-kovarijance minus LL ".

Xi je vektor zapažanja za i-ti subjekt.
S označava našu matricu varijanse-kovarijance uzorka.

Zatim p svojstvene vrijednosti za ovu matricu kovarijanse varijanse, kao i odgovarajući svojstveni vektori za ovu matricu.

Svojstvene vrijednosti S:λ^1, λ^2, ... , λ^p.

Svojstveni vektori S: e^1, e^2, ... , e^n.

PCA analiza je moćna i popularna tehnika multivarijantne analize koja vam omogućava da istražite multivarijantne skupove podataka s kvantitativnim varijablama. Prema ovoj tehnici, metoda glavnih komponenti ima široku primjenu u bioinformatici, marketingu, sociologiji i mnogim drugim oblastima. XLSTAT pruža potpun i fleksibilan način istraživanja podataka direktno u Excel-u i nudi nekoliko standardnih i naprednih opcija koje će vam pružiti duboko razumijevanje korisničkih podataka.

Možete pokrenuti program na sirovim podacima ili matricama razlika, dodati dodatne varijable ili zapažanja, filtrirati varijable prema različitim kriterijima kako biste optimizirali čitanje kartice. Osim toga, možete izvoditi okrete. Lako se podesi korelacioni krug, graf posmatranja kao standardni Excel grafikoni. Dovoljno je prenijeti podatke iz izvještaja o rezultatima da biste ih koristili u analizi.

XLSTAT nudi nekoliko metoda obrade podataka koje se koriste na ulazu prije nego što se izračuna glavna komponenta:

Pearson, klasični PCA koji automatski standardizira podatke za proračune kako bi se izbjegle naduvene varijable s velikim odstupanjima od rezultata.
Kovarijansa koja radi sa nestandardnim devijacijama.
Polihorijski, za redne podatke.

Primjeri analize dimenzionalnih podataka

Metodu glavnih komponenti možete razmotriti na primjeru implementacije simetrične korelacijske ili kovarijacijske matrice. To znači da matrica mora biti numerička i imati standardizirane podatke. Recimo da postoji skup podataka dimenzija 300 (n) × 50 (p). Gdje je n broj opservacija, a p broj prediktora.

Pošto postoji veliki p = 50, može postojati p(p-1)/2 dijagram raspršenja. U ovom slučaju, bio bi dobar pristup odabrati podskup prediktora p(p<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Primjer za matricu sa dvije varijable. Ovaj primjer glavnih komponenti kreira skup podataka s dvije varijable (velika dužina i dijagonalna dužina) koristeći umjetne Davisove podatke.

Komponente se mogu nacrtati na dijagramu raspršenja na sljedeći način.

Ovaj dijagram ilustrira ideju prve ili glavne komponente koja pruža optimalan sažetak podataka - nijedna druga linija nacrtana na takvom dijagramu raspršenosti ne bi proizvela skup predviđenih vrijednosti tačaka podataka na liniji s manjom varijansom.

Prva komponenta također ima primjenu u regresiji smanjene glavne ose (RMA), u kojoj se pretpostavlja da i x- i y-varijable imaju greške ili nesigurnosti, ili gdje ne postoji jasna razlika između prediktora i odgovora.

Analiza glavnih komponenti u ekonometriji je analiza varijabli kao što su GNP, inflacija, devizni kursevi, itd. Njihove jednačine se zatim vrednuju na osnovu dostupnih podataka, uglavnom agregatnih vremenskih serija. Međutim, ekonometrijski modeli se mogu koristiti za mnoge aplikacije osim za makroekonomske. Dakle, ekonometrija znači ekonomsko mjerenje.

Primjena statističkih metoda na relevantnu ekonometriju podataka pokazuje odnos između ekonomskih varijabli. Jednostavan primjer ekonometrijskog modela. Pretpostavlja se da je mjesečna potrošnja potrošača linearno povezana sa prihodima potrošača u prethodnom mjesecu. Tada će se model sastojati od jednačine

Zadatak ekonometričara je da dobije procjene parametara a i b. Ove procjene parametara, ako se koriste u jednačini modela, predviđaju buduće vrijednosti potrošnje koje će ovisiti o prihodu iz prethodnog mjeseca. Postoji nekoliko stvari koje treba imati na umu kada razvijate ove vrste modela:

priroda probabilističkog procesa koji generiše podatke;
nivo znanja o tome;
veličina sistema;
oblik analize;
horizont prognoze;
matematička složenost sistema.

Sve ove pretpostavke su važne jer utiču na izvore grešaka koje proizlaze iz modela. Osim toga, za rješavanje ovih problema potrebno je odrediti metod predviđanja. Može se svesti na linearni model čak i ako postoji samo mali uzorak. Ovaj tip je jedan od najčešćih za koje možete napraviti prediktivnu analizu.

Neparametrijska statistika

Analiza glavne komponente za neparametarske podatke odnosi se na metode mjerenja u kojima se podaci izdvajaju iz specifične distribucije. Neparametarske statističke metode se široko koriste u različitim vrstama istraživanja. U praksi, kada pretpostavka normalnosti nije ispunjena, parametarske statističke metode mogu dovesti do pogrešnih rezultata. Nasuprot tome, neparametarske metode daju mnogo manje stroge pretpostavke o distribuciji po dimenzijama.

Važe bez obzira na osnovne distribucije zapažanja. Zbog ove atraktivne prednosti, razvijeno je mnogo različitih tipova neparametarskih testova za analizu različitih tipova eksperimentalnih dizajna. Takvi projekti pokrivaju dizajn jednog uzorka, dizajn dvostrukog uzorka, randomizirani blok dizajn. Trenutno se koristi neparametarski Bayesov pristup koji koristi analizu glavnih komponenti da bi se pojednostavila analiza pouzdanosti željezničkih sistema.

Željeznički sistem je tipičan kompleksni sistem velikih razmjera sa međusobno povezanim podsistemima koji sadrže brojne komponente. Pouzdanost sistema se održava odgovarajućim merama održavanja, a isplativo upravljanje imovinom zahteva tačnu procenu pouzdanosti na najnižem nivou. Međutim, stvarni podaci o pouzdanosti na nivou komponenti željezničkog sistema nisu uvijek dostupni u praksi, a kamoli završetak. Distribucija životnih ciklusa komponenti od proizvođača često je zamagljena i komplikovana stvarnom upotrebom i radnim okruženjem. Dakle, analiza pouzdanosti zahtijeva odgovarajuću metodologiju za procjenu vijeka trajanja komponente u odsustvu podataka o kvarovima.

Analiza glavnih komponenti u društvenim naukama koristi se za obavljanje dva glavna zadatka:

analiza prema podacima socioloških istraživanja;
građenje modela društvenih pojava.

Algoritmi za proračun modela

Algoritmi analize glavnih komponenti daju drugačiju ideju o strukturi modela i njegovoj interpretaciji. Oni su odraz načina na koji se PCA koristi u različitim disciplinama. NIPALS nelinearni iterativni algoritam parcijalnih najmanjih kvadrata je sekvencijalna metoda za računanje komponenti. Obračun se može prekinuti ranije kada korisnik smatra da ih ima dovoljno. Većina računarskih paketa obično koristi NIPALS algoritam jer ima dvije glavne prednosti:

obrađuje podatke koji nedostaju;
sekvencijalno izračunava komponente.

Svrha razmatranja ovog algoritma:

daje dodatni uvid u to što znače opterećenja i procjene;
pokazuje kako svaka komponenta ne zavisi ortogonalno o drugim komponentama;
pokazuje kako algoritam može upravljati podacima koji nedostaju.

Algoritam izdvaja svaku komponentu sekvencijalno, počevši od prvog pravca najveće varijanse, a zatim od drugog i tako dalje. NIPALS izračunava jednu po jednu komponentu. Prvo izračunato je ekvivalentno t1t1, a p1p1 vektori koji bi bili pronađeni iz dekompozicije svojstvene ili singularne vrijednosti mogu rukovati podacima koji nedostaju u XX. Uvijek konvergira, ali konvergencija ponekad može biti spora. Također je poznat kao algoritam snage za izračunavanje svojstvenih vektora i svojstvenih vrijednosti i odlično radi za vrlo velike skupove podataka. Google je koristio ovaj algoritam za rane verzije svog pretraživača.

NIPALS algoritam je prikazan na slici ispod.

Procjene koeficijenta matrice T se zatim izračunavaju kao T=XW, a koeficijenti parcijalne regresije kvadrata B od Y do X se izračunavaju kao B=WQ. Alternativna metoda procjene za djelomične dijelove regresije najmanjih kvadrata može se opisati kako slijedi.

Metoda glavne komponente je alat za određivanje glavnih osa varijanse u skupu podataka i olakšava istraživanje ključnih varijabli podataka. Pravilno primijenjena, metoda je jedna od najmoćnijih u alatima za analizu podataka.

U ovom članku želio bih govoriti o tome kako tačno funkcionira analiza glavnih komponenti (PCA) sa stanovišta intuicije koja stoji iza njenog matematičkog aparata. Najjednostavnije moguće, ali detaljnije.

Matematika je općenito vrlo lijepa i elegantna nauka, ali ponekad se njena ljepota krije iza gomile slojeva apstrakcije. Ovu ljepotu je najbolje pokazati jednostavnim primjerima, koji se, da tako kažem, mogu uvijati, igrati i dodirivati, jer na kraju sve ispadne mnogo jednostavnije nego što se čini na prvi pogled - najvažnije je razumjeti i zamisli.

U analizi podataka, kao iu svakoj drugoj analizi, ponekad je korisno stvoriti pojednostavljeni model koji opisuje stvarno stanje stvari što je preciznije moguće. Često se dešava da su znakovi prilično ovisni jedan o drugom i da je njihovo istovremeno prisustvo suvišno.

Na primjer, naša potrošnja goriva se mjeri u litrama na 100 km, au SAD-u u miljama po galonu. Količine su na prvi pogled različite, ali u stvari striktno zavise jedna od druge. Ima 1600 km u milji i 3,8 litara u galonu. Jedan znak striktno zavisi od drugog, poznavajući jedan, znamo i drugi.

Ali mnogo češće se dešava da znakovi ne zavise jedni od drugih tako strogo i (što je važno!) ne tako jasno. Veličina motora općenito pozitivno utječe na ubrzanje do 100 km/h, ali to nije uvijek istina. A takođe se može ispostaviti da, uzimajući u obzir faktore koji nisu vidljivi na prvi pogled (poput poboljšanog kvaliteta goriva, upotrebe lakših materijala i drugih savremenih dostignuća), godina automobila nije mnogo, ali takođe utiče njegovo ubrzanje.

Poznavajući zavisnosti i njihovu snagu, možemo izraziti nekoliko znakova kroz jedan, spojiti ih zajedno, da tako kažem, i raditi sa jednostavnijim modelom. Naravno, najvjerovatnije neće biti moguće izbjeći gubitak informacija, ali PCA metoda će nam pomoći da ga minimiziramo.

Strogo govoreći, ova metoda aproksimira n-dimenzionalni oblak opažanja elipsoidu (također n-dimenzionalnom), čije će polu-ose biti buduće glavne komponente. A kada se projektuje na takve ose (redukcija dimenzija), čuva se najveća količina informacija.

Korak 1. Priprema podataka

Ovdje, radi jednostavnosti primjera, neću uzimati prave skupove podataka za obuku za desetine karakteristika i stotine zapažanja, već ću napraviti svoj vlastiti, što jednostavniji, primjer igračke. 2 znaka i 10 zapažanja bit će sasvim dovoljni da opiše šta se, i najvažnije, zašto se događa u utrobi algoritma.

Hajde da generišemo uzorak:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) print X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.]

U ovom uzorku imamo dvije karakteristike koje su u snažnoj korelaciji jedna s drugom. Koristeći PCA algoritam, lako možemo pronaći kombinaciju svojstava i, po cijenu neke informacije, izraziti obje ove karakteristike jednom novom. Dakle, hajde da saznamo!

Počnimo sa malo statistike. Podsjetimo da se momenti koriste za opisivanje slučajne varijable. Trebamo - mat. očekivanja i varijanse. Možemo reći taj otirač. očekivanje je "težište" količine, a varijansa su njene "dimenzije". Grubo rečeno, mat. očekivanje specificira poziciju slučajne varijable, a varijansa specificira njenu veličinu.

Sam proces projekcije na vektor ni na koji način ne utječe na prosječne vrijednosti, jer kako bi se minimizirao gubitak informacija, naš vektor mora proći kroz centar našeg uzorka. Stoga, nema razloga za brigu ako centriramo naš uzorak - linearno ga pomjeramo tako da prosječne vrijednosti karakteristika budu jednake 0. Ovo će uvelike pojednostaviti naše daljnje proračune (iako je vrijedno napomenuti da možemo učiniti bez centriranja).
Operator, inverzna vrijednost pomaka bit će jednaka vektoru originalnih prosjeka - bit će potrebno da se uzorak vrati u originalnu dimenziju.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Mean vector: ", m OUT: (array([ -4.5, -1,5, -0,5, 0,5, 1,5, 2,5, 3,5, 4,5]), niz ([- 8.44644233, -8.93314426, -2.56723136, 1.01013491, 7.00558491, 0.58413491, 4.21440647, 9.59501658])) Srednji vektor : (5.5, 10.314393916)

Varijanca jako zavisi od redova veličine slučajne varijable, tj. osjetljiv na skaliranje. Stoga, ako se jedinice mjerenja karakteristika uvelike razlikuju po svom redoslijedu, preporučljivo je standardizirati ih. U našem slučaju vrijednosti se ne razlikuju mnogo po redoslijedu, pa zbog jednostavnosti primjera nećemo izvoditi ovu operaciju.

Korak 2. Matrica kovarijanse

U slučaju višedimenzionalne slučajne varijable (slučajni vektor), pozicija centra će i dalje biti mat. očekivanja njegovih projekcija na osu. Ali da bismo opisali njegov oblik, samo njegova disperzija duž osi više nije dovoljna. Pogledajte ove grafikone, sve tri slučajne varijable imaju ista očekivanja i varijansu, a njihove projekcije na osi će općenito biti iste!

Za opisivanje oblika slučajnog vektora potrebna je matrica kovarijanse.

Ovo je matrica koja (i,j)-element je korelacija karakteristika (X i , X j). Zapamtite formulu kovarijanse:

U našem slučaju, to je pojednostavljeno, budući da je E(X i) = E(X j) = 0:

Imajte na umu da kada je X i = X j:

i to važi za sve slučajne varijable.

Dakle, u našoj matrici duž dijagonale će postojati varijanse karakteristika (jer je i = j), a u preostalim ćelijama će biti kovarijanse odgovarajućih parova karakteristika. A zbog simetrije kovarijanse, matrica će također biti simetrična.

komentar: Matrica kovarijanse je generalizacija varijanse na slučaj višedimenzionalnih slučajnih varijabli - ona također opisuje oblik (raspršenost) slučajne varijable, baš kao i varijansa.

Zaista, varijansa jednodimenzionalne slučajne varijable je matrica kovarijanse 1x1, u kojoj je njen jedini pojam dat formulom Cov(X,X) = Var(X).

Dakle, hajde da formiramo matricu kovarijanse Σ za naš uzorak. Da bismo to učinili, izračunavamo varijanse X i i X j , kao i njihovu kovarijansu. Možete koristiti gornju formulu, ali pošto smo naoružani Pythonom, grijeh je ne koristiti funkciju numpy.cov(X). Uzima kao ulaz listu svih karakteristika slučajne varijable i vraća njenu matricu kovarijanse i gdje je X n-dimenzionalni slučajni vektor (n-broj redova). Funkcija je odlična za izračunavanje nepristrasne varijanse, za kovarijansu dvije veličine i za sastavljanje matrice kovarijanse.
(Podsjetite se da je u Pythonu matrica predstavljena nizom-kolona redova niza.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Varijanca X: ", np.cov(Xcentered) print "Varijanca Y: ", np.cov(Xcentered) print "Kovarijansa X i Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]]

Korak 3. Vlasnički parovi i svojstveni parovi

U redu, dobili smo matricu koja opisuje oblik naše slučajne varijable, iz koje možemo dobiti njene dimenzije u x i y (tj. X 1 i X 2), kao i približan oblik na ravni. Sada moramo pronaći takav vektor (u našem slučaju samo jedan), koji bi maksimizirao veličinu (varijansu) projekcije našeg uzorka na njega.

komentar: Generalizacija varijanse na više dimenzije je matrica kovarijanse, a dva koncepta su ekvivalentna. Kada se projicira na vektor, varijansa projekcije je maksimizirana, a kada se projektuje na prostore višeg reda, njegova cijela matrica kovarijanse je maksimizirana.

Dakle, uzmimo jedinični vektor na koji ćemo projektovati naš slučajni vektor X. Tada će projekcija na njega biti jednaka v T X. Varijanca projekcije na vektor će biti jednaka Var(v T X), respektivno. Općenito, u vektorskom obliku (za centrirane veličine), varijansa se izražava na sljedeći način:

Prema tome, varijansa projekcije je:

Lako je vidjeti da je varijansa maksimizirana na maksimalnoj vrijednosti v T Σv. Ovdje će nam pomoći Rayleighova relacija. Ne ulazeći previše duboko u matematiku, samo ću reći da Rayleighova relacija ima poseban slučaj za matrice kovarijanse:

Posljednja formula bi trebala biti poznata iz teme dekompozicije matrice na svojstvene vektore i vrijednosti. x je svojstveni vektor i λ je svojstvena vrijednost. Broj vlastitih vektora i vrijednosti jednak je veličini matrice (i vrijednosti se mogu ponoviti).

Inače, na engleskom se nazivaju svojstvene vrijednosti i vektori sopstvene vrijednosti I sopstveni vektori respektivno.
Mislim da zvuči mnogo ljepše (i sažetije) od naših pojmova.

Dakle, smjer maksimalne disperzije projekcije uvijek se poklapa sa sopstvenim vektorom koji ima maksimalnu svojstvenu vrijednost jednaku vrijednosti ove disperzije.

A to vrijedi i za projekcije na više dimenzija - varijansa (matrica kovarijanse) projekcije na m-dimenzionalni prostor će biti maksimalna u smjeru m svojstvenih vektora koji imaju maksimalne vlastite vrijednosti.

Dimenzija našeg uzorka je jednaka dva, a broj svojstvenih vektora u njemu je 2. Nađimo ih.

Biblioteka numpy implementira funkciju numpy.linalg.eig(X), gdje je X kvadratna matrica. Vraća 2 niza - niz svojstvenih vrijednosti i niz svojstvenih vektora (vektora stupaca). I vektori su normalizovani - njihova dužina je jednaka 1. Baš ono što vam treba. Ova 2 vektora definiraju novu osnovu za uzorak, tako da se njegove ose poklapaju sa poluosama aproksimirajuće elipse našeg uzorka.

Na ovom grafikonu smo naš uzorak aproksimirali elipsom poluprečnika 2 sigma (tj. trebalo bi da sadrži 95% svih opservacija - što je, u principu, ono što ovdje promatramo). Invertirao sam veći vektor (funkcija eig(X) ga je obrnula) - brinemo o smjeru, a ne o orijentaciji vektora.

Korak 4 Dimenzionalna redukcija (projekcija)

Najveći vektor ima smjer sličan regresijskoj liniji, a projektiranjem našeg uzorka na njega, izgubit ćemo informaciju uporedivu sa zbirom preostalih članova regresije (samo je udaljenost sada euklidska, a ne delta u Y). U našem slučaju, ovisnost između karakteristika je vrlo jaka, tako da će gubitak informacija biti minimalan. "Cijena" projekcije - varijansa u odnosu na manji svojstveni vektor - kao što možete vidjeti iz prethodnog grafikona, vrlo je mala.

komentar: dijagonalni elementi matrice kovarijanse pokazuju varijanse u odnosu na originalnu bazu, a njene vlastite vrijednosti – na novu (glavne komponente).

Često je potrebno procijeniti količinu izgubljenih (i sačuvanih) informacija. Najbolje je to izraziti u procentima. Uzimamo varijanse duž svake od osi i dijelimo ih sa ukupnim zbirom varijansi duž osi (tj. zbirom svih svojstvenih vrijednosti matrice kovarijanse).
Dakle, naš veći vektor opisuje 45,994 / 46,431 * 100% = 99,06%, a manji, respektivno, približno 0,94%. Odbacivanjem manjeg vektora i projektovanjem podataka na veći, gubimo manje od 1% informacija! Odličan rezultat!

komentar: U praksi, u većini slučajeva, ako ukupni gubitak informacija nije veći od 10-20%, onda možete sigurno smanjiti dimenziju.

Za izvođenje projekcije, kao što je ranije spomenuto u koraku 3, potrebno je izvršiti operaciju v T X (vektor mora biti dužine 1). Ili, ako nemamo jedan vektor, već hiperravninu, onda umjesto vektora v T uzimamo matricu baznih vektora V T . Rezultirajući vektor (ili matrica) će biti niz projekcija naših zapažanja.

V = (-vecs, -vecs) Xnew = dot(v,Xcentered)

tačka (X,Y)- proizvod pojam po član (ovako množimo vektore i matrice u Pythonu)

Lako je vidjeti da vrijednosti projekcije odgovaraju slici na prethodnom grafikonu.

Korak 5. Oporavak podataka

Pogodno je raditi sa projekcijom, graditi hipoteze na njenoj osnovi i razvijati modele. Ali neće uvijek dobijene glavne komponente imati jasno, strancima razumljivo značenje. Ponekad je korisno dekodirati, na primjer, otkrivene izvanredne vrijednosti da se vidi koliko vrijede njihova zapažanja.

Vrlo je jednostavno. Posjedujemo sve potrebne informacije, odnosno koordinate baznih vektora u originalnoj bazi (vektori na koje smo projektovali) i vektor prosjeka (za necentriranje). Uzmite, na primjer, najveću vrijednost: 10,596 ... i dekodirajte je. Da bismo to učinili, pomnožimo ga s desne strane transponiranim vektorom i dodamo vektor prosjeka, ili općenito za cijeli uzorak: X T v T +m

Xrestored = dot(Xnew,v) + m print "Vraćeno: ", Xrestored print "Original: ", X[:,9] OUT: Vraćeno: [ 10.13864361 19.84190935] Original: [ 10. 19.9094105]

Razlika je mala, ali postoji. Na kraju krajeva, izgubljene informacije se ne mogu povratiti. Međutim, ako je jednostavnost važnija od tačnosti, oporavljena vrijednost dobro se približava izvornoj vrijednosti.

Umjesto zaključka, provjerite algoritam

Dakle, analizirali smo algoritam, pokazali kako radi na primjeru igračke, sada ostaje samo da ga uporedimo sa PCA implementiranim u sklearnu - na kraju krajeva, mi ćemo ga koristiti.

Iz sklearn.decomposition import PCA pca = PCA(n_components = 1) XPCAreduced = pca.fit_transform(transpose(X))

Parametar n_components označava broj dimenzija na koje će biti napravljena projekcija, odnosno na koliko dimenzija želimo da smanjimo naš skup podataka. Drugim riječima, ovo je n vlastitih vektora sa najvećim svojstvenim vektorima. Provjerimo rezultat smanjenja dimenzija:

Ispis "Naš snižen X: N", XNew Print "SKLERN Smanjeni X: N", XPcareDuct: Naš smanjeni X: [-9.56404106 -9482223858421262 0.39338597333492 7.39307974 5.3212742 10.59672425] SKLEDERN Smanjena X: [[-9.56404106 ] [ -9,02021625] [ -5,52974822] [ -2,96481262] [ 0,68933859] [ 0,74406645] [ 2,33433492] [ 7,39307934] [ 7,39307934] [ 7,39307934] [ 27.5]

Rezultat smo vratili kao matricu vektora kolona zapažanja (ovo je kanoničkije sa stanovišta linearne algebre), dok PCA u sklearnu vraća vertikalni niz.

U principu, ovo nije kritično, samo treba napomenuti da je u linearnoj algebri kanonično pisati matrice kroz vektore stupaca, a u analizi podataka (i drugim oblastima vezanim za bazu podataka) zapažanja (transakcije, zapisi) se obično pišu u redove.

Provjerimo ostale parametre modela - funkcija ima niz atributa koji vam omogućavaju pristup srednjim varijablama:

Srednji vektor: podlo_
- Vektor projekcije (matrica): komponente_
- Disperzija osi projekcije (selektivno): objašnjeno_varijance_
- Udio informacija (udio ukupne varijanse): objašnjeno_omjer_varijance_

komentar: objašnjeno_varijance_ pokazuje selektivno varijansu, dok funkcija cov() za izgradnju matrice kovarijanse izračunava nepristrasan disperzija!

Uporedimo vrijednosti koje smo dobili sa vrijednostima funkcije biblioteke.

Ispiši "Srednji vektor: ", pca.mean_, m ispiši "Projekcija: ", pca.components_, v ispiši "Objašnjeni omjer varijance: ", pca.explained_variance_ratio_, l/sum(l) OUT: Srednja vrijednost vektora: [ 5,5 10,31439392] (5,5, 10.314393916) Projection: [[0.43774316 0.89910006]] (0.43774316434772387, 0.89910006232167594) Objašnjena varijanta: [41.39455058] 45.9939450918 Objašnjeni omjer varijacije: [0.99058588] 0,99585888838

Jedina razlika je u varijansama, ali kao što je spomenuto, koristili smo funkciju cov() koja koristi nepristrasnu varijansu, dok atribut objašnjena_variance_ vraća uzorkovanu varijansu. Razlikuju se samo po tome što se prvi dijeli sa (n-1) da bi se dobilo očekivanje, a drugi dijeli sa n. Lako je provjeriti da je 45,99 ∙ (10 - 1) / 10 = 41,39.

Sve ostale vrijednosti su iste, što znači da su naši algoritmi ekvivalentni. I na kraju, napominjem da atributi algoritma biblioteke imaju manju točnost, jer je vjerojatno optimiziran za brzinu, ili jednostavno zaokružuje vrijednosti radi praktičnosti (ili imam neke greške).

komentar: metoda biblioteke automatski projektuje na osi koje maksimiziraju varijansu. Ovo nije uvijek racionalno. Na primjer, na ovoj slici, netočno smanjenje dimenzije će dovesti do činjenice da će klasifikacija postati nemoguća. Međutim, projektovanje na manji vektor će uspešno smanjiti dimenzionalnost i sačuvati klasifikator.

Dakle, razmotrili smo principe PCA algoritma i njegovu implementaciju u sklearnu. Nadam se da je ovaj članak bio dovoljno jasan za one koji tek počinju da se upoznaju sa analizom podataka, a i barem malo informativan za one koji dobro poznaju ovaj algoritam. Intuitivna prezentacija je izuzetno korisna za razumijevanje načina rada metode, a razumijevanje je vrlo važno za ispravno postavljanje odabranog modela. Hvala na pažnji!

P.S.: Molimo da ne grdite autora zbog mogućih netačnosti. Sam autor je u procesu upoznavanja sa analizom podataka i želi da pomogne onima poput njega u procesu savladavanja ovog nevjerovatnog polja znanja! Ali konstruktivna kritika i različita iskustva su dobrodošli!

Metoda glavne komponente(PCA - Analiza glavne komponente) je jedan od glavnih načina da se smanji dimenzija podataka uz najmanji gubitak informacija. Izumio ga je 1901. Karl Pearson, a naširoko se koristi u mnogim područjima. Na primjer, za kompresiju podataka, "kompjuterski vid", vidljivo prepoznavanje uzoraka, itd. Proračun glavnih komponenti svodi se na izračunavanje svojstvenih vektora i svojstvenih vrijednosti matrice kovarijanse originalnih podataka. Metoda glavne komponente se često naziva Karhunen-Löwe transformacija(Karhunen-Loeve transformacija) ili Hotelling transform(Transformacija hotela). Matematičari Kosambi (1943), Pugačev (1953) i Obukhova (1954) takođe su radili na ovom pitanju.

Problem analize glavnih komponenti ima za cilj aproksimaciju (približnih) podataka linearnim mnogostrukostima niže dimenzije; pronaći podprostore niže dimenzije, u ortogonalnoj projekciji na kojima je širenje podataka (tj. standardna devijacija od srednje vrijednosti) maksimalno; pronaći podprostore niže dimenzije, u ortogonalnoj projekciji na koje je srednja kvadratna udaljenost između tačaka maksimalna. U ovom slučaju se radi sa konačnim skupovima podataka. Oni su ekvivalentni i ne koriste nikakve hipoteze o generisanju statističkih podataka.

Osim toga, zadatak analize glavnih komponenti može biti cilj konstruiranja za datu višedimenzionalnu slučajnu varijablu takve ortogonalne transformacije koordinata da će, kao rezultat, nestati korelacije između pojedinačnih koordinata. Ova verzija radi sa slučajnim varijablama.

Fig.3

Gornja slika prikazuje tačke P i na ravni, p i je rastojanje od P i do prave AB. Tražimo pravu liniju AB koja minimizira zbir

Metoda glavnih komponenti započela je problemom najbolje aproksimacije (aproksimacije) konačnog skupa tačaka pravim linijama i ravnima. Na primjer, dat je konačan skup vektora. Za svaki k = 0,1,...,n ? 1 među svim k-dimenzionalnim linearnim mnogostrukostima u pronalaženju tako da je zbroj kvadrata odstupanja x i od L k minimalan:

gdje? Euklidska udaljenost od tačke do linearne mnogostrukosti.

Bilo koji k-dimenzionalni linearni mnogostrukost u može se definirati kao skup linearnih kombinacija, gdje parametri u i prolaze kroz realnu liniju, eh? ortonormirani skup vektora

gdje je euklidska norma, ? Euklidski tačkasti proizvod, ili u koordinatnom obliku:

Rješenje aproksimacijskog problema za k = 0,1,...,n ? 1 je dat skupom ugniježđenih linearnih mnogostrukosti

Ove linearne mnogostrukosti su definirane ortonormiranim skupom vektora (vektora glavnih komponenti) i vektorom a 0 . Vektor a 0 se traži kao rješenje problema minimizacije za L 0:

Rezultat je srednja vrijednost uzorka:

Francuski matematičar Maurice Frechet Frechet Maurice René (09.02.1878. - 06.04.1973.) je izvanredan francuski matematičar. Radio je u oblasti topologije i funkcionalne analize, teorije vjerovatnoće. Autor savremenih koncepata metričkog prostora, kompaktnosti i potpunosti. Auth. 1948. primijetio je da je varijaciona definicija srednje vrijednosti kao tačke koja minimizira zbir kvadrata udaljenosti do tačaka podataka vrlo zgodna za konstruiranje statistike u proizvoljnom metričkom prostoru, te je izgradio generalizaciju klasične statistike za opšte prostore, nazvanu generalizirana metoda najmanjih kvadrata.

Vektori glavnih komponenti mogu se naći kao rješenja za slične probleme optimizacije:

1) centralizirajte podatke (oduzmite prosjek):

2) pronaći prvu glavnu komponentu kao rešenje problema;

3) Od podataka oduzmite projekciju na prvu glavnu komponentu:

4) pronaći drugu glavnu komponentu kao rješenje problema

Ako rješenje nije jedinstveno, odaberite jedno od njih.

2k-1) Oduzmite projekciju na (k ? 1)-tu glavnu komponentu (zapamtite da su projekcije na prethodne (k ? 2) glavne komponente već oduzete):

2k) pronađite k-tu glavnu komponentu kao rješenje problema:

Ako rješenje nije jedinstveno, odaberite jedno od njih.

Rice. 4

Prva glavna komponenta maksimizira varijansu uzorka projekcije podataka.

Na primjer, recimo da nam je dat centrirani skup vektora podataka gdje je aritmetička sredina x i nula. Zadatak? pronaći takvu ortogonalnu transformaciju u novi koordinatni sistem za koji bi bili istiniti sljedeći uvjeti:

1. Varijanca uzorka podataka duž prve koordinate (glavne komponente) je maksimalna;

2. Varijanca uzorka podataka duž druge koordinate (druga glavna komponenta) je maksimalna pod uslovom ortogonalnosti na prvu koordinatu;

3. Disperzija uzorka podataka duž vrijednosti k-te koordinate je maksimalna pod uslovom ortogonalnosti na prvi k ? 1 koordinate;

Uzorak varijanse podataka duž pravca zadanog normalizovanim vektorom a k je

(jer su podaci centrirani, varijansa uzorka je ista kao srednja kvadratna devijacija od nule).

Rješavanje problema najboljeg uklapanja daje isti skup glavnih komponenti kao i pronalaženje ortogonalnih projekcija s najvećim rasipanjem, iz vrlo jednostavnog razloga:

a prvi član ne zavisi od a k .

Matrica konverzije podataka u glavne komponente izgrađena je od vektora "A" glavnih komponenti:

Ovdje su a i ortonormirani vektori stupaca glavnih komponenti raspoređeni u opadajućem redoslijedu vlastitih vrijednosti, superscript T znači transpoziciju. Matrica A je ortogonalna: AA T = 1.

Nakon transformacije, većina varijacija podataka bit će koncentrisana u prvim koordinatama, što omogućava odbacivanje preostalih i razmatranje prostora smanjene dimenzije.

Najstarija metoda odabira glavne komponente je Kajzerovo pravilo, Kajzer Johan Henrih Gustav (Kaiser Johann Henrich Gustav, 16.03.1853, Brezno, Pruska - 14.10.1940, Nemačka) - izvanredni nemački matematičar, fizičar, istraživač u oblasti spektralne analize. Auth. prema kojem su one glavne komponente značajne za koje

odnosno l i prelazi srednju vrijednost l (srednja uzorkovana varijansa koordinata vektora podataka). Kaiserovo pravilo dobro funkcionira u jednostavnim slučajevima gdje postoji nekoliko glavnih komponenti sa l i koje su mnogo veće od srednje vrijednosti, a ostale vlastite vrijednosti su manje od nje. U složenijim slučajevima može dati previše značajnih glavnih komponenti. Ako se podaci normaliziraju na varijansu jediničnog uzorka duž osa, onda Kaiserovo pravilo poprima posebno jednostavan oblik: značajne su samo one glavne komponente za koje je l i > 1.

Jedan od najpopularnijih heurističkih pristupa procjeni broja potrebnih glavnih komponenti je pravilo slomljenog štapa, kada se skup svojstvenih vrijednosti normaliziranih na jedinični zbir (, i = 1,...n) uporedi sa distribucijom dužina fragmenata štapa jedinične dužine slomljenog na n ? 1. nasumično odabrana tačka (tačke loma se biraju nezavisno i jednako su raspoređene po dužini štapa). Ako su L i (i = 1,...n) dužine dobijenih komada trske, numerisane u opadajućem redosledu dužine: , tada je očekivanje L i:

Razmotrimo primjer koji se sastoji u procjeni broja glavnih komponenti prema pravilu slomljene trske u dimenziji 5.

Rice. pet.

Po pravilu slomljenog štapa, k-ti svojstveni vektor (u opadajućem redoslijedu vlastitih vrijednosti l i) se pohranjuje u listu glavnih komponenti ako

Gornja slika prikazuje primjer za 5-dimenzionalni slučaj:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 \u003d (1/3 + 1/4 + 1/5) / 5;

l 4 \u003d (1/4 + 1/5) / 5; l 5 = (1/5) / 5.

Na primjer, odabrano

0.5; =0.3; =0.1; =0.06; =0.04.

Prema pravilu slomljenog štapa, u ovom primjeru treba ostaviti 2 glavne komponente:

Treba samo imati na umu da pravilo slomljenog štapa podcjenjuje broj značajnih glavnih komponenti.

Nakon projektovanja na prvih k glavnih komponenti c, zgodno je normalizirati na jediničnu (uzorak) varijansu duž osi. Disperzija duž i-te glavne komponente je jednaka), pa je za normalizaciju potrebno odgovarajuću koordinatu podijeliti sa. Ova transformacija nije ortogonalna i ne čuva tačkasti proizvod. Nakon normalizacije, matrica kovarijanse projekcije podataka postaje jedinica, projekcije na bilo koja dva ortogonalna smjera postaju nezavisne vrijednosti, a svaka ortonormalna baza postaje osnova glavnih komponenti (podsjetimo se da normalizacija mijenja odnos ortogonalnosti vektora). Preslikavanje iz početnog prostora podataka u prvih k glavnih komponenti zajedno sa normalizacijom je dato matricom

Upravo se ova transformacija najčešće naziva Karhunen-Loeve transformacija, odnosno sama metoda glavnih komponenti. Ovdje su a i vektori stupaca, a superscript T znači transponiranje.

U statistici, kada se koristi metoda glavnih komponenti, koristi se nekoliko posebnih termina.

Data Matrix, gdje je svaki red vektor prethodno obrađenih podataka (centriran i pravilno normaliziran), broj redova je m (broj vektora podataka), broj kolona je n (dimenzija prostora podataka);

Load Matrix(Učitavanja) , gdje je svaki stupac vektor glavne komponente, broj redova je n (dimenzija prostora podataka), broj kolona je k (broj vektora glavne komponente odabranih za projekciju);

Billing Matrix(rezultati)

gdje je svaki red projekcija vektora podataka na k glavnih komponenti; broj redova - m (broj vektora podataka), broj kolona - k (broj vektora glavnih komponenti odabranih za projekciju);

Z-score matrica(Z rezultati)

gdje je svaki red projekcija vektora podataka na k glavnih komponenti, normalizirana na varijansu jediničnog uzorka; broj redova - m (broj vektora podataka), broj kolona - k (broj vektora glavnih komponenti odabranih za projekciju);

Error Matrix (ostaci) (Greške ili ostaci)

osnovna formula:

Dakle, metoda glavne komponente je jedna od glavnih metoda matematičke statistike. Njegova glavna svrha je da napravi razliku između potrebe proučavanja nizova podataka uz minimalnu njihovu upotrebu.