A sajátértékek jelentése a főkomponens módszerben. A főkomponensek fogalma

Fő összetevők

5.1 A többszörös regresszió és a kanonikus korreláció módszerei a meglévő jellemzőkészlet két részre bontását jelentik. Egy ilyen felosztás azonban korántsem mindig lehet objektíven megalapozott, ezért az indikátorok kapcsolatának elemzéséhez olyan megközelítésekre van szükség, amelyek a jellemzővektor egészének figyelembe vételével járnának. Természetesen az ilyen megközelítések megvalósítása során bizonyos heterogenitás mutatható ki ebben a tulajdonsághalmazban, amikor több változócsoportot objektíven azonosítunk. Egy ilyen csoport szolgáltatásaihoz keresztkorrelációk sokkal magasabb lesz a különböző csoportok mutatóinak kombinációihoz képest. Ez a csoportosítás azonban az adatok objektív elemzésének eredményein, nem pedig a kutató előzetes önkényes megfontolásain fog alapulni.

5.2 Az egyes belüli összefüggések tanulmányozásakor egyetlen készlet m jellemzői


x"= X 1 X 2 X 3 ... X m

ugyanazt a módszert használhatja, mint a többszörös regressziós elemzésben és a kanonikus korrelációk módszerében - új változókat nyerve, amelyek variációja teljes mértékben tükrözi a többváltozós összefüggések meglétét.

Az egyetlen jellemzőhalmaz csoporton belüli kapcsolatainak vizsgálatának célja, hogy azonosítsuk és megjelenítsük e változók korrelatív változásának objektíven létező fő irányait. Ezért ebből a célból bevezethet néhány új Y i változót, amelyek az eredeti X jellemzőkészlet lineáris kombinációiként találhatók meg.

Y 1 = b 1"X= b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1 m X m

Y 2 = b 2"X= b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2 m X m

Y 3 = b 3"X= b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3 m X m (5,1)

... ... ... ... ... ... ...

Y m = b m "X= b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

és számos kívánatos tulajdonsággal rendelkezik. A határozottság kedvéért legyen az új jellemzők száma egyenlő az eredeti mutatók számával (m).

Az egyik ilyen kívánatos optimális tulajdonság lehet az új változók kölcsönös összefüggéstelensége, azaz átlós alakja. kovariancia mátrix

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

Sy= 0 0 s y3 2 ... 0, (5.2)

... ... ... ... ...

0 0 0 … s ym 2

ahol s yi 2 az i-edik új jellemző Y i varianciája. Az új változók korrelálatlansága a nyilvánvaló kényelem mellett egy fontos tulajdonsággal is rendelkezik - minden új Y i jellemző csak a független részét veszi figyelembe az eredeti X mutatók változékonyságára és korrelációjára vonatkozó információknak.

Az új jelek második szükséges tulajdonsága a kezdeti mutatók változásának rendezett elszámolása. Tehát az első új Y 1 változó vegye figyelembe az X jellemzők teljes variációjának maximális hányadát. Ez, amint később látni fogjuk, megegyezik azzal a követelménnyel, hogy Y 1 a lehető legnagyobb s y1 2 szórással rendelkezzen. Az (1.17) egyenlőséget figyelembe véve ez a feltétel így írható fel

s y1 2 = b 1 "Sb 1= max , (5,3)

ahol S- X kezdeti jellemzők kovarianciamátrixa, b 1- b 11 , b 12 , b 13 , ..., b 1m együtthatókat tartalmazó vektor, amellyel X 1 , X 2 , X 3 , ..., X m értékével megkaphatjuk a Y 1 .

Legyen a második új Y 2 változó írja le a teljes variáció azon komponensének azt a maximális részét, amely az első új Y 1 jellemző variabilitásának legnagyobb részarányának figyelembevétele után megmaradt. Ennek eléréséhez a feltétel teljesítése szükséges

s y2 2 = b 2 "Sb 2= max , (5,4)

nulla kapcsolatnál Y 1 Y 2 -vel (azaz r y1y2 = 0) és s y1 2 > s y2 2 -nél.

Hasonlóképpen a harmadik új Y 3 jellemzőnek az eredeti jellemzők variációjának harmadik legfontosabb részét kell leírnia, amelyre a varianciája szintén maximális legyen.

s y3 2 = b 3 "Sb 3= max , (5,5)

feltéve, hogy Y 3 nem korrelál az első két új jellemzővel, Y 1 és Y 2 (azaz r y1y3 = 0, r y2y3 = 0) és s y1 2 > s y2 > s y3 2 .

Így minden új változó varianciáját nagyságrendi sorrend jellemzi

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Vektorok az (5.1) képletből b 1 , b 2 , b 3 , ..., b m , amelynek segítségével az új Y i változókra való átállást kell végrehajtani, felírható mátrix formájában.


B = b 1 b 2 b 3 ... b m . (5.7)

Átmenet a kezdeti jellemzők halmazáról xúj változók halmazához Y mátrixképletként ábrázolható

Y = B" X , (5.8)

és az új jellemzők kovarianciamátrixának megszerzése és a korrelálatlan új változók feltételének (5.2) elérése az (1.19) képlet szerint ábrázolható:

B"SB= Sy , (5.9)

ahol az új változók kovarianciamátrixa Syösszefüggéstelenségük miatt átlós alakú. A mátrixelméletből (szakasz A.25 A) függelék ismert, hogy valamilyen szimmetrikus mátrixra kapott A sajátvektorok u iés számok l i és

mátrixokat hívva belőlük UÉs L, az (A.31) képletnek megfelelően az eredményt megkaphatjuk

U "AU= L ,

ahol L egy átlós mátrix, amely tartalmazza a szimmetrikus mátrix sajátértékeit A. Könnyen belátható, hogy az utolsó egyenlőség teljesen egybeesik az (5.9) képlettel. Ezért a következő következtetés vonható le. Az új változók kívánatos tulajdonságai Y biztosítható, ha a vektorok b 1 , b 2 , b 3 , ..., b m , amelynek segítségével ezekre a változókra való átmenetet végre kell hajtani, a kezdeti jellemzők kovarianciamátrixának sajátvektorai lesznek S. Ekkor az s yi 2 új jellemzők diszperziói sajátértékek lesznek

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Azokat az új változókat, amelyekre az (5.1) és (5.8) képletek szerinti átmenetet az eredeti jellemzők kovarianciamátrixának sajátvektorai segítségével hajtjuk végre, főkomponenseknek nevezzük. Tekintettel arra, hogy a kovarianciamátrix sajátvektorainak száma általában egyenlő m-vel - ennek a mátrixnak a kezdeti jellemzőinek száma, a főkomponensek száma is egyenlő m-vel.

A mátrixok elméletével összhangban a kovarianciamátrix sajátértékeinek és vektorainak megtalálásához meg kell oldani az egyenletet

(S-én én én)b i = 0 . (5.11)

Ennek az egyenletnek van megoldása, ha teljesül az a feltétel, hogy a determináns egyenlő nullával

½ S-én én én½ = 0. (5.12)

Ez a feltétel lényegében egy olyan egyenletnek is bizonyul, amelynek gyökerei a kovarianciamátrix l 1, l 2, l 3, ..., l m sajátértékei, amelyek egyidejűleg egybeesnek a főkomponensek varianciáival. Miután megkaptuk ezeket a számokat, mindegyik i-edikre az (5.11) egyenlet szerint megkaphatjuk a megfelelő sajátvektort bén . A gyakorlatban speciális iteratív eljárásokat alkalmaznak a sajátértékek és vektorok kiszámítására (B. függelék).

Minden sajátvektor felírható mátrixként B, amely egy ortonormális mátrix lesz, így (szakasz A.24 Az A) függelék szerint végezzük el

B"B = bb" = én . (5.13)

Ez utóbbi azt jelenti, hogy bármely sajátvektorpár esetén b i "b j= 0, és minden ilyen vektorra az egyenlőség b i "b i = 1.

5.4 Szemléltessük két X 1 és X 2 kezdeti jellemző legegyszerűbb esetére a főkomponensek származtatását. Ennek a halmaznak a kovarianciamátrixa:

ahol s 1 és s 2 az X 1 és X 2 jellemzők szórása, r pedig a köztük lévő korrelációs együttható. Ekkor az (5.12) feltétel így írható fel

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

5.1. ábra.A főkomponensek geometriai jelentése

A determinánst kibővítve megkaphatjuk az egyenletet

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0,

aminek megoldásával két l 1 és l 2 gyöket kaphatunk. Az (5.11) egyenlet felírható így is


s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Ebbe az egyenletbe behelyettesítve l 1-et, azt kapjuk lineáris rendszer

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1) b 12 = 0,

melynek megoldása az első b 11 és b 12 sajátvektor elemei. A második l 2 gyök hasonló behelyettesítése után megtaláljuk a második b 21 és b 22 sajátvektor elemeit.

5.5 Találjuk ki geometriai jelentése fő összetevők. Ez csak vizuálisan tehető meg két jellemző közül az X 1 és X 2 legegyszerűbb esetében. Jellemezzük őket egy kétdimenziós normális eloszlás a korrelációs együttható pozitív értékével. Ha minden egyedi megfigyelést a jellemzőtengelyek által alkotott síkra alkalmazunk, akkor a hozzájuk tartozó pontok egy bizonyos korrelációs ellipszis belsejében helyezkednek el (5.1. ábra). Az új Y 1 és Y 2 jelek is megjeleníthetők ugyanazon a síkon, mint új tengelyek. A módszer jelentése szerint az X 1 és X 2 jellemzők maximális lehetséges összes szórását figyelembe vevő Y 1 első főkomponensnél a szórásának maximumát kell elérni. Ez azt jelenti, hogy Y 1 esetén ilyet kell találni

tengelyt úgy, hogy az értékek eloszlásának szélessége a legnagyobb legyen. Nyilvánvalóan ez akkor valósul meg, ha ez a tengely egybeesik a korrelációs ellipszis legnagyobb tengelyével. Valóban, ha az egyes megfigyeléseknek megfelelő összes pontot erre a koordinátára vetítjük, akkor a lehető legnagyobb tartománnyal és a legnagyobb szórással rendelkező normális eloszlást kapjuk. Ez lesz az első Y 1 főkomponens egyedi értékeinek eloszlása.

A második Y 2 főkomponensnek megfelelő tengelyt az első tengelyre merőlegesen kell megrajzolni, mivel ez a nem korrelált főkomponensek feltételéből következik. Valóban, ebben az esetben egy új koordinátarendszert kapunk, amelynek Y 1 és Y 2 tengelyei egybeesnek a korrelációs ellipszis tengelyeivel. Látható, hogy a korrelációs ellipszis, ha figyelembe vesszük új rendszer A koordináták Y 1 és Y 2 nem korrelált egyedi értékeket mutatják, míg az eredeti jellemzők értékeinél X 1 és X 2 korreláció volt megfigyelhető.

Az eredeti X 1 és X 2 jellemzőkkel társított tengelyekről az Y 1 és Y 2 főkomponensekre orientált új koordinátarendszerre való átmenet egyenértékű a régi tengelyek valamilyen j szöggel történő elforgatásával. Értékét a képlettel találhatjuk meg

Tg 2j = . (5.14)

Az X 1 és X 2 jellemzők értékeiről a fő komponensekre való átmenetet az analitikai geometria eredményeinek megfelelően hajthatjuk végre a formában

Y 1 \u003d X 1 cos j + X 2 sin j

Y 2 \u003d - X 1 sin j + X 2 cos j.

Ugyanez az eredmény felírható mátrix formában is

Y 1 \u003d cos j sin j X 1 és Y 2 \u003d -sin j cos j X 1,

ami pontosan megfelel az Y 1 = transzformációnak b 1"Xés Y 2 = b 2"X. Más szavakkal,

= B" . (5.15)

Így a sajátvektor mátrixot úgy is lehet tekinteni, mint amely tartalmazza trigonometrikus függvények az a forgásszög, amelyet az eredeti jellemzőkkel társított koordinátarendszerből az új tengelyekre való átlépéshez kell végrehajtani a főkomponensek alapján.

Ha van m kezdeti jellemzőnk X 1, X 2, X 3, ..., X m, akkor a vizsgált mintát alkotó megfigyelések valamilyen m-dimenziós korrelációs ellipszoidon belül helyezkednek el. Ekkor az első főkomponens tengelye egybeesik ennek az ellipszoidnak a legnagyobb tengelyével, a második főkomponens tengelye pedig ennek az ellipszoidnak a második tengelyével, és így tovább. Az X 1, X 2, X 3, ..., X m jellemzők tengelyeihez tartozó eredeti koordinátarendszerről a főkomponensek új tengelyeire való átmenet egyenértékű lesz a régi tengelyek többszöri elforgatásával. j 1 , j 2 , j 3 , .. . szögek és az átmeneti mátrix B off set x a főkomponensek rendszeréhez Y, amely saját szemhéjból áll

tori a kovariancia mátrix, tartalmazza az új szögeinek trigonometrikus függvényeit koordinátatengelyek az eredeti vonások régi tengelyeivel.

5.6 A sajátértékek és vektorok tulajdonságainak megfelelően a kezdeti jellemzők és a főkomponensek kovarianciamátrixainak nyomai egyenlőek. Más szavakkal

tr S= tr S y = tr L (5.16)

s 11 + s 22 + ... + s mm \u003d l 1 + l 2 + ... + l m,

azok. a kovarianciamátrix sajátértékeinek összege egyenlő az összes kezdeti jellemző szórásának összegével. Ezért beszélhetünk a kezdeti jellemzők szórásának valamilyen összértékéről, amely tr-val egyenlő S, és a sajátértékrendszer figyelembe veszi.

Az a tény, hogy az első főkomponens maximális szórása l 1, automatikusan azt jelenti, hogy leírja az eredeti tr jellemzők teljes változásának maximális hányadát is. S. Hasonlóan, a második főkomponensnek van a második legnagyobb szórás l 2 , amely megfelel az eredeti jellemzők teljes variációjának második legnagyobb elszámolt részarányának, és így tovább.

Minden főkomponensnél meg lehet határozni, hogy a kezdeti jellemzők variabilitásának összértékéből mekkora részarányt ír le.

5.7 Nyilvánvalóan az X 1 , X 2 , X 3 , ..., X m kezdeti jellemzők halmazának a tr értékkel mért teljes változásának az ötlete. S, csak akkor van értelme, ha ezeket a jellemzőket azonos mértékegységekben mérjük. Ellenkező esetben össze kell adnia a különböző jellemzők diszperzióit, amelyek egy része milliméter négyzetben, mások kilogramm négyzetben, mások radiánban vagy fokban stb. Ez a nehézség könnyen elkerülhető, ha az X ij jellemzők megnevezett értékeiről áttérünk a normalizált z ij = (X ij - M i) értékekre./ S i ahol M i és S i a számtani közép és az i-edik jellemző szórása. A z normalizált jellemzők nulla átlaggal, mértékegység-szórással rendelkeznek, és nem kapcsolódnak semmilyen mértékegységhez. Kezdeti jellemzők kovarianciamátrixa S korrelációs mátrixsá válik R.

Minden, amit a kovarianciamátrixra talált főkomponensekről mondunk, igaz marad a mátrixra is R. Itt is lehetséges, a korrelációs mátrix sajátvektoraira támaszkodva b 1 , b 2 , b 3 , ..., b m , lépjen a z i kezdeti jellemzőkről az y 1 , y 2 , y 3 , ..., y m fő összetevőkre

y 1 = b 1 "z

y 2 = b 2 "z

y 3 = b 3 "z

y m = b m "z .

Ez az átalakítás kompakt formában is megírható

y = B"z ,

5.2. ábra. A főkomponensek geometriai jelentése két z 1 és z 2 normalizált jellemző esetén

ahol y- főkomponensek értékvektora, B- mátrix, beleértve a sajátvektorokat, z- kezdeti normalizált jellemzők vektora. Az egyenlőség is igaz

B „RB= ... ... … , (5.18)

ahol l 1 , l 2 , l 3 , ..., l m a korrelációs mátrix sajátértékei.

A korrelációs mátrix elemzése során kapott eredmények eltérnek a kovarianciamátrix hasonló eredményeitől. Először is, most már lehetséges a különböző mértékegységekben mért jellemzőket figyelembe venni. Másodszor, a mátrixokhoz talált sajátvektorok és számok RÉs S, szintén különböznek. Harmadszor, a korrelációs mátrix által meghatározott és a z jellemzők normalizált értékei alapján meghatározott főbb komponensek központosítottnak bizonyulnak - pl. nulla középértékekkel.

Sajnos a korrelációs mátrix sajátvektorainak és számainak meghatározása után lehetetlen ezek közül a kovarianciamátrix hasonló vektoraira és számaira lépni. A gyakorlatban a korrelációs mátrixon alapuló főkomponenseket általában univerzálisabbként használják.

5.8 Tekintsük a korrelációs mátrixból meghatározott főkomponensek geometriai jelentését. Két z 1 és z 2 jellemző esete szemléltető itt. Az ezekhez a normalizált jellemzőkhöz tartozó koordinátarendszernek van egy nullapontja a grafikon közepén (5.2. ábra). A korrelációs ellipszis központi pontja,

beleértve az összes egyedi megfigyelést, egybeesik a koordinátarendszer középpontjával. Nyilvánvaló, hogy a legnagyobb variációval rendelkező első főkomponens tengelye egybeesik a korrelációs ellipszis legnagyobb tengelyével, és a második főkomponens koordinátája ennek az ellipszisnek a második tengelye mentén fog orientálódni.

Az eredeti z 1 és z 2 jellemzőkkel társított koordinátarendszerből a főkomponensek új tengelyeire való átmenet egyenértékű az első tengelyek valamilyen j szöggel történő elforgatásával. A normalizált jellemzők szórása 1-gyel egyenlő, és az (5.14) képlet alapján a j elforgatási szög értéke 45 o . Ekkor a sajátvektorok mátrixa, amely ennek a szögnek a trigonometrikus függvényei alapján határozható meg az (5.15) képlet segítségével, egyenlő lesz

Cos j sin j 1 1 1

B" = = .

Sin j cos j (2) 1/2 -1 1

A kétdimenziós eset sajátértékeinek értékei is könnyen megtalálhatók. Az (5.12) feltétel a következőnek bizonyul

amely megfelel az egyenletnek

l 2 - 2l + 1 - r 2 \u003d 0,

amelynek két gyökere van

l 1 = 1 + r (5,19)

Így a korrelációs mátrix fő komponensei két normalizált jellemzőre nagyon egyszerű képletekkel kereshetők meg

Y 1 = (z 1 + z 2) (5,20)

Y 2 \u003d (z 1 - z 2)

Számtani átlaguk nulla, szórása pedig egyenlő

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 A sajátértékek és vektorok tulajdonságainak megfelelően a kezdeti jellemzők korrelációs mátrixának és a sajátértékek mátrixának nyomai egyenlőek. Az m normalizált jellemzők teljes variációja egyenlő m-rel. Más szavakkal

tr R= m = tr L (5.21)

l 1 + l 2 + l 3 + ... + l m = m .

Ekkor az i-edik főkomponens által leírt kezdeti jellemzők összvariációjának részesedése egyenlő

Bevezetheti a P cn fogalmát is - az eredeti jellemzők teljes variációjának részesedése, amelyet az első n főkomponens ír le,

n l 1 + l 2 + ... + l n

P cn = S P i =. (5.23)

Az a tény, hogy a sajátértékeknél létezik egy l 1 > l 2 > > l 3 > ... > l m alakú sorrend, azt jelenti, hogy hasonló összefüggések lesznek jellemzőek a variáció fő komponensei által leírt részesedésekre is.

P 1 > P 2 > P 3 > ... > P m . (5.24)

Az (5.24) tulajdonság a P сn felhalmozott részesedés n-től való függésének sajátos formáját vonja maga után (5.3. ábra). Ebben az esetben az első három fő komponens írja le a jellemzők változékonyságának fő részét. Ez azt jelenti, hogy gyakran néhány első főkomponens együttesen a jellemzők teljes variációjának 80-90%-át teheti ki, míg minden további főkomponens nagyon kis mértékben növeli ezt az arányt. Ezután további megfontolásra és értelmezésre csak ez a néhány első főkomponens használható bizalommal, hogy leírják a csoporton belüli variabilitás és korreláció legfontosabb mintázatait.

5.3. ábra. Az n első főkomponenssel leírt P cn jellemzők összvariációja arányának n értékétől való függése. Jellemzők száma m = 9

5.4. ábra. A főkomponensek kiszűrésére vonatkozó kritérium felépítésének meghatározásához

jelek. Ennek köszönhetően a kezelendő informatív új változók száma 2-3-szorosára csökkenthető. Így a fő összetevőknek van még egy fontos és hasznos ingatlan- nagymértékben leegyszerűsítik az eredeti jellemzők variációjának leírását és kompaktabbá teszik azt. A változók számának ilyen csökkentése mindig kívánatos, de az egyes megfigyeléseknek megfelelő pontok kölcsönös elrendezésében bizonyos torzulásokkal jár a néhány első főkomponens terében az eredeti jellemzők m-dimenziós teréhez képest. Ezek a torzulások abból a kísérletből erednek, hogy a jellemzőteret az első főkomponensek terébe szorítják. A matematikai statisztikában azonban bebizonyosodott, hogy az összes olyan módszer közül, amelyek jelentősen csökkenthetik a változók számát, a főkomponensekre való áttérés vezet a legkisebb torzuláshoz a megfigyelések szerkezetében, amely ezzel a csökkenéssel jár.

5.10 A főkomponensek elemzése során fontos kérdés a számuk további megfontolás céljából történő meghatározása. Nyilvánvaló, hogy a főkomponensek számának növekedése megnöveli a figyelembe vett P cn variabilitás kumulatív részarányát, és közelebb viszi 1-hez. Ezzel párhuzamosan csökken a kapott leírás tömörsége. A főkomponensek számának megválasztása, amely egyszerre biztosítja a leírás teljességét és tömörségét, a gyakorlatban alkalmazott különböző szempontok alapján történhet. Felsoroljuk közülük a leggyakoribbakat.

Az első kritérium azon a megfontoláson alapul, hogy a figyelembe vett főkomponensek száma kellően informatív jellegű legyen a leírásban. Más szavakkal, a vizsgált fő összetevőknek le kell írniuk a kezdeti jellemzők teljes variabilitását: 75-90%-ig. A felhalmozott P cn részesedés meghatározott szintjének megválasztása szubjektív marad, és mind a kutató véleményétől, mind a megoldandó problémától függ.

Egy másik hasonló kritérium (a Kaiser-kritérium) lehetővé teszi 1-nél nagyobb sajátértékű főkomponensek felvételét. Ez azon a feltételezésen alapul, hogy az 1 egy normalizált kezdeti jellemző varianciája. Költő-

Ezért az 1-nél nagyobb sajátértékű összes főkomponens bevonása a további vizsgálatba azt jelenti, hogy csak azokat az új változókat vesszük figyelembe, amelyeknek legalább egy eredeti tulajdonság eltérése van. A Kaiser-kritérium nagyon elterjedt, és számos statisztikai adatfeldolgozásra szolgáló szoftvercsomagba beágyazva használják, amikor meg kell adni a figyelembe vett sajátérték minimális értékét, és az alapértelmezett értéket gyakran 1-gyel egyenlőnek veszik.

A Cattell-féle szitálási kritérium elméletileg valamivel jobban alátámasztott. Alkalmazása egy olyan grafikonon alapul, amelyen az összes sajátérték értéke csökkenő sorrendben van ábrázolva (5.4. ábra). A Cattell-kritérium a grafikonon ábrázolt hatáson alapul, a kapott sajátértékek értéksora általában konkáv vonalat ad. Az első néhány sajátérték szintje nem egyenes vonalú csökkenést mutat. Valamely sajátértékből kiindulva azonban ennek a szintnek a csökkenése megközelítőleg egyenes vonalú és meglehetősen enyhe lesz. A főkomponensek figyelembevétele azzal ér véget, amelynek sajátértéke a gráf egyenes vonalú sík szakaszát kezdi. Az 5.4. ábrán tehát a Cattell-kritériumnak megfelelően csak az első három főkomponenst kell figyelembe venni, mert a harmadik sajátérték a gráf egyenes vonalú lapos szakaszának legelején található.

A Cattell-kritérium a következőkön alapul. Ha figyelembe vesszük a normál eloszlású táblázatból mesterségesen nyert m jellemző adatait véletlen számok, akkor számukra a jellemzők közötti összefüggések teljesen véletlenszerűek és közel 0-hoz fognak kerülni. Ha itt megtaláljuk a főkomponenseket, akkor a sajátértékeik nagyságának fokozatos csökkenését észlelhetjük, ami egyenes vonalú. Más szóval, a sajátértékek egyenes vonalú csökkenése azt jelezheti, hogy a megfelelő információk hiányoznak a nem véletlenszerű kapcsolatok jeleinek korrelációjáról.

5.11 A főkomponensek értelmezésekor leggyakrabban sajátvektorokat használnak, amelyeket úgynevezett terhelések - az eredeti jellemzők főkomponensekkel való korrelációs együtthatói - formájában mutatnak be. Sajátvektorok b i kielégítő egyenlőséget (5.18) kapunk normalizált formában, így b i "b i= 1. Ez azt jelenti, hogy az egyes sajátvektorok elemeinek négyzetösszege 1. Azok a sajátvektorok, amelyek elemei terhelések, könnyen megtalálhatók a képlettel

a i= (l i) 1/2 b i . (5.25)

Más szóval, ha a sajátvektor normalizált alakját megszorozzuk sajátértékének négyzetgyökével, megkaphatjuk a megfelelő főkomponens kezdeti jellemzőterheléseinek halmazát. A terhelési vektorok esetében az egyenlőség igaznak bizonyul a i "a i= l i , ami azt jelenti, hogy az i-edik főkomponensre ható terhelések négyzetének összege egyenlő az i-edik sajátértékkel. A számítógépes programok általában terhelések formájában adják ki a sajátvektorokat. Ha szükséges ezeket a vektorokat normalizált formában megszerezni b i ezt egy egyszerű képlettel meg lehet tenni b i = a i/ (l i) 1/2 .

5.12 A sajátértékek és vektorok matematikai tulajdonságai olyanok, hogy a szakasznak megfelelően A.25 Mellékletek Eredeti korrelációs mátrix R formában lehet bemutatni R = BLB", ami úgy is írható

R= l 1 b 1 b 1 "+ l 2 b 2 b 2 "+ l 3 b 3 b 3 "+ ... + lm b m b m " . (5.26)

Megjegyzendő, hogy bármelyik kifejezés l i b i b i ", megfelelő i-edik főösszetevő az négyzetmátrix

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

l i b i b i "= l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im . (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Itt b ij a j-edik eredeti jellemző i-edik sajátvektorának eleme. Egy ilyen l i b ij 2 mátrix bármely átlós tagja a j-edik attribútum variációjának egy része, amelyet az i-edik főkomponens ír le. Ekkor bármely j-edik jellemző varianciája ábrázolható

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

ami az összes főkomponenstől függő járulékok bővülését jelenti.

Hasonlóképpen, az (5.27) mátrix bármely l i b ij b ik nem-diagonális tagja az i-edik főkomponens által figyelembe vett j-edik és k-edik jellemző r jk korrelációs együtthatójának egy bizonyos része. Ekkor ennek az együtthatónak a bővülését összegként írhatjuk fel

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

minden m főkomponens hozzájárulása ahhoz.

Így az (5.28) és (5.29) képletekből jól látható, hogy minden fő komponens leírja az egyes kezdeti jellemzők varianciájának egy bizonyos részét, illetve ezek kombinációinak korrelációs együtthatóját.

Figyelembe véve, hogy a b ij sajátvektorok normalizált alakjának elemei egyszerű összefüggéssel (5.25) viszonyulnak az a ij terhelésekhez, az (5.26) kiterjesztést a terhelések sajátvektoraival is felírhatjuk. R = AA", amely úgy is ábrázolható

R = egy 1 a 1" + a 2 a 2" + a 3 a 3" + ... + a m a m" , (5.30)

azok. mint az m főkomponens mindegyikének hozzájárulásának összege. Ezen hozzájárulások mindegyike a i a i" mátrixként írható fel

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

a i a i"= a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

amelyek átlóira a ij 2 kerül - a j-edik kezdeti jellemző varianciájához való hozzájárulás, és az átlón kívüli a ij a ik elemek - hasonló hozzájárulások a j-edik és k- korrelációs együtthatóhoz. th jellemzői.

Főkomponens módszer vagy alkatrészelemzés(főkomponens-analízis, PCA) az egyik legfontosabb módszer egy zoológus vagy ökológus arzenáljában. Sajnos azokban az esetekben, amikor a komponensanalízis alkalmazása meglehetősen megfelelő, gyakran alkalmazzák a klaszteranalízist.

Egy tipikus feladat, amelyre a komponenselemzés hasznos, a következő: van egy bizonyos objektumkészlet, amelyek mindegyikét bizonyos (elég nagy) számú jellemző jellemez. A kutatókat a tárgyak sokféleségében tükröződő minták érdeklik. Abban az esetben, ha okkal feltételezhető, hogy az objektumok hierarchikusan alárendelt csoportok között vannak elosztva, használhatja a klaszteranalízist - a módszert osztályozás(csoportonkénti megoszlás). Ha nincs okunk arra számítani, hogy valamilyen hierarchia tükröződik az objektumok sokféleségében, akkor logikus felszentelés(megrendelt elrendezés). Ha minden tárgyra elég jellemző egy nagy szám jellemzők (legalábbis olyan sok jellemzőre, amelyeket egy grafikonon nem lehet megfelelően tükrözni) optimális az adatok vizsgálatát a főkomponensek elemzésével kezdeni. Az a tény, hogy ez a módszer egyben az adatok dimenziósságának (mérésszámának) csökkentésének módszere is.

Ha a vizsgált objektumok csoportját egy jellemző értékei jellemzik, akkor a sokszínűség jellemzésére egy hisztogram (folyamatos jellemzők esetén) vagy egy oszlopdiagram (egy diszkrét jellemző gyakoriságának jellemzésére) használható. Ha az objektumokat két jellemző jellemzi, akkor kétdimenziós szórási diagram használható, ha három - háromdimenziós. Mi van, ha sok jel van? Megpróbálhat tükrözni egy kétdimenziós grafikonon kölcsönös megegyezés objektumok egymáshoz képest többdimenziós térben. A dimenzió ilyen csökkenése általában információvesztéssel jár. Az ilyen megjelenítés különféle lehetséges módjai közül azt kell választani, amelynél az információvesztés minimális lesz.

Magyarázzuk meg az elhangzottakat a legegyszerűbb példával: a kétdimenziós térből az egydimenziós térbe való átmenetet. A kétdimenziós teret (síkot) meghatározó pontok minimális száma 3. Az ábrán. A 9.1.1 három pont elhelyezkedését mutatja a síkon. Ezeknek a pontoknak a koordinátái könnyen leolvashatók magáról a rajzról. Hogyan válasszunk olyan egyenest, amely a legtöbb információt hordozza a pontok egymáshoz viszonyított helyzetéről?

Rizs. 9.1.1. Három pont egy két jellemző által meghatározott síkon. Melyik egyenesre vetítjük ezeknek a pontoknak a maximális szórását?

Tekintsük a pontok vetületeit az A egyenesre (kék színnel). Ezeknek a pontoknak az A egyenesre való vetületeinek koordinátái: 2, 8, 10. Az átlagérték 6 2 / 3 . Szórás (2-6 2/3)+ (8-6 2/3)+ (10-6 2/3)=34 2/3 .

Most nézzük a B vonalat (a képen zöldben). Pontkoordináták - 2, 3, 7; az átlagérték 4, a variancia 14. Így a szórás kisebb hányada tükröződik a B egyenesen, mint az A vonalon.

Mi ez a részesedés? Mivel az A és B egyenesek merőlegesek, a teljes variancia A-ra és B-re vetített részei nem metszik egymást. Ez azt jelenti, hogy a számunkra érdekes pontok elhelyezkedésének teljes szórása e két tag összegeként számítható ki: 34 2 / 3 +14=48 2 / 3 . Ugyanakkor a teljes variancia 71,2%-a az A vonalra, 28,8%-a a B sorra vetül.

És hogyan lehet meghatározni, hogy melyik egyenes befolyásolja a szórás maximális arányát? Ez a vonal megfelel az érdekes pontok regressziós egyenesének, amely C-vel (piros) van jelölve. Ez az egyenes a teljes variancia 77,2%-át fogja tükrözni, és ez a maximális lehetséges érték a pontok ilyen elrendezéséhez. Egy ilyen egyenest, amelyre a teljes variancia legnagyobb hányadát vetítjük, nevezzük első fő komponens.

És melyik egyenesen kell tükrözni a teljes variancia fennmaradó 22,8%-át? Az első főkomponensre merőleges egyenesen. Ez a sor lesz egyben a főkomponens is, mert ez a szórás lehető legnagyobb arányát fogja tükrözni (természetesen anélkül, hogy figyelembe vennénk azt, amelyik az első főkomponenst érintette). Szóval ez - második fő komponens.

Miután ezeket a főkomponenseket a Statistica segítségével kiszámítottuk (a párbeszédet kicsit később írjuk le), az ábrán látható képet kapjuk. 9.1.2. A főkomponensek pontjainak koordinátái szórással vannak megadva.


Rizs. 9.1.2. ábrán látható három pont elhelyezkedése. 9.1.1, két főkomponens síkján. Miért helyezkednek el ezek a pontok eltérően egymáshoz képest, mint az ábrán? 9.1.1?

ábrán 9.1.2 a pontok egymáshoz viszonyított helyzete megváltozik. Az ilyen képek jövőbeni helyes értelmezése érdekében mérlegelni kell a pontok elhelyezkedése közötti különbségek okait az ábrán. 9.1.1 és 9.1.2 a részletekért. Az 1. pont mindkét esetben jobbra van (nagyobb a koordinátája az első jellel és az első főkomponenssel), mint a 2. pont. Valamiért azonban a 3. pont a kezdeti helyen a másik két pont alatt van (van legkisebb érték 2. jel), és a főkomponensek síkjának két másik pontja fölött (a második komponensben nagy koordináta van). Ez annak köszönhető, hogy a főkomponensek módszere pontosan optimalizálja az általa választott tengelyekre vetített kiindulási adatok szórását. Ha a főkomponens valamilyen eredeti tengellyel korrelál, akkor a komponens és a tengely irányulhat ugyanabba az irányba (pozitív korrelációja van), vagy ellentétes irányba (negatív korrelációja van). Mindkét lehetőség egyenértékű. A főkomponensek algoritmusa bármely síkot átfordíthatja, vagy nem; ebből nem szabad következtetéseket levonni.

ábra pontjai azonban. A 9.1.2. ábrán látható relatív helyzetükhöz képest nem csak „fejjel lefelé” állnak. 9.1.1; kölcsönös elrendezésük is bizonyos módon változott. A második főkomponens pontjai közötti különbségek fokozódni látszanak. A második komponensnek tulajdonítható teljes variancia 22,76%-a ugyanolyan távolságra „teríti” a pontokat, mint az első főkomponensnek tulajdonítható variancia 77,24%-a.

Ahhoz, hogy a pontok elhelyezkedése a főkomponensek síkján megfeleljen a tényleges helyüknek, ezt a síkot el kellene torzítani. ábrán 9.1.3. két koncentrikus kör látható; sugaruk az első és a második főkomponens által visszavert diszperziók töredékeiként viszonyulnak egymáshoz. ábrának megfelelő kép. 9.1.2, torzítva úgy, hogy szórás az első főkomponens szerint egy nagyobb körnek, a második szerint pedig egy kisebbnek felelt meg.


Rizs. 9.1.3. Figyelembe vettük, hogy az első főkomponens b ról ről a variancia nagyobb hányada, mint a második. Ehhez eltorzítottuk az ábrát. 9.1.2 úgy, hogy két koncentrikus körre illesztjük, amelyek sugarai a főkomponenseknek tulajdonítható eltérések töredékeként viszonyulnak. Ám a pontok elhelyezkedése továbbra sem egyezik az ábrán látható eredetivel. 9.1.1!

És miért van a pontok egymáshoz viszonyított helyzete az ábrán? A 9.1.3 nem egyezik meg az ábrán láthatóval. 9.1.1? Az eredeti ábrán a 2. ábra. A 9.1 pontok koordinátáinak megfelelően helyezkednek el, nem pedig az egyes tengelyekre eső szórások arányai szerint. 1 egységnyi távolság az első jellemzőn (az x tengely mentén) az ábrán. A 9.1.1. pontban a pontok e tengely mentén való eloszlásának kisebb hányada van, mint a második jellemző szerinti 1 egységnyi távolság (az y tengely mentén). A 9.1.1. ábrán pedig a pontok közötti távolságokat pontosan azok az egységek határozzák meg, amelyekben a jellemzőket mérik, amelyekkel leírják azokat.

Bonyolítsuk egy kicsit a feladatot. táblázatban. A 9.1.1 10 pont koordinátáit mutatja 10 dimenziós térben. Az első három pont és az első két dimenzió az imént vizsgált példa.

9.1.1. táblázat. Pontkoordináták a további elemzéshez

Koordináták

Oktatási célból először csak a táblázat adatainak egy részét vesszük figyelembe. 9.1.1. ábrán 9.1.4 tíz pont helyzetét látjuk az első két jellemző síkján. Vegyük észre, hogy az első főkomponens (C sor) kicsit másképp ment, mint az előző esetben. Nem csoda: helyzetét minden figyelembe vett pont befolyásolja.


Rizs. 9.1.4. Növeltük a pontok számát. Az első főkomponens már kicsit más, mert a hozzáadott pontok befolyásolták

ábrán A 9.1.5 az általunk vizsgált 10 pont helyzetét mutatja az első két komponens síkján. Figyeljük meg, hogy minden megváltozott, nemcsak az egyes főkomponensekre eső szórásnégyzet, hanem még az első három pont helyzete is!


Rizs. 9.1.5. Táblázatban leírt 10 pont első főkomponenseinek ordinációja. 9.1.1. Csak az első két jel értékeit vettük figyelembe, a táblázat utolsó 8 oszlopát. 9.1.1 nem használt

Általában ez természetes: mivel a fő komponensek eltérően helyezkednek el, a pontok egymáshoz viszonyított helyzete is megváltozott.

A főkomponensek síkjában és a jellemzőik értékeinek eredeti síkján a pontok elhelyezkedésének összehasonlítási nehézségei értetlenséget okozhatnak: miért használjunk ilyen nehezen értelmezhető módszert? A válasz egyszerű. Abban az esetben, ha az összehasonlított objektumokat csak két jellemző írja le, akkor ezeknek a kezdeti jellemzőknek megfelelő ordinációjuk is lehetséges. A főkomponens módszer minden előnye megnyilvánul a többdimenziós adatok esetében. Ebben az esetben a főkomponens módszer az hatékony mód adatdimenzió csökkentése.

9.2. Áttérés nagyszámú dimenziójú kiindulási adatokra

Fontolja meg többet nehéz eset: elemezzük a táblázatban bemutatott adatokat. 9.1.1 mind a tíz szolgáltatásra. ábrán A 9.2.1 megmutatja, hogyan hívják a minket érdeklő metódus ablakát.


Rizs. 9.2.1. A főkomponens módszer futtatása

Minket csak az elemzéshez szükséges jellemzők kiválasztása fog érdekelni, bár a Statistica párbeszédpanel sokkal finomabb hangolást tesz lehetővé (9.2.2. ábra).


Rizs. 9.2.2. Változók kiválasztása elemzéshez

Az elemzés befejezése után megjelenik egy ablak az eredményekkel több füllel (9.2.3. ábra). Az összes főablak elérhető az első lapról.


Rizs. 9.2.3. A Főkomponens-elemzési eredmények párbeszédablak első lapja

Látható, hogy az elemzés 9 fő komponenst azonosított, és ezek segítségével leírták a 10 kezdeti jellemzőben tükröződő variancia 100%-át. Ez azt jelenti, hogy az egyik jel fölösleges, felesleges volt.

Kezdjük az eredmények megtekintését a "Plot case factor voordinates, 2D" gombbal: megmutatja a pontok elhelyezkedését a két főkomponens által meghatározott síkon. Ezt a gombot megnyomva egy párbeszédablakba jutunk, ahol meg kell adnunk, hogy mely komponenseket használjuk; természetes, hogy az elemzést az első és a második komponenssel kezdjük. Az eredmény az ábrán látható. 9.2.4.


Rizs. 9.2.4. A vizsgált objektumok ordinációja az első két főkomponens síkján

A pontok helyzete megváltozott, és ez természetes: új jellemzők kerülnek be az elemzésbe. ábrán A 9.2.4 a teljes diverzitás több mint 65%-át tükrözi a pontok egymáshoz viszonyított helyzetében, és ez már nem triviális eredmény. Például visszatérve a táblázathoz. 9.1.1, meg lehet győződni arról, hogy a 4-es és 7-es, valamint a 8-as és 10-es pont valóban elég közel van egymáshoz. A köztük lévő különbségek azonban más, az ábrán nem látható főkomponensekre is vonatkozhatnak: végül is ezek adják a fennmaradó változékonyság harmadát.

Egyébként a főkomponensek síkján a pontok elhelyezkedésének elemzésekor szükség lehet a köztük lévő távolságok elemzésére. A legegyszerűbb módja a pontok közötti távolságok mátrixának elkészítése a klaszteranalízis moduljával.

És hogyan kapcsolódnak a kiválasztott fő összetevők az eredeti funkciókhoz? Ezt a gomb megnyomásával találhatja meg (9.2.3. ábra) Plot var. faktor koordináták, 2D. Az eredmény az ábrán látható. 9.2.5.


Rizs. 9.2.5. A kezdeti jellemzők vetületei az első két főkomponens síkjára

A két főkomponens síkját "felülről" nézzük. Azok a kezdeti jellemzők, amelyek semmilyen módon nem kapcsolódnak a fő komponensekhez, merőlegesek (vagy majdnem merőlegesek) rájuk, és az origó közelében végződő rövid szegmensekben tükröződnek. Így a 6. jellemző a legkevésbé kapcsolódik az első két fő komponenshez (bár bizonyos pozitív korrelációt mutat az első komponenssel). A fő alkotóelemek síkjában teljesen tükröződő jellemzőknek megfelelő szegmensek a minta középpontját körülvevő egységsugarú körön végződnek.

Például láthatja, hogy az első főkomponenst leginkább a 10-es (pozitív korreláció), valamint a 7-es és 8-as (negatív korreláció) befolyásolta. Az ilyen összefüggések szerkezetének részletesebb megtekintéséhez kattintson a Változók tényezőkoordinátái gombra, és megkapja az ábrán látható táblázatot. 9.2.6.


Rizs. 9.2.6. Összefüggések a kezdeti jellemzők és a kiválasztott főkomponensek (tényezők) között

A Sajátértékek gomb megjeleníti a hívott értékeket főkomponensek sajátértékei. ábrán látható ablak tetején. 9.2.3, ezek az értékek az első néhány komponensre származnak; a Scree plot gomb az észlelés szempontjából kényelmes formában jeleníti meg őket (9.2.7. ábra).


Rizs. 9.2.7. A kiválasztott főkomponensek sajátértékei és a teljes variancia általuk tükrözött részesedései

Először meg kell értened, hogy pontosan mit mutat a sajátérték értéke. Ez a főkomponensben tükröződő variancia mértéke, a bemeneti adatok jellemzőnkénti variancia mértékében mérve. Ha az első főkomponens sajátértéke 3,4, ez azt jelenti, hogy nagyobb a szórása, mint a kezdeti halmaz három jellemzőjének. A sajátértékek lineárisan összefüggenek a főkomponensnek tulajdonítható variancia arányával, csak az a lényeg, hogy a sajátértékek összege egyenlő a kezdeti jellemzők számával, a varianciarészek összege pedig 100%. .

És mit jelent az, hogy 10 tulajdonság variabilitására vonatkozó információ 9 fő összetevőben tükröződött? Az, hogy az egyik kezdeti funkció felesleges volt, nem adott hozzá új információt. És így is lett; ábrán. A 9.2.8 bemutatja, hogyan jött létre az 1. táblázatban látható pontkészlet. 9.1.1.

A főkomponens-elemzés (PCA) leegyszerűsíti a nagydimenziós adatok összetettségét, miközben megőrzi a trendeket és mintákat. Ezt úgy teszi, hogy az adatokat kisebb méretűre konvertálja, amelyek a szolgáltatások összefoglalásaként működnek. Az ilyen adatok nagyon gyakoriak a tudomány és a technológia különböző ágaiban, és akkor keletkeznek, ha minden mintánál több tulajdonságot mérnek, például sok faj kifejeződését. Az ilyen típusú adatok a többszörös adatjavítások miatti megnövekedett hibaarány okozta problémákat okoznak.

A módszer hasonló a klaszterezéshez: megkeresi a nem kapcsolt mintákat és elemzi azokat, ellenőrzi, hogy a minták különböző vizsgálati csoportokból származnak-e, és vannak-e szignifikáns eltérések. Mint mindenben statisztikai módszerek, helytelenül alkalmazható. A változó skálázás eltérő elemzési eredményekhez vezethet, és fontos, hogy ne igazodjon az adatok korábbi értékéhez.

A komponenselemzés céljai

A módszer fő célja egy adathalmaz dimenziósságának kimutatása és csökkentése, új jelentős alapváltozók meghatározása. Ehhez speciális eszközök használata javasolt, például többdimenziós adatok gyűjtésére egy TableOfReal adatmátrixban, amelyben a sorok esetekhez és változók oszlopaihoz vannak társítva. Ezért a TableOfReal a numberOfRows adatvektorokként értelmeződik, és minden vektornak számos Columns eleme van.

Hagyományosan a főkomponens-elemzést kovarianciamátrixon vagy korrelációs mátrixon végzik, amely az adatmátrixból számítható ki. A kovariancia mátrix négyzetek és keresztszorzatok skálázott összegeit tartalmazza. A korrelációs mátrix hasonló a kovarianciamátrixhoz, de ebben standardizálták először a változókat, vagyis az oszlopokat. Először is szabványosítania kell az adatokat, ha a változók varianciái vagy mértékegységei nagyon eltérőek. Elemzés végrehajtásához válassza ki a TabelOfReal adatmátrixot az objektumok listájából, és kattintson a tovább gombra.

Ennek eredményeként egy új objektum jelenik meg az objektumok listájában a főkomponens metódus szerint. Most megrajzolhatja a sajátérték-görbéket, hogy képet kapjon mindegyik fontosságáról. És a program kínálhat egy műveletet is: kapja meg a variancia arányát vagy ellenőrizze a sajátértékek számának egyenlőségét, és kapja meg egyenlőségüket. Mivel a komponenseket egy adott optimalizálási probléma megoldásával kapjuk meg, van néhány „beépített” tulajdonságuk, mint például a maximális változékonyság. Ezenkívül a faktoranalízis számos egyéb tulajdonsággal is szolgálhat:

  • mindegyik varianciáját, míg a kezdeti változók teljes szórásának hányadát a saját értékei adják meg;
  • értékelési számítások, amelyek szemléltetik az egyes megfigyelt komponensek értékét;
  • olyan terhelések beszerzése, amelyek leírják az egyes komponensek és az egyes változók közötti korrelációt;
  • korreláció a p-komponens használatával reprodukált eredeti változók között;
  • az eredeti adatok reprodukálása p-komponensekkel reprodukálható;
  • "forgó" komponensek értelmezhetőségének növelése érdekében.

A tárolási pontok számának kiválasztása

Kétféleképpen választhatja ki a tárolni kívánt komponensek számát. Mindkét módszer a sajátértékek közötti kapcsolatokon alapul. Ehhez ajánlatos az értékeket ábrázolni. Ha a grafikon pontjai hajlamosak ellaposodni, és elég közel vannak a nullához, akkor figyelmen kívül hagyhatók. Korlátozza az összetevők számát olyan számra, amely a teljes variancia bizonyos hányadát teszi ki. Például, ha a felhasználó kielégíti a teljes variancia 95%-át - kapja meg a komponensek számát (VAF) 0,95.

A fő komponenseket egy többdimenziós tervezéssel kapjuk meg Statisztikai analízis adatvektorok főkomponenseinek módszere a sajátvektorok terén. Ezt kétféleképpen lehet megtenni - közvetlenül a TableOfRealból anélkül, hogy először PCA objektumot generálna, majd megjelenítheti a konfigurációt vagy annak számait. Válassza ki az objektumot és a TableOfReal-t együtt és a 'Configuration'-t, így az elemzés a komponens saját környezetében történik.

Ha a kiindulópont egy szimmetrikus mátrix, például egy kovariancia mátrix, először hajtsa végre a redukciót a formára, majd a QL algoritmust implicit eltolásokkal. Ha éppen ellenkezőleg, a kiindulópont egy adatmátrix, akkor lehetetlen négyzetösszegekből mátrixot alkotni. Ehelyett numerikusan stabilabb útról indulnak el, és szinguláris értékbővítéseket alkotnak. Ekkor a mátrix sajátvektorokat tartalmaz, a négyzet átlós elemeket pedig - sajátértékek.

A főkomponens az eredeti prediktorok normalizált lineáris kombinációja a próbabábu főkomponens-adatkészletében. A fenti képen a PC1 és a PC2 a fő összetevők. Tegyük fel, hogy számos előrejelző létezik, például X1, X2...,Xp.

A fő komponens a következőképpen írható fel: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 - az első főkomponens;
  • p1 - ​​az első főkomponens terheléseiből (1, 2.) álló terhelésvektor.

A terhelések 1 négyzetének összegére korlátozódnak. Ez annak a ténynek köszönhető, hogy a nagy terhelések nagy szóráshoz vezethetnek. Meghatározza a főkomponens (Z1) irányát is, ahol az adatok a leginkább eltérnek. Ez oda vezet, hogy a p-mértékek terében lévő vonal van a legközelebb az n-megfigyelésekhez.

A közelséget az effektív euklideszi távolság segítségével mérjük. Az X1..Xp normalizált prediktorok. A normalizált prediktorok átlagértéke nulla, és szórás egyenlő eggyel. Ezért az első fő komponens az eredeti prediktorváltozók lineáris kombinációja, amely rögzíti az adatkészlet maximális varianciáját. Ez határozza meg az adatok legnagyobb változékonyságának irányát. Minél nagyobb az első komponensben rögzített variabilitás, annál nagyobb az általa kapott információ. Senki másnak nem lehet nagyobb volatilitása, mint az első nagyé.

Az első főkomponens azt a vonalat eredményezi, amelyik a legközelebb van az adatokhoz, és minimalizálja az adatpont és az egyenes közötti távolság négyzetösszegét. A második főkomponens (Z2) is lineáris kombináció eredeti prediktorok, amelyek rögzítik az adatkészlet fennmaradó varianciáját, és nem korrelálnak Z1. Más szavakkal, az első és a második komponens közötti korrelációnak nullának kell lennie. A következőképpen ábrázolható: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Ha nem korrelálnak, irányaik merőlegesek kell, hogy legyenek.

A főkomponensek kiszámítása után megkezdődik a tesztadatok előrejelzésének folyamata ezek felhasználásával. A próbabábu fő komponens módszerének folyamata egyszerű.

Például transzformációt kell végrehajtani a teszthalmazban, beleértve a középpont és a skála függvényt az R nyelvben (v.3.4.2) és annak rvest könyvtárát. Az R egy ingyenes programozási nyelv statisztikai számításokhoz és grafikákhoz. 1992-ben rekonstruálták a felhasználók statisztikai problémáinak megoldására. Ez a teljes szimulációs folyamat a PCA extrakció után.

A PCA pythonban való megvalósításához importáljon adatokat a sklearn könyvtárból. Az értelmezés ugyanaz marad, mint az R-felhasználók esetében. Csak a Pythonhoz használt adatkészlet egy letisztított verzió, nincs imputált hiányzó érték, és a kategorikus változók numerikussá lettek konvertálva. A szimulációs folyamat ugyanaz marad, mint az R felhasználóknál leírtak Főkomponens elemzés, számítási példa:

A főkomponens-módszer mögött meghúzódó gondolat az, hogy közelítsük ezt a kifejezést a faktoranalízis elvégzéséhez. Ahelyett, hogy 1-től p-ig összegezne, most 1-től m-ig összegez, ez utóbbit figyelmen kívül hagyva p-m tagok az összegben és megkapjuk a harmadik kifejezést. Lehetőség van ennek átírására az L faktorbetöltő mátrix meghatározásához használt kifejezésben látható módon, amely a végső kifejezést adja meg mátrixjelölésben. Ha szabványos méréseket használ, cserélje ki az S-t az R korrelációs mintamátrixra.

Ez alkotja az L faktorterhelési mátrixot a faktoranalízisben, majd ezt követi a transzponált L. A specifikus variancia becsléséhez faktormodellezze a variancia-kovariancia mátrixot.

Most egyenlő lesz a variancia-kovariancia mátrix mínusz LL " .

  • Xi az i-edik alany megfigyeléseinek vektora.
  • S a minta variancia-kovariancia mátrixunkat jelöli.

Ezután ennek a variancia-kovariancia mátrixnak a p sajátértékei, valamint a mátrix megfelelő sajátvektorai.

Sajátértékek S:λ^1, λ^2, ... , λ^p.

S sajátvektorok: e^1, e^2, ... , e^n.

A PCA elemzés egy hatékony és népszerű többváltozós elemzési technika, amely lehetővé teszi többváltozós adatkészletek feltárását kvantitatív változókkal. E technika szerint a főkomponensek módszerét széles körben alkalmazzák a bioinformatikában, a marketingben, a szociológiában és sok más területen. Az XLSTAT teljes és rugalmas módot kínál az adatok közvetlen Excelben való felfedezésére, és számos szabványos és speciális opciót kínál, amelyek segítségével mélyen megértheti a felhasználói adatokat.

Futtathatja a programot nyers adatokon vagy különbségi mátrixokon, hozzáadhat további változókat vagy megfigyeléseket, szűrheti a változókat különböző kritériumok szerint a kártyaolvasás optimalizálása érdekében. Ezen túlmenően kanyarokat is végrehajthat. Könnyen beállítható korrelációs kör, megfigyelési grafikon, mint szabványos Excel diagram. Elegendő az eredményjelentés adatait átvinni az elemzéshez.

Az XLSTAT számos adatfeldolgozási módszert kínál a bemeneten a főkomponens kiszámítása előtt:

  1. Pearson, egy klasszikus PCA, amely automatikusan szabványosítja az adatokat a számításokhoz, hogy elkerülje a felfújt változókat, amelyek nagy eltéréseket mutatnak az eredménytől.
  2. Kovariancia, amely nem szabványos eltérésekkel működik.
  3. Többszólamú, sorszámú adatokhoz.

Példák a dimenziós adatok elemzésére

A főkomponensek módszerét szimmetrikus korrelációs vagy kovarianciamátrix megvalósításának példáján tekinthetjük meg. Ez azt jelenti, hogy a mátrixnak numerikusnak kell lennie, és szabványos adatokat kell tartalmaznia. Tegyük fel, hogy van egy 300 (n) × 50 (p) méretű adatkészlet. Ahol n a megfigyelések száma, p pedig a prediktorok száma.

Mivel nagy p = 50 van, előfordulhat p(p-1)/2 szórásdiagram. Ebben az esetben jó megközelítés lenne a p(p) prediktor egy részhalmazát választani<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Példa két változós mátrixra. Ez a főkomponens-példa egy két változót (nagy hosszúságú és átlós hosszúságú) tartalmazó adatkészletet hoz létre mesterséges Davis-adatok felhasználásával.

A komponensek a következőképpen rajzolhatók meg egy szórásdiagramon.

Ez a diagram egy első vagy főkomponens ötletét szemlélteti, amely az adatok optimális összegzését adja - egyetlen más, ilyen szórványdiagramon húzott vonal sem hozna létre előre jelzett adatpontértékeket egy kisebb szórással rendelkező vonalon.

Az első komponensnek is vannak alkalmazásai a redukált főtengely (RMA) regresszióban, amelyben mind az x-, mind az y-változók feltételezik, hogy hibásak vagy bizonytalanok, vagy ahol nincs egyértelmű különbség a prediktor és a válasz között.

Az ökonometriai főkomponens-elemzés olyan változók elemzése, mint a GNP, az infláció, az árfolyamok stb. Ezek egyenletei a rendelkezésre álló adatokon, elsősorban aggregált idősorokon kerülnek kiértékelésre. Az ökonometriai modellek azonban a makrogazdasági alkalmazásokon kívül számos más alkalmazáshoz is használhatók. Az ökonometria tehát gazdasági mérést jelent.

A statisztikai módszerek alkalmazása az adatok releváns ökonometriájára megmutatja a gazdasági változók közötti kapcsolatot. Egyszerű példa egy ökonometriai modellre. Feltételezzük, hogy a fogyasztók havi költése lineárisan kapcsolódik a fogyasztók előző havi bevételéhez. Ekkor a modell az egyenletből fog állni

Az ökonometrikus feladata az a és b paraméterek becslése. Ezek a paraméterbecslések, ha a modellegyenletben szerepelnek, jövőbeli fogyasztási értékeket jeleznek előre, amelyek az előző havi bevételtől függenek. Az ilyen típusú modellek fejlesztésekor néhány dolgot szem előtt kell tartani:

  • az adatokat előállító valószínűségi folyamat természete;
  • tudásszint róla;
  • rendszer mérete;
  • elemzési forma;
  • előrejelzési horizont;
  • a rendszer matematikai összetettsége.

Mindezek a feltételezések azért fontosak, mert befolyásolják a modellből származó hibaforrásokat. Ezen túlmenően ezeknek a problémáknak a megoldásához meg kell határozni az előrejelzési módszert. Lineáris modellre redukálható akkor is, ha csak kis minta van. Ez a típus az egyik leggyakoribb, amelyhez prediktív elemzést készíthet.

Nem paraméteres statisztika

A nem paraméteres adatok főkomponens-analízise olyan mérési módszerekre vonatkozik, amelyek során az adatokat egy adott eloszlásból nyerik ki. A nem-paraméteres statisztikai módszereket széles körben alkalmazzák a különböző típusú kutatásokban. A gyakorlatban, ha a normalitási feltételezés nem teljesül, a parametrikus statisztikai módszerek félrevezető eredményekhez vezethetnek. Ezzel szemben a nem paraméteres módszerek sokkal kevésbé szigorú feltételezéseket tesznek a dimenziók közötti eloszlással kapcsolatban.

A megfigyelések mögöttes eloszlásától függetlenül érvényesek. E vonzó előny miatt számos különböző típusú nemparaméteres tesztet fejlesztettek ki a különböző típusú kísérleti tervek elemzésére. Az ilyen projektek egymintás tervezést, kétmintás tervezést és véletlenszerű blokktervezést foglalnak magukban. Jelenleg a főkomponensek módszerét alkalmazó, nem paraméteres Bayes-féle megközelítést alkalmaznak a vasúti rendszerek megbízhatóságának elemzésének egyszerűsítésére.

A vasúti rendszer egy tipikus nagyszabású komplex rendszer, amely összekapcsolt alrendszerekkel és számos komponenst tartalmaz. A rendszer megbízhatóságát megfelelő karbantartási intézkedésekkel tartják fenn, a költséghatékony vagyonkezeléshez pedig a legalacsonyabb szintű megbízhatóság-értékelés szükséges. A vasúti rendszerelemek szintjén azonban nem mindig állnak rendelkezésre valódi megbízhatósági adatok a gyakorlatban, nem beszélve a befejezésről. Az alkatrészek életciklusainak gyártóktól való elosztását gyakran homály fedi és bonyolítja a tényleges használat és a munkakörnyezet. Így a megbízhatósági elemzéshez megfelelő módszertanra van szükség az alkatrész élettartamának meghibásodási adatok hiányában történő becslésére.

A társadalomtudományi főkomponens-elemzést két fő feladat elvégzésére használják:

  • szociológiai kutatási adatok szerinti elemzés;
  • társadalmi jelenségek modelljeinek építése.

Modellszámítási algoritmusok

A főkomponens-elemző algoritmusok eltérő képet adnak a modell felépítéséről és értelmezésében. Ezek azt tükrözik, hogyan használják a PCA-t különböző tudományágakban. A NIPALS nemlineáris iteratív részleges legkisebb négyzetek algoritmusa egy szekvenciális módszer komponensek kiszámítására. A számítást idő előtt meg lehet szakítani, ha a felhasználó úgy ítéli meg, hogy van belőlük elég. A legtöbb számítógépes csomag általában a NIPALS algoritmust használja, mivel ennek két fő előnye van:

  • hiányzó adatokat kezel;
  • szekvenciálisan kiszámítja az összetevőket.

Az algoritmus mérlegelésének célja:

  • további betekintést nyújt a terhelések és becslések jelentésébe;
  • megmutatja, hogy az egyes komponensek hogyan nem függenek merőlegesen a többi komponenstől;
  • megmutatja, hogy az algoritmus hogyan tudja kezelni a hiányzó adatokat.

Az algoritmus szekvenciálisan bontja ki az egyes komponenseket, kezdve a legnagyobb szórás első irányával, majd a másodikkal, és így tovább. A NIPALS egyszerre egy komponenst számít ki. Az elsőként kiszámított ekvivalens t1t1-gyel, és a p1p1 vektorok, amelyeket sajátérték vagy szinguláris érték dekompozícióból találnának meg, képesek kezelni a hiányzó adatokat a XX. Mindig konvergál, de a konvergencia néha lassú lehet. A sajátvektorok és sajátértékek számítási teljesítmény-algoritmusaként is ismert, és kiválóan működik nagyon nagy adatkészleteknél. A Google ezt az algoritmust használta keresőmotorja korai verzióihoz.

A NIPALS algoritmus az alábbi képen látható.

A T mátrix együtthatóbecsléseit ezután a következőképpen számítjuk ki: T=XW, és a B négyzetek Y-től X-ig terjedő részleges regressziós együtthatóit a következőképpen számítjuk ki: B=WQ. Egy alternatív becslési módszer a részleges legkisebb négyzetek regressziós részeihez az alábbiak szerint írható le.

A főkomponens módszer egy eszköz az adatkészlet fő varianciatengelyeinek meghatározására, és megkönnyíti a kulcsfontosságú adatváltozók feltárását. Megfelelően alkalmazva a módszer az egyik legerősebb az adatelemzési eszköztárban.

Ebben a cikkben arról szeretnék beszélni, hogy pontosan hogyan működik a főkomponens-elemzés (PCA) a matematikai apparátusa mögött meghúzódó intuíció szempontjából. A lehető legegyszerűbb, de részletes.

A matematika általában véve nagyon szép és elegáns tudomány, de néha szépsége egy csomó absztrakciós réteg mögött rejtőzik. A legjobb, ha egyszerű példákkal mutatjuk be ezt a szépséget, ami úgymond csavarható, játszható és megtapintható, mert a végén minden sokkal egyszerűbbnek bizonyul, mint amilyennek első pillantásra tűnik - a legfontosabb, hogy megértsük. és képzeld el.

Az adatelemzésnél, mint minden más elemzésnél, néha hasznos olyan leegyszerűsített modellt készíteni, amely a lehető legpontosabban írja le a valós helyzetet. Gyakran előfordul, hogy a jelek erősen függnek egymástól, és egyidejű jelenlétük felesleges.

Például az üzemanyag-fogyasztásunkat liter/100 km-ben, az Egyesült Államokban pedig mérföld/gallonban mérik. Első pillantásra a mennyiségek eltérőek, de valójában szigorúan függenek egymástól. 1600 km van egy mérföldben és 3,8 liter egy gallonban. Egyik jel szigorúan függ a másiktól, ismerve az egyiket, ismerjük a másikat.

De sokkal gyakrabban előfordul, hogy a jelek nem függnek egymástól olyan szigorúan és (fontos!) Nem olyan egyértelműen. A motor mérete általában pozitív hatással van a 100 km/h-ra való gyorsulásra, de ez nem mindig igaz. És az is kiderülhet, hogy az első pillantásra nem látható tényezőket (például javuló üzemanyagminőség, könnyebb anyagok használata és egyéb modern vívmányok) figyelembe véve az autó évjárata nem sok, de ez is befolyásolja a gyorsulása.

A függőségek és erősségük ismeretében több jelet is kifejezhetünk egyen keresztül, ezeket úgymond összeolvaszthatjuk, és egy egyszerűbb modellel dolgozhatunk. Természetesen nagy valószínűséggel nem lehet elkerülni az információvesztést, de a PCA módszer az, amely segít minimalizálni azt.

Szigorúbb értelemben ez a módszer egy n-dimenziós megfigyelési felhőt közelít egy ellipszoidhoz (szintén n-dimenzióshoz), amelynek féltengelyei lesznek a jövőbeni főkomponensek. És amikor az ilyen tengelyekre vetítjük (dimenziócsökkentés), akkor a legtöbb információ megmarad.

1. lépés Az adatok előkészítése

Itt a példa egyszerűsége kedvéért nem fogok valódi edzési adatkészleteket venni több tucat funkcióhoz és több száz megfigyeléshez, hanem saját, a lehető legegyszerűbb játékpéldát készítek. 2 jel és 10 megfigyelés elég lesz ahhoz, hogy leírjuk, mi, és ami a legfontosabb, miért történik az algoritmus belsejében.

Készítsünk egy mintát:

X = np.arange(1,11) y = 2 * x + np.random.randn(10)*2 X = np.vstack((x,y)) print X OUT: [[ 1. 2. 3. 4.5.6.7.8.9.10.]

Ebben a mintában két olyan jellemzőnk van, amelyek erősen korrelálnak egymással. A PCA algoritmus segítségével könnyen találhatunk egy kombinációs funkciót, és némi információ árán mindkét tulajdonságot egy újjal kifejezhetjük. Szóval, derítsük ki!

Kezdjük néhány statisztikával. Emlékezzünk vissza, hogy a pillanatokat egy valószínűségi változó leírására használjuk. Szükségünk van - mat. elvárás és eltérés. Mondhatjuk, hogy mat. az elvárás a mennyiség "súlypontja", a szórás pedig a "dimenziói". Durván szólva, mat. az elvárás a valószínűségi változó helyzetét adja meg, a variancia pedig a méretét.

Magára a vektorra vetítés folyamata semmilyen módon nem befolyásolja az átlagértékeket, mivel az információvesztés minimalizálása érdekében a vektorunknak át kell haladnia a mintánk középpontján. Ezért nincs okunk aggódni, ha a mintánkat középre állítjuk - lineárisan eltoljuk úgy, hogy a jellemzők átlagértéke 0 legyen. Ez nagyban leegyszerűsíti további számításainkat (bár érdemes megjegyezni, hogy megtehetjük központosítás nélkül).
Az operátor, az eltolódás inverze megegyezik az eredeti átlagok vektorával - ez szükséges a minta eredeti dimenzióba való visszaállításához.

Xcentered = (X - x.mean(), X - y.mean()) m = (x.mean(), y.mean()) print Xcentered print "Átlagos vektor: ", m OUT: (array([ -4,5, -1,5, -0,5, 0,5, 1,5, 2,5, 3,5, 4,5]), tömb ([- 8.44644233, -8.32844233, -8.93314426, -2.56723136, 1.01013491, 7.00558491, 0,58413491, 4.21440647, 9.59501658]))) átlagos vektor : (5.5, 10.314393916)

A szórás erősen függ a valószínűségi változó nagyságrendjétől, pl. érzékeny a hámlásra. Ezért, ha a jellemzők mértékegységei nagymértékben eltérnek sorrendjükben, erősen ajánlott szabványosításuk. Esetünkben az értékek nem nagyon különböznek a sorrendben, ezért a példa egyszerűsége érdekében ezt a műveletet nem hajtjuk végre.

2. lépés: Kovariancia mátrix

Többdimenziós valószínűségi változó (véletlenszerű vektor) esetén a középpont helyzete továbbra is szőnyeg lesz. tengelyre vonatkozó előrejelzéseitől. De alakjának leírásához már nem elég csak a tengelyek mentén való eloszlása. Nézze meg ezeket a grafikonokat, mindhárom valószínűségi változó elvárása és szórása megegyezik, és a tengelyekre vonatkozó vetületeik általában megegyeznek!


Egy véletlen vektor alakjának leírásához kovarianciamátrixra van szükség.

Ez egy olyan mátrix (i,j)-elem egy jellemző korreláció (X i , X j). Emlékezzen a kovariancia képletre:

Esetünkben leegyszerűsített, mivel E(X i) = E(X j) = 0:

Vegye figyelembe, hogy ha X i = X j:

és ez igaz minden valószínűségi változóra.

Így a mátrixunkban az átló mentén jellemzővarianciák (mivel i = j), a többi cellában pedig a megfelelő jellemzőpárok kovarianciai lesznek. És a kovariancia szimmetriája miatt a mátrix is ​​szimmetrikus lesz.

Megjegyzés: A kovarianciamátrix a variancia általánosítása a többdimenziós valószínűségi változók esetére - leírja a valószínűségi változó alakját (szórását), akárcsak a variancia.

Valójában egy egydimenziós valószínűségi változó varianciája egy 1x1 kovarianciamátrix, amelyben egyetlen tagját a Cov(X,X) = Var(X) képlet adja meg.

Tehát alakítsuk ki a kovariancia mátrixot Σ mintánk számára. Ehhez kiszámítjuk X i és X j szórását, valamint ezek kovarianciáját. Használhatja a fenti képletet, de mivel Pythonnal vagyunk felvértezve, bűn nem használni a függvényt numpy.cov(X). Bemenetként egy listát vesz egy valószínűségi változó összes jellemzőjéről, és visszaadja a kovarianciamátrixát, ahol X egy n-dimenziós véletlen vektor (n-számú sor). A függvény kiválóan alkalmas a torzítatlan variancia kiszámítására és két mennyiség kovariancia kiszámítására, valamint a kovariancia mátrix összeállítására.
(Emlékezzünk vissza, hogy a Pythonban a mátrixot tömbsorokból álló tömboszlop képviseli.)

Covmat = np.cov(Xcentered) print covmat, "n" print "Variance of X: ", np.cov(Xcentered) print "Variance of Y: ", np.cov(Xcentered) print "Covariance of X and Y: " , np.cov(Xcentered) OUT: [[ 9.16666667 17.93002811] [ 17.93002811 37.26438587]]

3. lépés Sajátpárok és sajátpárok

Oké, kaptunk egy mátrixot, ami leírja a valószínűségi változónk alakját, amiből megkaphatjuk a méreteit x-ben és y-ben (azaz X 1 és X 2), valamint egy közelítő alakzatot a síkon. egy olyan vektort (esetünkben csak egyet), amely maximalizálná a mintánk rá vetületének méretét (varianciáját).

Megjegyzés: A variancia magasabb dimenziókra való általánosítása a kovariancia mátrix, és a két fogalom egyenértékű. Ha vektorra vetítjük, a vetítési variancia maximalizálódik, magasabb rendű terekre vetítve pedig a teljes kovarianciamátrix maximalizálódik.

Tehát vegyünk egy egységvektort, amelyre kivetítjük az X véletlenvektorunkat. Ekkor a rá vetület v T X lesz. A vektorra vetítés szórása Var(v T X) lesz, ill. Általánosságban elmondható, hogy vektor formában (központosított mennyiségek esetén) az eltérést a következőképpen fejezzük ki:

Ennek megfelelően a vetítési szórás:

Könnyen belátható, hogy a szórás maximalizálódik v T Σv maximális értékénél. A Rayleigh-reláció a segítségünkre lesz. Anélkül, hogy túlságosan elmélyednék a matematikában, csak annyit mondok, hogy a Rayleigh-relációnak van egy speciális esete a kovarianciamátrixokra:

Az utolsó képletnek ismerősnek kell lennie a mátrix sajátvektorokra és értékekre való felbontása témakörből. x egy sajátvektor, λ pedig egy sajátérték. A sajátvektorok és értékek száma megegyezik a mátrix méretével (és az értékek megismételhetők).

Egyébként angolul sajátértékeket és vektorokat hívnak sajátértékekÉs sajátvektorok illetőleg.
Szerintem sokkal szebben (és tömörebben) hangzik, mint a mi kifejezéseink.

Így a vetítés maximális szórásának iránya mindig egybeesik azzal a sajátvektorral, amelynek a legnagyobb sajátértéke megegyezik ennek a diszperziónak az értékével.

És ez igaz a több dimenzióra vonatkozó vetítésekre is - az m-dimenziós térre való vetítés szórása (kovarianciamátrixa) maximális lesz az m sajátvektor irányában, amelyeknek maximális sajátértéke van.

A mintánk dimenziója egyenlő kettővel, a benne lévő sajátvektorok száma pedig 2. Keressük meg őket!

A numpy könyvtár megvalósítja a funkciót numpy.linalg.eig(X), ahol X négyzetmátrix. 2 tömböt ad vissza - egy sajátérték-tömböt és egy sajátvektor-tömböt (oszlopvektor). És a vektorok normalizálva vannak - hosszuk egyenlő 1. Csak amire szüksége van. Ez a 2 vektor egy új bázist határoz meg a mintának úgy, hogy a tengelyei egybeesnek a mintánk közelítő ellipszisének féltengelyeivel.



Ezen a grafikonon a mintánkat egy 2 szigma sugarú ellipszisre közelítettük (azaz az összes megfigyelés 95%-át kell tartalmaznia – elvileg ezt figyeljük meg itt). A nagyobb vektort megfordítottam (az eig(X) függvény megfordította) - az irányt érdekel, nem a vektor orientációját.

4. lépés, méretcsökkentés (vetítés)

A legnagyobb vektornak a regressziós egyeneshez hasonló iránya van, és a mintánkat rávetítve a regresszió maradéktagjainak összegével összemérhető információt veszítünk (csak a távolság euklideszi, Y-ben nem delta). Esetünkben nagyon erős a függőség a jellemzők között, így az információvesztés minimális lesz. A vetítés „ára” – a kisebb sajátvektor feletti eltérés –, amint az az előző grafikonon is látható, nagyon kicsi.

Megjegyzés: a kovarianciamátrix átlós elemei az eredeti bázishoz képest, sajátértékei pedig az új (főkomponensek) feletti eltéréseket mutatják.

Gyakran meg kell becsülni az elveszett (és elmentett) információk mennyiségét. A legjobb, ha százalékban fejezzük ki. Vegyük az egyes tengelyek mentén a szórásokat, és elosztjuk a tengelyek mentén tapasztalható eltérések teljes összegével (azaz a kovarianciamátrix összes sajátértékének összegével).
Így a nagyobb vektorunk 45,994 / 46,431 * 100% = 99,06%, a kisebb pedig körülbelül 0,94% -ot ír le. Egy kisebb vektor eldobásával és az adatok nagyobbra vetítésével az információ kevesebb, mint 1%-át veszítjük el! Kiváló eredmény!

Megjegyzés: A gyakorlatban a legtöbb esetben, ha a teljes információvesztés nem több, mint 10-20%, akkor nyugodtan csökkentheti a dimenziót.

A vetítés végrehajtásához, amint azt korábban a 3. lépésben említettük, végre kell hajtani a v T X műveletet (a vektornak 1 hosszúságúnak kell lennie). Vagy ha nem egy vektorunk van, hanem egy hipersíkunk, akkor a v T vektor helyett a V T bázisvektorok mátrixát vesszük. Az eredményül kapott vektor (vagy mátrix) a megfigyeléseink vetületeinek tömbje lesz.

V = (-vecs, -vecs) Xúj = pont(v,Xközpontú)

pont (X,Y)- kifejezésenkénti szorzat (így szorozzuk meg a vektorokat és a mátrixokat Pythonban)

Könnyen belátható, hogy a vetítési értékek megfelelnek az előző grafikon képének.

5. lépés: Adat-helyreállítás

Kényelmes a vetülettel dolgozni, hipotéziseket építeni az alapján, és modelleket fejleszteni. De a kapott fő összetevőknek nem mindig lesz egyértelmű, a kívülálló számára érthető jelentése. Néha hasznos dekódolni például az észlelt kiugró értékeket, hogy lássuk, mennyit érnek a megfigyeléseik.

Ez nagyon egyszerű. Minden szükséges információval rendelkezünk, nevezetesen az eredeti bázis bázisvektorainak koordinátái (vektorok, amelyekre vetítettünk) és az átlagok vektorai (a központosításhoz). Vegyük például a legnagyobb értéket: 10,596 ... és dekódoljuk. Ehhez megszorozzuk a jobb oldalon a transzponált vektorral, és hozzáadjuk az átlagok vektorát, vagy általános formában a teljes mintára: X T v T +m

Xrestored = dot(Xnew,v) + m print "Restored: ", Xrestored print "Eredeti: ", X[:,9] OUT: Restored: [ 10.13864361 19.84190935] Eredeti: [ 10. 19.9094105]

A különbség kicsi, de létezik. Végül is az elveszett információkat nem lehet visszaállítani. Ha azonban az egyszerűség fontosabb, mint a pontosság, a visszanyert érték jól megközelíti az eredeti értéket.

Következtetés helyett ellenőrizze az algoritmust

Tehát elemeztük az algoritmust, megmutattuk, hogyan működik egy játékpéldán, most már csak összehasonlítani kell a sklearnben megvalósított PCA-val - végül is használni fogjuk.

A sklearn.decomposition importból PCA pca = PCA(n_komponensek = 1) XPCAreduced = pca.fit_transform(transpose(X))

Paraméter n_komponensek azt jelzi, hogy hány dimenzióra készül a vetítés, vagyis hány dimenzióra szeretnénk csökkenteni az adatkészletünket. Más szóval, ezek n sajátvektor a legnagyobb sajátvektorral. Nézzük meg a méretcsökkentés eredményét:

Nyomtatás "Csökkentett X: N", XNEW Nyomtatás "Sklearn Csökkentett X: N", XPCAREDED CURED: A csökkentett X: [-9.56404106 -9.020216254106 -9.020216255.52974822 -5.52974822 -2,52974822-2,52974822,5964812625 szám 0,74406645 2.33433492 7.39307974 10.3212742 10.59672425] SKLEARN Csökkentett X: [[-9.56404106] ] [ -9,02021625] [ -5,52974822] [ -2,96481262] [ 0,68933859] [ 0,74406645] [ 2,33433492] [ 7,39307974] [7,39307974] [7,39307974] [5]45]1 [5.407]5.

Az eredményt a megfigyelések oszlopvektorainak mátrixaként adtuk vissza (ez a lineáris algebra szempontjából kanonikusabb), míg a PCA a sklearnben egy függőleges tömböt ad vissza.

Ez elvileg nem kritikus, csak azt érdemes megjegyezni, hogy a lineáris algebrában kanonikus a mátrixok oszlopvektorokon keresztül történő felírása, az adatelemzésben (és egyéb adatbázissal kapcsolatos területeken) a megfigyeléseket (tranzakciókat, rekordokat) általában sorokba írják.

Vizsgáljuk meg a modell egyéb paramétereit - a függvénynek számos attribútuma van, amelyek lehetővé teszik a köztes változók elérését:

Átlagvektor: átlagos_
- Vetítési vektor (mátrix): alkatrészek_
- A vetítési tengelyek szórása (szelektív): megmagyarázott_variance_
- Információmegosztás (a teljes variancia részesedése): megmagyarázott_variance_arány_

Megjegyzés: magyarázott_variance_ mutatja szelektív variancia, míg a kovarianciamátrixot felépítő cov() függvény kiszámítja elfogulatlan diszperzió!

Hasonlítsuk össze az általunk kapott értékeket a könyvtári függvény értékeivel.

Print "Mean vektor: ", pca.mean_, m print "Projection: ", pca.components_, v print "Explained variancia ratio: ", pca.explained_variance_ratio_, l/sum(l) OUT: Mean vektor: [ 5.5 10.31439392] (5.5, 10.314393916) vetítés: [[0.43774316 0.89910006]] (0.43774316434772387, 0,89910006232167594) magyarázott variancia: [41.39455058] 45.9939450918 magyarázata variancia arány: [0.99058588] 0.990585881238

Az egyetlen különbség a szórásokban van, de mint említettük, a cov() függvényt használtuk, amely az elfogulatlan varianciát használja, míg a magyarázatos_variance_ attribútum a mintavételezett varianciát adja vissza. Csak abban különböznek egymástól, hogy az első osztja (n-1)-gyel, hogy megkapja a várakozást, a második pedig n-nel. Könnyen ellenőrizhető, hogy 45,99 ∙ (10 - 1) / 10 = 41,39.

Az összes többi érték megegyezik, ami azt jelenti, hogy algoritmusaink egyenértékűek. És végül megjegyzem, hogy a könyvtári algoritmus attribútumai kevésbé pontosak, mivel valószínűleg a sebességre van optimalizálva, vagy egyszerűen kerekíti az értékeket a kényelem kedvéért (vagy van néhány hibám).

Megjegyzés: a library metódus automatikusan olyan tengelyekre vetít, amelyek maximalizálják a szórást. Ez nem mindig racionális. Például ezen az ábrán a dimenziók pontatlan csökkentése ahhoz a tényhez vezet, hogy az osztályozás lehetetlenné válik. Azonban egy kisebb vektorra vetítés sikeresen csökkenti a dimenziót és megőrzi az osztályozót.

Tehát megvizsgáltuk a PCA algoritmus alapelveit és megvalósítását a sklearnben. Remélem, ez a cikk kellően érthető volt azok számára, akik most kezdik ismerkedni az adatelemzéssel, és legalább egy kicsit informatív azok számára, akik jól ismerik ezt az algoritmust. Az intuitív bemutatás rendkívül hasznos a módszer működésének megértéséhez, a megértés pedig nagyon fontos a választott modell helyes beállításához. Kösz a figyelmet!

P.S.: Kérjük, ne szidja a szerzőt az esetleges pontatlanságokért. A szerző maga is éppen az adatelemzéssel ismerkedik, és szeretne segíteni a hozzá hasonlóknak e csodálatos tudásterület elsajátításában! De építő kritikát és változatos tapasztalatokat szívesen fogadunk!

Főkomponens módszer(PCA – Főkomponens-elemzés) az egyik fő módja annak, hogy a legkisebb információvesztéssel csökkentsük az adatok dimenzióját. Karl Pearson találta fel 1901-ben, és számos területen széles körben használják. Például adattömörítéshez, "számítógépes látáshoz", látható mintafelismeréshez stb. A főkomponensek számítása az eredeti adatok kovarianciamátrixának sajátvektorainak és sajátértékeinek kiszámítására redukálódik. A főkomponens módszert gyakran úgy emlegetik Karhunen-Löwe ​​átalakulás(Karhunen-Loeve transzformáció) ill Szállodai átalakulás(Szállodai átalakulás). Kosambi (1943), Pugacsov (1953) és Obukhova (1954) matematikusok is dolgoztak ezen a kérdésen.

A főkomponens-analízis problémája az adatok közelítését (közelítését) célozza kisebb dimenziójú lineáris sokaságokkal; keressünk az ortogonális vetületben kisebb dimenziójú altereket, amelyeken az adatok terjedése (azaz az átlagtól való szórása) a legnagyobb; keressünk olyan kisebb dimenziójú altereket az ortogonális vetületben, amelyekre a pontok közötti négyzetes középtávolság maximális. Ebben az esetben véges adathalmazokkal operálunk. Egyenértékűek, és nem használnak hipotézist a statisztikai adatok előállítására vonatkozóan.

Emellett a főkomponens-analízis feladata lehet az is, hogy egy adott többdimenziós valószínűségi változóra olyan ortogonális koordinátatranszformációt hozzunk létre, amelynek eredményeként az egyes koordináták közötti összefüggések megszűnnek. Ez a verzió véletlenszerű változókkal működik.

3. ábra

A fenti ábra a síkon lévő P i pontokat mutatja, p i a P i és az AB egyenes távolsága. Egy AB egyenest keresünk, ami minimalizálja az összeget

A főkomponensek módszere egy véges ponthalmaz egyenesekkel és síkokkal történő legjobb közelítésének (közelítésének) problémájával kezdődött. Például adott egy véges vektorhalmaz. Minden k = 0,1,...,n ? 1 az összes k-dimenziós lineáris sokaság között, ahol az x i L k-től való eltérésének négyzetes összege minimális:

ahol? Euklideszi távolság egy ponttól a lineáris sokaságig.

Bármely k-dimenziós bemeneti lineáris sokaság definiálható lineáris kombinációk halmazaként, ahol az i-ben lévő paraméterek a valós vonalon futnak át, mi? ortonormális vektorhalmaz

hol van az euklideszi norma? Euklideszi pontszorzat, vagy koordináta formában:

A k = 0,1,...,n közelítési feladat megoldása? Az 1. ábrát beágyazott lineáris sokaságok halmaza adja

Ezeket a lineáris sokaságokat vektorok ortonormális halmaza (főkomponensvektorok) és a 0 vektor határozza meg. Az a 0 vektort az L 0 minimalizálási problémájára keressük:

Az eredmény egy mintaátlag:

Maurice Frechet francia matematikus Frechet Maurice René (1878. 02. 09. - 1973. 06. 04.) kiváló francia matematikus. A topológia és a funkcionális elemzés, a valószínűségszámítás területén dolgozott. A metrikus tér, tömörség és teljesség modern fogalmainak szerzője. Auth. 1948-ban észrevette, hogy az átlag variációs definíciója olyan pontként, amely minimalizálja az adatpontok távolságának négyzetének összegét, nagyon kényelmes statisztika tetszőleges metrikus térben történő készítéséhez, és elkészítette az általános terekre vonatkozó klasszikus statisztika általánosítását, az általánosított módszert. a legkisebb négyzetek közül.

A főkomponens-vektorok hasonló optimalizálási problémák megoldásaként találhatók:

1) központosítsa az adatokat (kivonja az átlagot):

2) keresse meg az első főkomponenst a probléma megoldásaként;

3) Vonja ki az adatokból a vetületet az első főkomponensre:

4) keresse meg a második fő komponenst a probléma megoldásaként

Ha a megoldás nem egyedi, válasszon közülük.

2k-1) Vonja ki a vetületet a (k ? 1)-edik főkomponensre (ne feledje, hogy az előző (k ? 2) főkomponensre vonatkozó vetületeket már kivontuk):

2k) keresse meg a k-edik főkomponenst a probléma megoldásaként:

Ha a megoldás nem egyedi, válasszon közülük.

Rizs. 4

Az első főkomponens maximalizálja az adatok vetületének mintaszórását.

Például tegyük fel, hogy kapunk egy központosított adatvektor-készletet, ahol x i számtani közepe nulla. Egy feladat? keressünk egy olyan ortogonális transzformációt egy új koordináta-rendszerre, amelyre a következő feltételek igazak lennének:

1. Az adatok minta szórása az első koordináta (főkomponens) mentén maximális;

2. Az adatok mintavarianciája a második koordináta (a második főkomponens) mentén az első koordinátára való ortogonalitás feltétele mellett a legnagyobb;

3. Az adatok mintaszórása a k-adik koordináta értékei mentén a legnagyobb az első k ? 1 koordináták;

Az adatok minta szórása az a k normalizált vektor által adott irányban

(mivel az adatok középre vannak állítva, a minta szórása itt megegyezik a nullától való átlagos négyzetes eltéréssel).

A legjobb illeszkedési probléma megoldása ugyanazt a főkomponens-készletet eredményezi, mint a legnagyobb szórású ortogonális vetületek keresése, nagyon egyszerű okból:

és az első tag nem függ a k-tól.

Az adatkonverziós mátrix főkomponensekké a főkomponensek "A" vektoraiból épül fel:

Itt a i a főkomponensek ortonormális oszlopvektorai a sajátértékek csökkenő sorrendjében, a T felső index transzpozíciót jelent. Az A mátrix ortogonális: AA T = 1.

A transzformációt követően az adatváltozatok nagy része az első koordinátákban összpontosul, ami lehetővé teszi a megmaradt koordináták elvetését és egy csökkentett dimenziós tér figyelembe vételét.

A legrégebbi főkomponens-kiválasztási módszer az Kaiser szabálya, Kaiser Johann Henrich Gustav (Kaiser Johann Henrich Gustav, 1853.03.16., Brezno, Poroszország - 1940.10.14., Németország) - kiváló német matematikus, fizikus, kutató a spektrális elemzés területén. Auth. amely szerint azok a fő összetevők jelentősek, amelyek számára

vagyis l i meghaladja az l átlagértékét (az adatvektor koordinátáinak átlagos mintavarianciáját). A Kaiser-szabály jól működik egyszerű esetekben, ahol több l i-vel rendelkező főkomponens van, amelyek sokkal nagyobbak az átlagnál, és a többi sajátérték kisebb annál. Bonyolultabb esetekben túl sok jelentős főkomponenst adhat. Ha az adatokat a tengelyek mentén mért egységminta szórására normalizáljuk, akkor a Kaiser-szabály különösen egyszerű formát ölt: csak azok a főkomponensek szignifikánsak, amelyekre l i > 1.

Az egyik legnépszerűbb heurisztikus megközelítés a szükséges főkomponensek számának becslésére megszegte a nádszabályt, ha az egységösszegre normalizált sajátértékek halmazát (, i = 1,...n) összehasonlítjuk egy egységnyi hosszúságú vessző töredékeinek hosszának eloszlásával, amely n pontban van megtörve? 1. véletlenszerűen kiválasztott pont (a töréspontokat egymástól függetlenül választjuk ki, és egyenlően oszlanak el a bot hosszában). Ha L i (i = 1,...n) a kapott vessződarabok hosszai, hosszuk csökkenő sorrendjében számozva: , akkor L i elvárása:

Tekintsünk egy példát, amely abból áll, hogy az 5. dimenzióban a törött nádszabály szerint megbecsüljük a főkomponensek számát.

Rizs. öt.

A törött vesszőszabály szerint a k-adik sajátvektor (az l i sajátértékek csökkenő sorrendjében) a főkomponensek listájában tárolódik, ha

A fenti ábra egy példát mutat az 5 dimenziós esetre:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 \u003d (1/3 + 1/4 + 1/5) / 5;

l 4 \u003d (1/4 + 1/5) / 5; l 5 \u003d (1/5) / 5.

Például kiválasztott

0.5; =0.3; =0.1; =0.06; =0.04.

A törött bot szabálya szerint ebben a példában 2 fő összetevőt kell hagyni:

Csak azt kell szem előtt tartani, hogy a törött vesszőszabály általában alábecsüli a jelentős főkomponensek számát.

Az elsõ k c fõkomponensre való kivetítés után célszerû a tengelyek mentén mért egység (minta) szórásra normalizálni. A szóródás az i-edik főkomponens mentén egyenlő), így a normalizáláshoz el kell osztani a megfelelő koordinátát. Ez az átalakítás nem ortogonális, és nem őrzi meg a pontszorzatot. Normalizálás után az adatvetületi kovariancia mátrix egységgé válik, a vetületek bármely két merőleges irányra független értékké válnak, és bármely ortonormális bázis lesz a főkomponensek alapja (emlékezzünk arra, hogy a normalizálás megváltoztatja a vektor ortogonalitási viszonyát). A kezdeti adattérből az első k főkomponensre való leképezést a normalizálással együtt a mátrix adja meg

Ezt a transzformációt nevezik leggyakrabban Karhunen-Loeve transzformációnak, vagyis magának a főkomponensek módszerének. Itt az i oszlopvektorok, a T felső index pedig transzponálást jelent.

A statisztikában a főkomponensek módszerének alkalmazásakor számos speciális kifejezést használnak.

Adatmátrix, ahol minden sor előre feldolgozott adatok vektora (középre és megfelelően normalizálva), a sorok száma m (az adatvektorok száma), az oszlopok száma n (az adattér dimenziója);

Matrix betöltése(Betöltések) , ahol minden oszlop egy főkomponens vektor, a sorok száma n (adattér dimenzió), az oszlopok száma k (a vetítéshez kiválasztott főkomponens vektorok száma);

Számlázási mátrix(Eredmények)

ahol minden sor az adatvektor vetülete k főkomponensre; sorok száma - m (adatvektorok száma), oszlopok száma - k (vetítésre kiválasztott főkomponens vektorok száma);

Z-score mátrix(Z pontszámok)

ahol minden sor az adatvektor vetülete a k főkomponensre, az egységminta varianciájára normalizálva; sorok száma - m (adatvektorok száma), oszlopok száma - k (vetítésre kiválasztott főkomponens vektorok száma);

Error Matrix (maradék) (Hibák vagy maradékok)

Alapképlet:

Így a főkomponens módszer a matematikai statisztika egyik fő módszere. Fő célja, hogy különbséget tegyen az adattömbök tanulmányozásának szükségessége és azok minimális felhasználása között.

Részvény