Sensul geometric al componentelor principale. Aplicarea analizei componentelor principale la prelucrarea datelor statistice multivariate

Analiza componentelor principale este o metodă care traduce un număr mare de variabile interconectate (dependente, corelate) într-un număr mai mic de variabile independente, deoarece un număr mare de variabile îngreunează adesea analiza și interpretarea informațiilor. Strict vorbind, această metodă nu se aplică analizei factoriale, deși are multe în comun cu aceasta. Specific este, în primul rând, că în cursul procedurilor de calcul toate componentele principale sunt obținute simultan și numărul lor este inițial egal cu numărul de variabile inițiale; în al doilea rând, se postulează posibilitatea unei descompuneri complete a varianței tuturor variabilelor inițiale, i.e. explicarea sa deplină prin factori latenți (trăsături generalizate).

De exemplu, imaginați-vă că am realizat un studiu în care am măsurat inteligența elevilor la testul Wechsler, testul Eysenck, testul Raven, precum și performanța academică la nivel social, cognitiv și Psihologie generala. Este foarte posibil ca performanța diferitelor teste de inteligență să se coreleze între ele, deoarece acestea, la urma urmei, măsoară o caracteristică a subiectului - abilitățile sale intelectuale, deși în moduri diferite. Dacă există prea multe variabile în studiu ( X 1 , X 2 , …, X p ) , iar unele dintre ele sunt interconectate, cercetătorul are uneori dorința de a reduce complexitatea datelor prin reducerea numărului de variabile. Pentru aceasta este metoda componentelor principale, care creează mai multe variabile noi. y 1 , y 2 , …, y p, fiecare dintre acestea fiind o combinație liniară a variabilelor originale X 1 , X 2 , …, X p :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 \u003d a 21 x 1 + a 22 x 2 + ... + a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Variabile y 1 , y 2 , …, y p se numesc componente sau factori principali. Astfel, un factor este un indicator statistic artificial rezultat din transformări speciale ale matricei de corelație . Procedura de extragere a factorilor se numește factorizare matriceală. Ca rezultat al factorizării, un număr diferit de factori poate fi extras din matricea de corelație până la un număr egal cu numărul de variabile originale. Cu toate acestea, factorii determinați ca urmare a factorizării, de regulă, nu sunt echivalenti ca valoare.

Cote A ij, definind o nouă variabilă, sunt alese astfel încât noile variabile (componente principale, factori) să descrie cantitatea maximă de variabilitate a datelor și să nu se coreleze între ele. Este adesea utilă reprezentarea coeficienților A ij astfel încât acestea să reprezinte coeficientul de corelație dintre variabila inițială și noua variabilă (factor). Acest lucru se realizează prin înmulțire A ij pe deviație standard factorul a. Acest lucru se face în majoritatea pachetelor statistice (și în programul STATISTICA). CoteA ij De obicei, acestea sunt prezentate sub forma unui tabel, unde factorii sunt aranjați sub formă de coloane, iar variabilele sub formă de rânduri:

Un astfel de tabel se numește tabel (matrice) a sarcinilor factorilor. Numerele date în el sunt coeficienții A ij.Numărul 0,86 înseamnă că corelația dintre primul factor și valoarea testului Wechsler este 0,86. Cu cât este mai mare încărcarea factorilor în valoare absolută, cu atât este mai puternică relația dintre variabilă și factor.

APLICAREA METODEI COMPONENTEI PRINCIPALE

PENTRU PRELUCRAREA DATELOR STATISTICE MULTIDIMENSIONALE

Sunt luate în considerare aspectele prelucrării datelor statistice multidimensionale ale evaluării de rating a elevilor pe baza aplicării metodei componentelor principale.

Cuvinte cheie: analiza datelor multivariate, reducerea dimensionalității, analiza componentelor principale, rating.

În practică, se întâlnește adesea o situație în care obiectul de studiu este caracterizat de o varietate de parametri, fiecare dintre ei măsurați sau evaluați. Analiza matricei de date inițiale obținute ca urmare a studiului mai multor obiecte de același tip este o sarcină practic de nerezolvat. Prin urmare, cercetătorul trebuie să analizeze conexiunile și interdependențele dintre parametrii inițiali pentru a elimina unii dintre ei sau a le înlocui cu un număr mai mic de orice funcții din aceștia, păstrând în același timp, dacă este posibil, toate informațiile conținute în aceștia.

În acest sens, apar sarcinile de reducere a dimensionalității, adică trecerea de la matricea de date inițială la un număr semnificativ mai mic de indicatori selectați dintre cei inițiali sau obținuți printr-o anumită transformare (cu cea mai mică pierdere de informații conținute în matricea originală). ), și clasificare - separarea colecțiilor considerate de obiecte în grupuri omogene (într-un anumit sens). Dacă prin un numar mare de indicatori eterogene și stocastic interrelaționați, s-au obținut rezultatele unei anchete statistice a unui întreg set de obiecte, apoi pentru a rezolva problemele de clasificare și reducere a dimensiunii, ar trebui să se utilizeze instrumentele de analiză statistică multivariată, în special metoda de componentele principale.


Articolul propune o tehnică de aplicare a metodei componentelor principale pentru prelucrarea datelor statistice multivariate. Ca exemplu, este dată soluția problemei prelucrării statistice a rezultatelor multivariate ale evaluărilor studenților.

1. Definirea si calculul componentelor principale..png" height="22 src="> caracteristici. Ca rezultat, obținem observații multidimensionale, fiecare dintre acestea putând fi reprezentată ca o observație vectorială

unde https://pandia.ru/text/79/206/images/image005.png" height="22 src=">.png" height="22 src="> este simbolul operației de transpunere.

Observațiile multidimensionale rezultate trebuie procesate statistic..png" height="22 src=">.png" height="22 src=">.png" width="132" height="25 src=">.png" width ="33" height="22 src="> permise transformări ale caracteristicilor studiate 0 " style="border-collapse:collapse">

este condiția de normalizare;

– condiția de ortogonalitate

Obținut printr-o transformare similară https://pandia.ru/text/79/206/images/image018.png" width="79" height="23 src="> și reprezintă principalele componente. Din ele, variabile cu minim varianțele sunt excluse din analiza ulterioară, adică..png" width="131" height="22 src="> în transformarea (2)..png" width="13" height="22 src="> din această matrice sunt egale cu varianţele componentelor principale .

Astfel, primul componenta principală https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src="> se numește o astfel de combinație liniară normalizată-centrată a acestor indicatori, care, printre toate alte combinații similare, are cea mai mare dispersie..png" width="12" height="22 src="> vector matrice personalizat https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">.png" width="80" height="23 src= „> este o astfel de combinație liniară normalizată centrată a acestor indicatori, care nu este corelată cu https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src= ">. png" width="80" height="23 src="> sunt măsurate în unități diferite, apoi rezultatele studiului folosind componentele principale vor depinde în mod semnificativ de alegerea scalei și de natura unităților de măsură , și rezultatele obținute combinații liniare variabilele originale vor fi greu de interpretat. În acest sens, cu diferite unități de măsură ale caracteristicilor inițiale DIV_ADBLOCK310 ">


https://pandia.ru/text/79/206/images/image030.png" width="17" height="22 src=">.png" width="56" height="23 src=">. După o astfel de transformare, componentele principale sunt analizate în raport cu valorile https://pandia.ru/text/79/206/images/image033.png" width="17" height="22 src="> , care este, de asemenea, o matrice de corelare https://pandia.ru/text/79/206/images/image035.png" width="162" height="22 src=">.png" width="13" height=" 22 src="> la i- a-a caracteristică sursă ..png" width="14" height="22 src=">.png" width="10" height="22 src="> este egală cu variația v- componenta principalăhttps://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> sunt utilizate în interpretarea semnificativă a componentelor principale..png" width ="20" height="22 src=">.png" width="251" height="25 src=">

Pentru calcule, observațiile vectoriale sunt agregate într-o matrice de probă, în care rândurile corespund caracteristicilor controlate, iar coloanele corespund obiectelor de studiu (dimensiunea matricei este https://pandia.ru/text/ 79/206/images/image043.png" width="348 "height="67 src=">

După centrarea datelor inițiale, găsim matricea de corelație a eșantionului folosind formula

https://pandia.ru/text/79/206/images/image045.png" width="204" height="69 src=">

Elemente de matrice diagonală https://pandia.ru/text/79/206/images/image047.png" width="206" height="68 src=">

Elementele off-diagonale ale acestei matrice sunt estimări ale coeficienților de corelație dintre perechea corespunzătoare de caracteristici.

Compilarea ecuație caracteristică pentru matricea 0 " style="margin-left:5.4pt;border-collapse:collapse">

Găsește-i toate rădăcinile:

Acum, pentru a găsi componentele vectorilor principali, înlocuim succesiv valori numerice https://pandia.ru/text/79/206/images/image065.png" width="16" height="22 src=" >.png" width="102 "height="24 src=">

De exemplu, cu https://pandia.ru/text/79/206/images/image069.png" width="262" height="70 src=">

Este evident că sistemul de ecuații rezultat este consistent datorită omogenității și este nedefinit, adică are un set infinit de soluții. Pentru a găsi singura soluție care ne interesează, folosim următoarele prevederi:

1. Pentru rădăcinile sistemului, relația poate fi scrisă

https://pandia.ru/text/79/206/images/image071.png" width="20" height="23 src="> – adunare algebrică j-al-lea element din oricare i al-lea rând al matricei sistemului.

2. Prezența condiției de normalizare (2) asigură unicitatea soluției sistemului de ecuații considerat..png" width="13" height="22 src=">, sunt determinate în mod unic, cu excepția faptului că toate acestea poate schimba semnul simultan.Totuși, semnele componentelor vectori proprii nu joacă un rol semnificativ, deoarece modificarea lor nu afectează rezultatul analizei, ele pot servi doar pentru a indica tendințe opuse asupra componentei principale corespunzătoare.

Astfel, obținem propriul nostru vector https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">:

https://pandia.ru/text/79/206/images/image024.png" width="12" height="22 src="> verifica prin egalitate

https://pandia.ru/text/79/206/images/image076.png" width="503" height="22">

… … … … … … … … …

https://pandia.ru/text/79/206/images/image078.png" width="595" height="22 src=">

https://pandia.ru/text/79/206/images/image080.png" width="589" height="22 src=">

unde https://pandia.ru/text/79/206/images/image082.png" width="16" height="22 src=">.png" width="23" height="22 src="> sunt valorile standardizate ale caracteristicilor inițiale corespunzătoare.

Compunem o matrice ortogonală transformare liniară https://pandia.ru/text/79/206/images/image086.png" width="94" height="22 src=">

Întrucât, în conformitate cu proprietățile componentelor principale, suma variațiilor caracteristicilor inițiale este egală cu suma varianțelor tuturor componentelor principale, atunci, având în vedere că am considerat caracteristici inițiale normalizate, putem estima ce parte din variabilitatea totală a caracteristicilor inițiale explică fiecare dintre componentele principale. De exemplu, pentru primele două componente principale avem:

Astfel, în conformitate cu criteriul informativității utilizat pentru componentele principale găsite din matricea de corelație, primele șapte componente principale explică 88,97% din variabilitatea totală a celor cincisprezece caracteristici inițiale.

Folosind matricea de transformare liniară https://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> (pentru primele șapte componente principale):

https://pandia.ru/text/79/206/images/image090.png" width="16" height="22 src="> - numărul de diplome primite la concursul de teze științifice; https:/ /pandia .ru/text/79/206/images/image092.png" width="16" height="22 src=">.png" width="22" height="22 src=">.png" lățime =" 22" height="22 src=">.png" width="22" height="22 src="> – premii și premii luate la competițiile sportive regionale, regionale și urbane.

3..png" width="16" height="22 src=">(numărul de certificate bazat pe rezultatele participării la activități științifice și teze).

4..png" width="22" height="22 src=">(premii și premii luate la concursurile universitare).

6. A șasea componentă principală este corelată pozitiv cu DIV_ADBLOCK311">

4. A treia componentă principală este activitatea elevilor în procesul de învăţământ.

5. A patra și a șasea componentă sunt diligența studenților în semestrele de primăvară, respectiv de toamnă.

6. A cincea componentă principală este gradul de participare la competițiile sportive universitare.

Pe viitor, pentru a efectua toate calculele necesare la identificarea componentelor principale, se propune utilizarea unor sisteme software statistice specializate, precum STATISTICA, care vor facilita foarte mult procesul de analiza.

Procesul de identificare a principalelor componente descris în acest articol pe exemplul evaluării de rating a studenților este propus pentru a fi utilizat pentru atestarea de licență și masterat.

BIBLIOGRAFIE

1. Statistici aplicate: Clasificare și reducerea dimensiunii: Ref. ed. / , ; ed. . - M.: Finanţe şi statistică, 1989. - 607 p.

2. Manual de statistică aplicată: în 2 volume: [per. din engleză] / ed. E. Lloyd, W. Lederman, . - M.: Finanţe şi statistică, 1990. - T. 2. - 526 p.

3. Statistici aplicate. Fundamentele econometriei. În 2 vol. T.1. Teoria probabilităţilor şi statistică aplicată: Proc. pentru universități / , V. S. Mkhitaryan. - ed. a II-a, Ap. - M: UNITATEA-DANA, 2001. - 656 p.

4. Afifi, A. Analiza statistică: o abordare asistată de computer: [trad. din engleză] / A. Afifi, S. Eisen.- M .: Mir, 1982. - 488 p.

5. Drones, analize statistice: studii. indemnizatie / . - Barna 3. – 213 p.

6. Anderson, T. Introduction to multivariate statistical analysis / T. Anderson; pe. din engleza. [si etc.]; ed. . - M .: Stat. Editura Fiz.-Math. lit., 1963. - 500 p.

7. Lawley, D. Analiza factorială ca metodă statistică / D. Lawley, A. Maxwell; pe. din engleza. . – M.: Mir, 1967. – 144 p.

8. Dubrov, metode statistice: manual / , . - M.: Finanțe și statistică, 2003. - 352 p.

9. Kendall, M. Multivariate statistical analysis and time series / M. Kendall, A. Stuart;per. din engleza. , ; ed. , . – M.: Nauka, 1976. – 736 p.

10. Beloglazov, Analiza în probleme de calimetrie a educaţiei, Izv. A FUGIT. Teorie și sisteme de control. - 2006. - Nr. 6. - S. 39 - 52.

Materialul a fost primit de redacția pe 8 noiembrie 2011.

Lucrarea a fost realizată în cadrul programului țintă federal „Personalul științific și științific-pedagogic al Rusiei inovatoare” pentru 2009-2013. (contract de stat nr. P770).

Analiza componentelor se referă la metode de reducere a dimensionalității multivariate. Conține o singură metodă - metoda componentei principale. Componentele principale sunt sistem ortogonal coordonate în care dispersiile componentelor le caracterizează proprietăţile statistice.

Având în vedere că obiectele de studiu din economie sunt caracterizate de un număr mare, dar finit de trăsături, a căror influență este afectată un numar mare motive aleatorii.

Calculul componentei principale

Prima componentă principală Z1 a sistemului studiat de caracteristici X1, X2, X3, X4, ..., Xn este o astfel de combinație liniară centrată - normalizată a acestor caracteristici, care, printre alte combinații liniare centrate - normalizate ale acestor caracteristici, are cea mai variabilă variație.

Ca a doua componentă principală a lui Z2, vom lua o astfel de combinație centrată - normalizată a acestor caracteristici, care:

necorelat cu prima componentă principală,

necorelată cu prima componentă principală, această combinație are cea mai mare varianță.

K-a componentă principală Zk (k=1…m) o vom numi o astfel de combinație centrată - normalizată de caracteristici, care:

nu este corelat cu componentele principale anterioare k-1,

dintre toate combinațiile posibile de caracteristici inițiale care nu sunt

necorelat cu componentele principale anterioare k-1, această combinație are cea mai mare varianță.

Introducem o matrice ortogonală U și trecem de la variabile X la variabile Z și

Vectorul este ales astfel încât dispersia să fie maximă. După obţinere se alege astfel încât varianţa să fie maximă, cu condiţia să nu fie corelată cu etc.

Deoarece semnele sunt măsurate în valori incomparabile, va fi mai convenabil să treceți la valori normalizate centrate. Găsim matricea valorilor caracteristicilor inițiale centrate-normalizate din relația:

unde este estimatorul imparțial, consistent și eficient așteptări matematice,

Estimare imparțială, consecventă și eficientă a variației.

Matricea valorilor observate ale caracteristicilor inițiale este dată în Anexă.

Centrarea și normalizarea s-a făcut cu ajutorul programului „Stadia”.

Deoarece caracteristicile sunt centrate și normalizate, matricea de corelație poate fi estimată folosind formula:


Înainte de a efectua o analiză a componentelor, vom analiza independența caracteristicilor inițiale.

Verificarea semnificației matricei de corelație cu ajutorul testului Wilks.

Propunem o ipoteză:

H0: nesemnificativ

H1: semnificativ

125,7; (0,05;3,3) = 7,8

deoarece > , atunci ipoteza H0 este respinsă și matricea este semnificativă, prin urmare, are sens să se efectueze o analiză a componentelor.

Să verificăm ipoteza despre diagonalitatea matricei de covarianță

Propunem o ipoteză:

Construim statistici, distribuite conform legii cu grade de libertate.

123,21, (0,05;10) =18,307

deoarece >, atunci ipoteza H0 este respinsă și are sens să se efectueze o analiză componente.

Pentru a construi o matrice de încărcări de factori, este necesar să găsiți valorile proprii ale matricei prin rezolvarea ecuației.

Pentru această operație, folosim funcția eigenvals a sistemului MathCAD, care returnează valorile proprii ale matricei:

pentru că Deoarece datele inițiale sunt un eșantion din populația generală, atunci am obținut nu valorile proprii și vectorii proprii ai matricei, ci estimările acestora. Ne va interesa cât de „bun” din punct de vedere statistic caracteristicile eșantionului descriu parametrii corespunzători pentru populația generală.

Intervalul de încredere pentru i-a valoare proprie este căutat prin formula:

Intervale de încredere pentru valori propriiîn cele din urmă ia forma:

Estimarea valorii mai multor valori proprii se încadrează în intervalul de încredere al altor valori proprii. Este necesar să se testeze ipoteza despre multiplicitatea valorilor proprii.

Multiplicitatea este verificată folosind statistici

unde r este numărul de rădăcini multiple.

Această statistică, în cazul corectitudinii, este distribuită conform legii cu numărul de grade de libertate. Să facem ipoteza:

Deoarece, ipoteza este respinsă, adică valorile proprii și nu sunt multiple.

Deoarece, ipoteza este respinsă, adică valorile proprii și nu sunt multiple.

Este necesar să se evidențieze principalele componente la nivelul conținutului informațional de 0,85. Măsura conținutului de informații arată ce parte sau ce proporție din varianța caracteristicilor inițiale sunt primele k-componente principale. Măsura informativității va fi numită valoare:

La un anumit nivel de informativ, se disting trei componente principale.

Să scriem matricea =

Pentru a obține un vector de tranziție normalizat de la caracteristicile inițiale la componentele principale, este necesar să se rezolve sistemul de ecuații: , unde este valoarea proprie corespunzătoare. După obținerea unei soluții la sistem, este necesar să se normalizeze vectorul rezultat.

Pentru a rezolva această problemă, vom folosi funcția eigenvec a sistemului MathCAD, care returnează un vector normalizat pentru valoarea proprie corespunzătoare.

În cazul nostru, primele patru componente principale sunt suficiente pentru a atinge un anumit nivel de conținut informațional, deci matricea U (matricea de tranziție de la baza originală la baza vectorilor proprii)

Construim o matrice U, ale cărei coloane sunt vectori proprii:

Matricea de greutate:

Coeficienții matricei A sunt coeficienți de corelație între caracteristicile inițiale centrate - normalizate și componentele principale nenormalizate și arată prezența, rezistența și direcția conexiune liniarăîntre trăsăturile inițiale respective și componentele principale respective.

La modelarea proceselor de producție și economice, cu cât nivelul subsistemului de producție luat în considerare este mai scăzut (subdiviziunea structurală, procesul studiat), cu atât mai tipică pentru parametrii de intrare este independența relativă a factorilor care îi determină. Atunci când se analizează principalii indicatori calitativi ai muncii unei întreprinderi (productivitatea muncii, costurile de producție, profitul și alți indicatori), trebuie să se ocupe de procese de modelare cu un sistem interconectat de parametri de intrare (factori). În același timp, procesul de modelare statistică a sistemelor se caracterizează printr-o corelație puternică, iar în unele cazuri aproape dependență liniară factori determinanți (parametrii de intrare ai procesului). Acesta este un caz de multicoliniaritate, adică interdependența (corelația) semnificativă a parametrilor de intrare, modelul de regresie de aici nu reflectă în mod adecvat procesul real studiat. Dacă utilizați adăugarea sau respingerea unui număr de factori, creșterea sau scăderea cantității de informații inițiale (numărul de observații), atunci acest lucru va schimba semnificativ modelul procesului studiat. Utilizarea unei astfel de abordări poate schimba dramatic valorile coeficienților de regresie care caracterizează influența factorilor aflați în studiu și chiar direcția influenței acestora (semnul coeficienților de regresie se poate schimba în sens opus atunci când se trece de la unul model la altul).

Din experiență cercetare științifică Se știe că majoritatea proceselor economice sunt diferite un grad înalt influența reciprocă (intercorelația) a parametrilor (factorii studiați). La calcularea regresiei indicatorilor modelați pentru acești factori, apar dificultăți în interpretarea valorilor coeficienților din model. O astfel de multicoliniaritate a parametrilor modelului este adesea caracter local, adică nu toți factorii studiați sunt legați în mod semnificativ între ei, ci grupuri separate de parametri de intrare. Cel mai general caz al sistemelor multicoliniare se caracterizează printr-un astfel de set de factori studiati, dintre care unii formează grupuri separate cu o structură internă puternic interconectată și practic nu au legătură între ele, iar unii sunt factori separați care nu sunt formați în blocuri și sunt nelegate semnificativ atât între ele cât şi cu restul.factori incluşi în grupuri cu puternică intercorelaţie.



Pentru a modela acest tip de procese, este necesar să se rezolve problema cum se înlocuiește setul de factori semnificativ interconectați cu un alt set de parametri necorelați care are o proprietate importantă: un nou set de parametri independenți trebuie să conțină toate informațiile necesare despre variaţia sau dispersia setului iniţial de factori ai procesului studiat. Un mijloc eficient de rezolvare a unei astfel de probleme este utilizarea metodei componentei principale. La utilizarea acestei metode se pune problema interpretării economice a combinațiilor de factori inițiali incluși în seturile de componente principale. Metoda face posibilă reducerea numărului de parametri de intrare a modelului, ceea ce simplifică utilizarea ecuațiilor de regresie rezultate.

Esența calculării componentelor principale este de a determina matricea de corelație (covarianță) pentru factorii inițiali X j și de a găsi numerele caracteristice (valori proprii) ale matricei și vectorii corespunzători. Numerele caracteristice sunt varianțele noilor variabile transformate, iar pentru fiecare număr caracteristic vectorul corespunzător dă ponderea cu care variabilele vechi le intră pe cele noi. Componentele principale sunt combinații liniare ale statisticilor originale. Trecerea de la factorii inițiali (observați) la vectorii componente principale se realizează prin rotație axele de coordonate.

Pentru analiza de regresie, de regulă, sunt utilizate doar primele câteva componente principale, care împreună explică de la 80 la 90% din întreaga variație inițială a factorilor, restul sunt aruncate. Dacă toate componentele sunt incluse în regresie, rezultatul acesteia, exprimat prin variabilele inițiale, va fi identic cu ecuația de regresie multiplă.

Algoritmul de calcul al componentei principale

Să zicem că există m vectori (factori iniţiali) cu dimensiune n(numărul de dimensiuni) care alcătuiesc matricea X:

Întrucât, de regulă, principalii factori ai procesului simulat au unități de măsură diferite (unii sunt exprimați în kg, alții în km, alții în unități monetare etc.), pentru a le compara, compara gradul de influență, operațiunea. se foloseşte scalarea şi centrarea. Să notăm factorii de intrare transformați prin yij. Ca scale, valorile abaterilor standard (rădăcină-medie-pătrată) sunt cel mai adesea alese:

unde σ j este abaterea standard a lui X j ; σ j 2 - dispersie; - valoarea medie a factorilor inițiali din j-a serie de observații dată

(O variabilă aleatoare centrată se numește abatere variabilă aleatorie din așteptările sale matematice. Normalizarea valorii x înseamnă a trece la o nouă valoare y, pentru care valoarea medie este zero și varianța este una).

Să definim matricea coeficienților de corelație de pereche

unde y ij este valoarea normalizată și centrată a x j -a-a variabilă aleatoare pentru i-a măsurare; y ik – valoare pentru k-a aleator cantități.

Valoarea lui r jk caracterizează gradul de răspândire a punctelor în raport cu dreapta de regresie.

Matricea dorită a componentelor principale F se determină din următoarea relație (aici folosim transpusul, - „rotită cu 90 0 ” - matricea valorilor y ij):

sau folosind forma vectorială:

,

unde F este matricea componentelor principale, inclusiv multimea n valori obţinute pentru m componentele principale; elementele matricei A sunt coeficienți de pondere care determină ponderea fiecărei componente principale în factorii inițiali.

Elementele matricei A se găsesc din următoarea expresie

unde u j este vectorul propriu al matricei coeficienților de corelație R; λ j este valoarea proprie corespunzătoare.

Un număr λ se numește valoare proprie (sau număr caracteristic) al unei matrice pătrate R de ordinul m dacă este posibil să se aleagă un vector propriu m-dimensional nenul u astfel încât Ru = λu.

Mulțimea tuturor valorilor proprii ale matricei R coincide cu mulțimea tuturor soluțiilor ecuației |R - λE| = 0. Extinderea determinantului det |R - λE|, obținem polinomul caracteristic al matricei R. Ecuația |R - λE| = 0 se numește ecuația caracteristică a matricei R.

Un exemplu de definire a valorilor proprii și a vectorilor proprii. Dată o matrice.

Ecuația sa caracteristică

Această ecuație are rădăcini λ 1 =18, λ 2 =6, λ 3 =3. găsiți vectorul propriu (direcția) corespunzător lui λ 3 . Înlocuind λ 3 în sistem, obținem:

8u 1 – 6u 2 +2u 3 = 0

6u 1 + 7u 2 - 4u 3 = 0

2u 1 - 4u 2 + 3u 3 = 0

Deoarece determinantul acestui sistem este egal cu zero, atunci, conform regulilor algebrei liniare, puteți renunța la ultima ecuație și puteți rezolva sistemul rezultat în raport cu o variabilă arbitrară, de exemplu, u 1 \u003d c \u003d 1

6u2 + 2u3 = - 8c

7 u 2 - 4 u 3 \u003d 6 s

De aici obținem o direcție proprie (vector) pentru λ 3 =3

1 în același mod puteți găsi vectorii proprii

Principiu general, care stă la baza procedurii de găsire a componentelor principale este prezentată în Fig. 29.



Orez. 29. Schema de conectare a componentelor principale cu variabile

Coeficienții de pondere caracterizează gradul de influență (și orientarea) acestei proprietăți de generalizare „ascunse” (concept global) asupra valorilor indicatorilor măsurați Х j .

Un exemplu de interpretare a rezultatelor analizei componentelor:

Denumirea componentei principale F 1 este determinată de prezența în structura sa a unor trăsături semnificative X 1 , X 2 , X 4 , X 6 , toate reprezentând caracteristicile eficienței activității de producție, adică. F1- eficienta productiei.

Denumirea componentei principale F2 este determinată de prezența în structura sa a caracteristicilor semnificative X 3 , X 5 , X 7, adică. F2 este mărimea resurselor de producţie.

CONCLUZIE

Date in manual materiale didactice, menit să stăpânească modelarea economică și matematică în vederea justificării deciziilor de management. Se acordă multă atenție programării matematice, incluzând programarea cu numere întregi, programarea neliniară, programarea dinamică, problemele de tip transport, teoria cozilor, analiza componentelor principale. Modelarea este considerată în detaliu în practica organizării și conducerii sistemelor de producție, în activitatea antreprenorială și managementul financiar. Studiul materialului prezentat presupune utilizarea pe scară largă a tehnicilor de modelare și calcul folosind pachetul software PRIMA și în mediul de calcul Excel.

Componentele principale

5.1 Metodele de regresie multiplă și corelație canonică implică împărțirea setului existent de caracteristici în două părți. Cu toate acestea, o astfel de diviziune poate să nu fie întotdeauna întemeiată în mod obiectiv și, prin urmare, este nevoie de astfel de abordări ale analizei relației indicatorilor care ar implica luarea în considerare a vectorului caracteristic în ansamblu. Desigur, la implementarea unor astfel de abordări se poate detecta o anumită eterogenitate în această baterie de caracteristici, atunci când sunt identificate obiectiv mai multe grupuri de variabile. Pentru caracteristici dintr-un astfel de grup corelații încrucișate va fi mult mai mare în comparație cu combinațiile de indicatori din diferite grupuri. Totuși, această grupare se va baza pe rezultatele unei analize obiective a datelor, și nu pe considerente arbitrare a priori ale cercetătorului.

5.2 Când studiem corelațiile în cadrul unora un singur set m caracteristici


X„= X 1 X 2 X 3 ... X m

se poate folosi aceeași metodă care a fost folosită în analiza regresiei multiple și metoda corelațiilor canonice - obținerea de noi variabile, a căror variație reflectă pe deplin existența corelațiilor multivariate.

Scopul luării în considerare a relațiilor intra-grup ale unui singur set de trăsături este de a identifica și vizualiza direcțiile principale existente în mod obiectiv ale variației corelative a acestor variabile. Prin urmare, în aceste scopuri, puteți introduce câteva variabile noi Y i , găsite ca combinații liniare ale setului original de caracteristici X

Y 1 = b 1"X= b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Y 2 = b 2"X= b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

Y 3 = b 3"X= b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Y m = b m „X= b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

și având o serie de proprietăți dezirabile. Fie, pentru certitudine, numărul de caracteristici noi să fie egal cu numărul de indicatori originali (m).

Una dintre aceste proprietăți optime de dorit poate fi necorelarea reciprocă a noilor variabile, adică forma diagonală a matricei lor de covarianță

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

Sy= 0 0 s y3 2 ... 0 , (5.2)

... ... ... ... ...

0 0 0 … s ym 2

unde s yi 2 este varianța i-a nouă caracteristică Y i . Necorelarea noilor variabile, pe lângă comoditatea sa evidentă, are o proprietate importantă - fiecare caracteristică nouă Y i va lua în considerare doar partea sa independentă a informațiilor despre variabilitatea și corelarea indicatorilor originali X.

A doua proprietate necesară a noilor semne este contabilizarea ordonată a variației indicatorilor inițiali. Deci, prima variabilă nouă Y 1 să ia în considerare ponderea maximă a variației totale a caracteristicilor X. Aceasta, așa cum vom vedea mai târziu, este echivalentă cu cerința ca Y 1 să aibă variația maximă posibilă s y1 2 . Luând în considerare egalitatea (1.17), această condiție poate fi scrisă ca

s y1 2 = b 1 "Sb 1= max , (5,3)

Unde S- matricea de covarianță a caracteristicilor inițiale X, b 1- un vector care include coeficienții b 11 , b 12 , b 13 , ..., b 1m cu care, prin valorile lui X 1 , X 2 , X 3 , ..., X m se poate obține valoarea lui Y 1 .

Fie a doua nouă variabilă Y 2 să descrie partea maximă a acelei componente a variației totale care a rămas după luarea în considerare a ponderii sale cele mai mari în variabilitatea primei caracteristici noi Y 1 . Pentru a realiza acest lucru, este necesar să îndepliniți condiția

s y2 2 = b 2 "Sb 2= max , (5,4)

la zero conexiunea Y 1 cu Y 2 , (adică r y1y2 = 0) și la s y1 2 > s y2 2 .

În mod similar, a treia caracteristică nouă Y 3 ar trebui să descrie a treia cea mai importantă parte a variației caracteristicilor originale, pentru care varianța sa ar trebui să fie, de asemenea, maximă.

s y3 2 = b 3 "Sb 3= max , (5,5)

cu condiția ca Y 3 să nu fie corelat cu primele două caracteristici noi Y 1 și Y 2 (adică r y1y3 = 0, r y2y3 = 0) și s y1 2 > s y2 > s y3 2 .

Astfel, varianțele tuturor noilor variabile sunt caracterizate prin ordonarea în mărime

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5,6)

5.3 Vectori din formula (5.1) b 1 , b 2 , b 3 , ..., b m , cu ajutorul căruia ar trebui efectuată trecerea la noile variabile Y i, poate fi scrisă sub forma unei matrice


B = b 1 b 2 b 3 ... b m . (5,7)

Tranziția de la un set de caracteristici inițiale X la un set de variabile noi Y poate fi reprezentat ca o formulă matriceală

Y = B" X , (5.8)

iar obținerea matricei de covarianță a noilor caracteristici și realizarea condiției (5.2) de noi variabile necorelate în conformitate cu formula (1.19) pot fi reprezentate ca

B"SB= Sy , (5.9)

unde este matricea de covarianță a noilor variabile Sy datorita necorelatiei lor, are forma diagonala. Din teoria matricelor (secțiunea A.25 Anexa A) se ştie că, obţinându-se pentru o matrice simetrică A vectori proprii tu iși numerele l i și

chemând matrici din ele Uși L, este posibil, conform formulei (A.31), să se obțină rezultatul

U "AU= L ,

Unde L este o matrice diagonală care include valorile proprii ale matricei simetrice A. Este ușor de observat că ultima egalitate coincide complet cu formula (5.9). Prin urmare, se poate trage următoarea concluzie. Proprietățile de dorit ale noilor variabile Y poate fi asigurat dacă vectorii b 1 , b 2 , b 3 , ..., b m , cu ajutorul căruia ar trebui efectuată trecerea la aceste variabile, vor fi vectorii proprii ai matricei de covarianță a caracteristicilor inițiale S. Atunci dispersiile de caracteristici noi s yi 2 vor fi valori proprii

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Variabilele noi, tranziția la care conform formulelor (5.1) și (5.8) se realizează folosind vectorii proprii ai matricei de covarianță a caracteristicilor originale, sunt numite componente principale. Datorită faptului că numărul de vectori proprii ai matricei de covarianță este în general egal cu m - numărul de caracteristici inițiale pentru această matrice, numărul de componente principale este, de asemenea, egal cu m.

În conformitate cu teoria matricelor, pentru a găsi valorile proprii și vectorii matricei de covarianță, ar trebui să rezolvăm ecuația

(S-l eu eu)b i = 0 . (5.11)

Această ecuație are o soluție dacă este îndeplinită condiția ca determinantul să fie egal cu zero

½ S-l eu eu½ = 0. (5,12)

Această condiție se dovedește, de asemenea, a fi o ecuație ale cărei rădăcini sunt toate valorile proprii l 1 , l 2 , l 3 , ..., l m ale matricei de covarianță care coincid simultan cu variațiile componentelor principale. După obținerea acestor numere, pentru fiecare i-a dintre ele, conform ecuației (5.11), puteți obține vectorul propriu corespunzător. b eu . În practică, proceduri iterative speciale sunt utilizate pentru a calcula valorile proprii și vectori (Anexa B).

Toți vectorii proprii pot fi scriși ca o matrice B, care va fi o matrice ortonormală, astfel încât (secțiunea A.24 Anexa A) pentru aceasta se realizează

B"B = bb" = eu . (5.13)

Acesta din urmă înseamnă că pentru orice pereche de vectori proprii, b i "b j= 0, iar pentru orice astfel de vector egalitatea b i "b i = 1.

5.4 Să ilustrăm derivarea componentelor principale pentru cel mai simplu caz a două caracteristici inițiale X 1 și X 2 . Matricea de covarianță pentru această mulțime este

unde s 1 și s 2 sunt abaterile standard ale caracteristicilor X 1 și X 2 și r este coeficientul de corelație dintre ele. Atunci condiția (5.12) poate fi scrisă ca

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Figura 5.1.Semnificaţia geometrică a componentelor principale

Extinderea determinantului, putem obține ecuația

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0,

Rezolvând care, puteți obține două rădăcini l 1 și l 2 . Ecuația (5.11) poate fi scrisă și ca


s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Înlocuind l 1 în această ecuație, obținem sistem liniar

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0,

a căror soluție sunt elementele primului vector propriu b 11 și b 12 . După o înlocuire similară a celei de-a doua rădăcini l 2 găsim elementele celui de-al doilea vector propriu b 21 și b 22 .

5.5 Să aflăm sens geometric componentele principale. Acest lucru se poate face vizual numai pentru cel mai simplu caz de două caracteristici X 1 și X 2 . Să fie caracterizate printr-o bidimensională distributie normala cu o valoare pozitivă a coeficientului de corelaţie. Dacă toate observațiile individuale sunt aplicate pe planul format de axele caracteristice, atunci punctele corespunzătoare acestora vor fi situate în interiorul unei anumite elipse de corelație (Fig. 5.1). Caracteristicile noi Y 1 și Y 2 pot fi, de asemenea, afișate pe același plan ca axele noi. Conform sensului metodei, pentru prima componentă principală Y 1 , care ia în considerare variația totală maximă posibilă a caracteristicilor X 1 și X 2 , trebuie atins maximul variației sale. Aceasta înseamnă că pentru Y 1 ar trebui să se găsească astfel

axa astfel încât lățimea distribuției valorilor sale să fie cea mai mare. Evident, acest lucru se va realiza dacă această axă coincide în direcție cu cea mai mare axă a elipsei de corelație. Într-adevăr, dacă proiectăm toate punctele corespunzătoare observațiilor individuale pe această coordonată, vom obține o distribuție normală cu cel mai mare interval posibil și cea mai mare dispersie. Aceasta va fi distribuția valorilor individuale ale primei componente principale Y 1 .

Axa corespunzătoare celei de-a doua componente principale Y 2 trebuie desenată perpendicular pe prima axă, așa cum rezultă din condiția componentelor principale necorelate. Într-adevăr, în acest caz vom obține un nou sistem de coordonate cu axele Y 1 și Y 2 care coincid în direcția cu axele elipsei de corelație. Se poate observa că elipsa de corelație, atunci când este luată în considerare în sistem nou coordonatele arată valorile individuale necorelate ale Y 1 și Y 2 , în timp ce pentru valorile caracteristicilor originale X 1 și X 2 s-a observat corelație.

Trecerea de la axele asociate caracteristicilor originale X 1 și X 2 la un nou sistem de coordonate orientat către componentele principale Y 1 și Y 2 este echivalentă cu rotirea axelor vechi cu un unghi j. Valoarea acestuia poate fi găsită prin formula

Tg 2j = . (5,14)

Trecerea de la valorile caracteristicilor X 1 și X 2 la componentele principale poate fi efectuată în conformitate cu rezultatele geometriei analitice sub forma

Y 1 \u003d X 1 cos j + X 2 sin j

Y 2 \u003d - X 1 sin j + X 2 cos j.

Același rezultat poate fi scris sub formă de matrice

Y 1 \u003d cos j sin j X 1 și Y 2 \u003d -sin j cos j X 1,

care corespunde exact transformării Y 1 = b 1"Xși Y2 = b 2"X. Cu alte cuvinte,

= B" . (5.15)

Astfel, matricea vectorului propriu poate fi de asemenea tratată ca incluzând funcții trigonometrice unghiul de rotație care ar trebui efectuat pentru a trece de la sistemul de coordonate asociat caracteristicilor originale la noi axe bazate pe componentele principale.

Dacă avem m caracteristici inițiale X 1 , X 2 , X 3 , ..., X m , atunci observațiile care alcătuiesc eșantionul luat în considerare vor fi localizate în interiorul unui elipsoid de corelație m-dimensional. Apoi axa primei componente principale va coincide în direcție cu cea mai mare axă a acestui elipsoid, axa celei de-a doua componente principale va coincide cu a doua axă a acestui elipsoid și așa mai departe. Trecerea de la sistemul de coordonate original asociat cu axele caracteristicilor X 1 , X 2 , X 3 , ..., X m la noile axe ale componentelor principale va fi echivalentă cu implementarea mai multor rotații ale vechilor axe prin unghiurile j 1 , j 2 , j 3 , .. . și matricea de tranziție B decalaj X la sistemul de componente principale Y, format din propriile pleoape -

tori ai matricei de covarianță, include funcțiile trigonometrice ale unghiurilor noilor axe de coordonate cu axele vechi ale caracteristicilor originale.

5.6 În conformitate cu proprietățile valorilor proprii și ale vectorilor, urmele matricelor de covarianță ale caracteristicilor inițiale și ale componentelor principale sunt egale. Cu alte cuvinte

tr S= tr S y = tr L (5.16)

s 11 + s 22 + ... + s mm \u003d l 1 + l 2 + ... + l m,

acestea. suma valorilor proprii ale matricei de covarianță este egală cu suma varianțelor tuturor caracteristicilor inițiale. Prin urmare, putem vorbi despre o oarecare valoare totală a varianței caracteristicilor inițiale egală cu tr S, și luate în considerare de sistemul de valori proprii.

Faptul că prima componentă principală are o varianță maximă egală cu l 1 înseamnă automat că descrie și ponderea maximă a variației totale a caracteristicilor originale tr S. În mod similar, a doua componentă principală are a doua cea mai mare varianță l 2 , care corespunde celei de-a doua ponderi contabile ca mărime din variația totală a caracteristicilor originale și așa mai departe.

Pentru fiecare componentă principală, este posibil să se determine ponderea valorii totale a variabilității caracteristicilor inițiale, pe care o descrie

5.7 Evident, ideea variației totale a mulțimii de caracteristici inițiale X 1 , X 2 , X 3 , ..., X m , măsurată prin valoarea tr S, are sens numai atunci când toate aceste caracteristici sunt măsurate în aceleași unități. În caz contrar, va trebui să adăugați dispersiile diferitelor caracteristici, dintre care unele vor fi exprimate în pătrate de milimetri, altele în pătrate de kilograme, altele în pătrate de radiani sau grade etc. Această dificultate poate fi ușor evitată dacă se trece de la valorile numite ale caracteristicilor X ij la valorile lor normalizate z ij = (X ij - M i)./ S i unde M i și S i sunt media aritmetică și abaterea standard a caracteristicii i-a. Caracteristicile normalizate z au medii zero, variații de unități și nu sunt asociate cu nicio unitate de măsură. Matricea de covarianță a caracteristicilor inițiale S se va transforma într-o matrice de corelaţie R.

Tot ce s-a spus despre componentele principale găsite pentru matricea de covarianță rămâne adevărat pentru matrice R. Și aici este posibil, bazându-se pe vectorii proprii ai matricei de corelație b 1 , b 2 , b 3 , ..., b m , treceți de la caracteristicile inițiale z i la componentele principale y 1 , y 2 , y 3 , ..., y m

y 1 = b 1 "z

y 2 = b 2 "z

y 3 = b 3 "z

y m = b m "z .

Această transformare poate fi scrisă și într-o formă compactă

y = B"z ,

Figura 5.2. Semnificația geometrică a componentelor principale pentru două caracteristici normalizate z 1 și z 2

Unde y- vector de valori ale componentelor principale, B- matrice care include vectori proprii, z- vector de caracteristici inițiale normalizate. Egalitatea este, de asemenea, adevărată

B „RB= ... ... … , (5.18)

unde l 1 , l 2 , l 3 , ..., l m sunt valorile proprii ale matricei de corelație.

Rezultatele obținute în analiza matricei de corelație diferă de rezultate similare pentru matricea de covarianță. În primul rând, acum este posibil să luăm în considerare caracteristicile măsurate în diferite unități. În al doilea rând, vectorii proprii și numerele găsite pentru matrice Rși S, sunt de asemenea diferite. În al treilea rând, componentele principale determinate de matricea de corelație și bazate pe valorile normalizate ale caracteristicilor z se dovedesc a fi centrate - adică. având valori medii zero.

Din păcate, după ce s-au determinat vectorii proprii și numerele pentru matricea de corelație, este imposibil să se treacă de la aceștia la vectori și numere similare ale matricei de covarianță. În practică, componentele principale bazate pe matricea de corelație sunt de obicei utilizate ca și mai universale.

5.8 Să luăm în considerare semnificația geometrică a componentelor principale determinate din matricea de corelație. Cazul a două caracteristici z 1 și z 2 este ilustrativ aici. Sistemul de coordonate asociat acestor caracteristici normalizate are un punct zero situat în centrul graficului (Fig. 5.2). Punctul central al elipsei de corelație,

inclusiv toate observațiile individuale, coincide cu centrul sistemului de coordonate. Evident, axa primei componente principale, care are variația maximă, va coincide cu cea mai mare axă a elipsei de corelație, iar coordonata celei de-a doua componente principale va fi orientată de-a lungul celei de-a doua axe a acestei elipse.

Trecerea de la sistemul de coordonate asociat caracteristicilor originale z 1 și z 2 la noile axe ale componentelor principale este echivalentă cu rotirea primelor axe cu un anumit unghi j. Variantele caracteristicilor normalizate sunt egale cu 1 iar prin formula (5.14) se poate afla valoarea unghiului de rotatie j egala cu 45 o . Atunci matricea vectorilor proprii, care poate fi determinată în funcție de funcțiile trigonometrice ale acestui unghi folosind formula (5.15), va fi egală cu

Cos j sin j 1 1 1

B" = = .

Sin j cos j (2) 1/2 -1 1

Valorile valorilor proprii pentru cazul bidimensional sunt, de asemenea, ușor de găsit. Condiția (5.12) se dovedește a fi de forma

care corespunde ecuaţiei

l 2 - 2l + 1 - r 2 \u003d 0,

care are două rădăcini

l 1 = 1 + r (5,19)

Astfel, principalele componente ale matricei de corelație pentru două caracteristici normalizate pot fi găsite folosind formule foarte simple

Y 1 = (z 1 + z 2) (5,20)

Y 2 \u003d (z 1 - z 2)

Valorile lor medii aritmetice sunt egale cu zero, iar abaterile standard sunt

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 În conformitate cu proprietățile valorilor proprii și ale vectorilor, urmele matricei de corelație a caracteristicilor inițiale și ale matricei valorilor proprii sunt egale. Variația totală a m caracteristici normalizate este egală cu m. Cu alte cuvinte

tr R= m = tr L (5.21)

l 1 + l 2 + l 3 + ... + l m = m .

Atunci ponderea variației totale a caracteristicilor inițiale, descrise de a i-a componentă principală este egală cu

De asemenea, puteți introduce conceptul de P cn - ponderea variației totale a caracteristicilor originale, descrisă de primele n componente principale,

n l 1 + l 2 + ... + l n

P cn = S P i = . (5,23)

Faptul că pentru valorile proprii există o ordonare a formei l 1 > l 2 > > l 3 > ... > l m înseamnă că relații similare vor fi caracteristice și cotelor descrise de principalele componente ale variației.

P 1 > P 2 > P 3 > ... > P m . (5,24)

Proprietatea (5.24) presupune o formă specifică de dependență a cotei acumulate P сn de n (Fig. 5.3). În acest caz, primele trei componente principale descriu partea principală a variabilității caracteristicilor. Aceasta înseamnă că, adesea, primele componente principale pot reprezenta împreună până la 80 - 90% din variația totală a caracteristicilor, în timp ce fiecare componentă principală ulterioară va crește această pondere foarte ușor. Apoi, pentru o analiză și interpretare ulterioară, doar aceste câteva prime componente principale pot fi utilizate cu încredere că descriu cele mai importante modele de variabilitate și corelație intragrup.

Figura 5.3. Dependenţa proporţiei variaţiei totale a caracteristicilor P cn , descrisă de n primele componente principale, de valoarea lui n. Numărul de caracteristici m = 9

Figura 5.4. La definirea construcției criteriului de separare a componentelor principale

semne. Datorită acestui fapt, numărul de noi variabile informative cu care să lucrați poate fi redus cu un factor de 2 - 3. Astfel, componentele principale au una mai importantă și proprietate utilă- simplifică foarte mult descrierea variației caracteristicilor originale și o fac mai compactă. O astfel de reducere a numărului de variabile este întotdeauna de dorit, dar este asociată cu unele distorsiuni. poziție relativă puncte corespunzătoare observațiilor individuale în spațiul celor câteva prime componente principale în comparație cu spațiul m-dimensional al caracteristicilor originale. Aceste distorsiuni apar din încercarea de a strânge spațiul caracteristic în spațiul primelor componente principale. Totuși, în statistica matematică se dovedește că dintre toate metodele care pot reduce semnificativ numărul de variabile, trecerea la componentele principale duce la cea mai mică distorsiune a structurii observațiilor asociate cu această scădere.

5.10 O problemă importantă în analiza componentelor principale este problema determinării numărului acestora pentru o analiză ulterioară. Evident, o creștere a numărului de componente principale crește ponderea cumulativă a variabilității considerate P cn și o apropie de 1. În același timp, compactitatea descrierii rezultate scade. Alegerea numărului de componente principale, care oferă simultan atât caracterul complet cât și compactitatea descrierii, se poate baza pe diferite criterii utilizate în practică. Le enumerăm pe cele mai comune dintre ele.

Primul criteriu se bazează pe considerația că numărul de componente principale luate în considerare ar trebui să ofere suficientă caracter complet informativ al descrierii. Cu alte cuvinte, principalele componente luate în considerare ar trebui să descrie cea mai mare parte a variabilității totale a caracteristicilor inițiale: până la 75 - 90%. Alegerea unui nivel specific al cotei acumulate P cn rămâne subiectivă și depinde atât de opinia cercetătorului, cât și de problema care se rezolvă.

Un alt criteriu similar (criteriul Kaiser) ne permite să includem componente principale cu valori proprii mai mari decât 1. Se bazează pe presupunerea că 1 este varianța unei caracteristici inițiale normalizate. Poet-

Prin urmare, includerea în analiza ulterioară a tuturor componentelor principale cu valori proprii mai mari decât 1 înseamnă că luăm în considerare numai acele variabile noi care au variații ale cel puțin unei caracteristici originale. Criteriul Kaiser este foarte comun și utilizarea sa este încorporată în multe pachete software pentru prelucrarea datelor statistice atunci când este necesar să se stabilească valoarea minimă a valorii proprii considerate, iar valoarea implicită este adesea luată egală cu 1.

Criteriul de cernere al lui Cattell este teoretic fundamentat ceva mai bine. Aplicarea sa se bazează pe luarea în considerare a unui grafic pe care valorile tuturor valorilor proprii sunt reprezentate în ordine descrescătoare (Fig. 5.4). Criteriul lui Cattell se bazează pe efectul care a reprezentat grafic pe un grafic, succesiunea valorilor proprii obținute dă de obicei o linie concavă. Primele câteva valori proprii arată o scădere nerectilinie a nivelului lor. Totuși, pornind de la o anumită valoare proprie, scăderea acestui nivel devine aproximativ rectilinie și destul de blândă. Includerea componentelor principale în considerație se termină cu cea a cărei valoare proprie începe o secțiune plană rectilinie a graficului. Deci, în Figura 5.4, în conformitate cu criteriul Cattell, numai primele trei componente principale ar trebui incluse în considerare, deoarece a treia valoare proprie se află chiar la începutul secțiunii înclinate rectilinie a graficului.

Criteriul Cattell se bazează pe următoarele. Dacă luăm în considerare datele despre m caracteristici, obținute artificial dintr-un tabel de distribuție normală numere aleatorii, atunci pentru ei corelațiile dintre trăsături vor fi complet aleatorii și vor fi apropiate de 0. Când aici se găsesc componentele principale, se va putea detecta o scădere treptată a mărimii valorilor proprii ale acestora, care are un caracter rectiliniu. Cu alte cuvinte, o scădere în linie dreaptă a valorilor proprii poate indica absența informațiilor corespunzătoare despre corelarea semnelor relațiilor non-aleatoare.

5.11 La interpretarea componentelor principale se folosesc cel mai des vectorii proprii, prezentați sub forma așa-numitelor încărcări - coeficienți de corelație a caracteristicilor originale cu componentele principale. Vectori proprii b i egalitatea satisfăcătoare (5.18) se obțin într-o formă normalizată, astfel încât b i "b i= 1. Aceasta înseamnă că suma pătratelor elementelor fiecărui vector propriu este 1. Vectorii proprii ale căror elemente sunt încărcări pot fi găsiți cu ușurință prin formula

un i= (l i) 1/2 b i . (5.25)

Cu alte cuvinte, prin înmulțirea formei normalizate a vectorului propriu cu rădăcina pătrată a valorii sale proprii, se poate obține un set de încărcări inițiale de caracteristici pe componenta principală corespunzătoare. Pentru vectorii de sarcină, egalitatea se dovedește a fi adevărată a i "a i= l i , însemnând că suma încărcărilor pătrate pe i-a principal componenta este egală cu i-a valoare proprie. Programele de calculator produc de obicei vectori proprii sub formă de încărcări. Dacă este necesar să se obțină acești vectori într-o formă normalizată b i acest lucru se poate face cu o formulă simplă b i = un i/ (l i) 1/2 .

5.12 Proprietățile matematice ale valorilor proprii și ale vectorilor sunt astfel încât, în conformitate cu secțiunea A.25 Anexele A original matricea de corelare R poate fi prezentat sub formă R = BLB", care poate fi scris și ca

R= l 1 b 1 b 1 "+ l 2 b 2 b 2 "+ l 3 b 3 b 3 "+ ... + lm b m b m " . (5.26)

De remarcat că oricare dintre termenii l i b i b i", corespunzătoare i-a principal componenta este matrice pătrată

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

eu b i b i"= l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im . (5,27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Aici b ij este un element al i-lea vector propriu al j-lea caracteristică originală. Orice termen diagonal al unei astfel de matrice l i b ij 2 este o fracțiune a variației celui de-al j-lea atribut, descris de i-a componentă principală. Apoi, varianța oricărei j-a caracteristică poate fi reprezentată ca

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

ceea ce înseamnă extinderea sa sub aspectul contribuţiilor în funcţie de toate componentele principale.

În mod similar, orice termen off-diagonal l i b ij b ik al matricei (5.27) este o anumită parte a coeficientului de corelație r jk al j-lea și k-lea trăsături luate în considerare de a i-a componentă principală. Apoi putem scrie expansiunea acestui coeficient ca sumă

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

contribuțiile tuturor m componentelor principale la acesta.

Astfel, din formulele (5.28) și (5.29), se poate observa clar că fiecare componentă principală descrie o anumită parte a varianței fiecărei caracteristici inițiale și coeficientul de corelație al fiecăreia dintre combinațiile lor.

Ținând cont de faptul că elementele formei normalizate a vectorilor proprii b ij sunt legate de sarcinile a ij printr-o relație simplă (5.25), expansiunea (5.26) se poate scrie și în termenii vectorilor proprii ai sarcinilor. R = AA", care poate fi reprezentat și ca

R = a 1 a 1" + a 2 a 2" + a 3 a 3" + ... + a m a m" , (5.30)

acestea. ca suma contribuţiilor fiecăreia dintre cele m componente principale. Fiecare dintre aceste contribuții a i a i" poate fi scris ca o matrice

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

a i a i"= a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

pe diagonalele cărora sunt plasate a ij 2 - contribuții la varianța caracteristicii inițiale j-a și elementele în afara diagonalei a ij a ik - sunt contribuții similare la coeficientul de corelație r jk al j-a și k- caracteristicile.

Acțiune