Tipuri și tipuri de date. Cântare de măsurare

Utilizarea anumitor metode statistice este determinată de scara statistică căreia îi aparține materialul obținut. S. Stevens a propus să facă distincția între patru scale statistice:

1. scara numelor (sau nominale);

2. scară de ordine;

3. scara intervalului;

4. scara relatiilor.

Cunoscând caracteristicile tipice ale fiecărei scale, nu este dificil să se determine în care dintre ele ar trebui clasificat materialul supus prelucrării statistice.

Scala de nume. Această scară include materiale în care obiectele studiate diferă unele de altele prin calitatea lor.

La prelucrarea unor astfel de materiale, nu este nevoie să aranjați aceste obiecte în nicio ordine în funcție de caracteristicile lor. În principiu, obiectele pot fi aranjate în orice ordine.

Iată un exemplu: se studiază componența unei conferințe științifice internaționale. Printre participanți se numără francezi, englezi, danezi, germani și ruși. Ordinea în care sunt aranjați participanții contează atunci când examinăm compoziția unei conferințe? Le puteți aranja alfabetic, acest lucru este convenabil, dar este clar că nu există o semnificație fundamentală în acest aranjament. La traducerea acestor materiale într-o altă limbă (și, prin urmare, într-un alt alfabet), această ordine va fi perturbată. Puteți aranja grupuri naționale în funcție de numărul de participanți. Dar când comparăm acest material cu materialul unei alte conferințe, constatăm că este puțin probabil ca această ordine să fie aceeași. Obiectele atribuite scalei de denumire pot fi plasate în orice ordine în funcție de scopul studiului.

La prelucrarea statistică a acestui tip de material trebuie să se țină cont de numărul de unități prin care este reprezentat fiecare obiect. Există metode statistice foarte eficiente care permit să se ajungă la concluzii semnificative din punct de vedere științific din aceste date numerice (de exemplu, metoda chi-pătrat).

Scala de comandă. Dacă în scara de numire ordinea obiectelor studiate nu joacă practic niciun rol, atunci în scara de ordine - acest lucru este clar din numele său - este îndreptată toată atenția către această secvență.

Această scară în statistică include astfel de materiale de cercetare în care obiectele sunt supuse analizei care aparțin uneia sau mai multor clase, dar diferă atunci când sunt comparate una cu alta - „mai mult-mai puțin”, „mai mult-mai jos” - etc.

Cel mai simplu mod de a arăta caracteristicile tipice ale scalei de ordine este să te uiți la rezultatele publicate ale oricărei competiții sportive. Aceste rezultate listează secvenţial participanţii care au ocupat primul, al doilea, al treilea şi, respectiv, locurile ulterioare. Dar în aceste informații despre rezultatele competițiilor, informațiile despre realizările reale ale sportivilor sunt adesea absente sau dispar în fundal, iar locurile lor ordinale sunt puse în prim-plan.

Să presupunem că șahul D. a ocupat primul loc în competiție. Care sunt realizările lui? Se pare că a marcat 12 puncte. Şahista E. a ocupat locul doi. Realizarea lui este de 10 puncte. Locul al treilea a fost ocupat de J. cu opt puncte, al patrulea cu 3. cu șase puncte etc. În rapoartele despre competiție, diferența de realizări la plasarea jucătorilor de șah trece pe fundal, iar locurile lor ordinale rămân pe primul loc. Faptul că locului ordinal i se acordă importanța principală are propriul său sens. De fapt, în exemplul nostru, Z. a marcat șase și D. a marcat 12 puncte. Acestea sunt realizările lor absolute - jocurile pe care le-au câștigat. Dacă am încerca să interpretăm această diferență în realizări pur aritmetic, ar trebui să admitem că Z joacă de două ori mai rău decât D. Dar nu putem fi de acord cu asta. Circumstanțele competiției nu sunt întotdeauna simple, la fel cum nu este întotdeauna simplu felul în care un sau altul participant le-a desfășurat. Prin urmare, abținându-se de la absolutizarea aritmetică, ei se limitează la ceea ce stabilesc: șahist 3. rămâne în urma lui D., care a ocupat primul loc, cu trei locuri ordinale.

Scala intervalului. Acestea includ materiale care oferă o evaluare cantitativă a obiectului studiat în unități fixe.

Să revenim la experimentele pe care psihologul le-a efectuat cu Sasha. Experimentele au ținut cont de câte puncte puteau pune Sasha însuși și fiecare dintre colegii săi, lucrând la viteza maximă disponibilă. Unitățile de evaluare din experimente au fost numărul de puncte. După ce le-a numărat, cercetătorul a primit numărul absolut de puncte pe care s-a dovedit a fi posibil să le plaseze în timpul alocat fiecărui participant la experimente. Principala dificultate în atribuirea materialelor la o scală de interval este că este necesar să existe o unitate care să fie identică cu ea însăși pentru toate măsurătorile repetate, adică identică și neschimbată. În exemplul cu jucători de șah (scale of order), o astfel de unitate nu există deloc.

De fapt, se ține cont de numărul de jocuri câștigate de fiecare participant la competiție. Dar este clar că părțile sunt departe de a fi identice. Este posibil ca participantul la competiție care a ocupat locul al patrulea - a câștigat șase jocuri - să câștige cel mai dificil joc împotriva liderului însuși! Dar în rezultatele finale se pare că se acceptă că toate jocurile câștigate sunt la fel. În realitate nu este cazul. Prin urmare, atunci când lucrați cu astfel de materiale, este oportun să le evaluați în conformitate cu cerințele unei scale de comandă, mai degrabă decât cu o scală de intervale. Materialele care urmează o scară de interval trebuie să aibă o unitate de măsură.

Scala de relații. Această scară include materiale care iau în considerare nu numai numărul de unități fixe, ca în scara intervalului, ci și relația dintre rezultatele totale rezultate între ele. Pentru a lucra cu astfel de relații, trebuie să aveți un anumit punct absolut de la care să contați. La studierea obiectelor psihologice, această scară este practic inaplicabilă.

Cel mai important punct, în ceea ce privește utilizarea practică a modelelor de sistem, este stabilirea gradului de corespondență dintre model și obiectele, fenomenele sau procesele care se modelează. Scopul stabilirii unei astfel de corespondențe este de a clarifica întrebarea dacă modelul este adecvat cu originalul. Cea mai eficientă și cea mai utilizată metodă pentru stabilirea adevărului unui model este compararea implicațiilor teoretice obținute folosind modelul cu date experimentale sau măsurători experimentale.

Rezultatele oricărui experiment sunt înregistrate într-o formă sau alta și apoi, de regulă, sunt folosite fie pentru a verifica adevărul modelului, fie pentru a crea un model al fenomenului studiat. În practica cercetării științifice, prelucrarea datelor experimentale este un pas important între etapele de obținere a informațiilor (măsurarea proprietăților observabile ale obiectului studiat) și utilizarea acesteia. Datele experimentale sunt afișate pe o scară specifică care determină metode acceptabile de procesare a datelor.

Măsurare este o operație care asociază o stare observabilă dată a unui obiect, proces sau fenomen cu o anumită denumire: număr, număr sau simbol. Această corespondență asigură că rezultatele măsurătorii conțin informații despre obiectul observat, iar cantitatea de informații depinde de gradul de completitudine al acestei corespondențe. Informațiile necesare sunt obținute din măsurători ca urmare a transformării lor sau, după cum se spune, prin prelucrarea datelor experimentale.

Evident, cu cât corespondența dintre stările observate și denumirile acestora este mai completă, cu atât se pot extrage mai multe informații ca urmare a prelucrării datelor. Ceea ce este mai puțin evident este că gradul acestei corespondențe depinde nu numai de alegerea metodelor și metodelor de măsurare (adică de experimentator), ci și de natura fenomenului studiat și că gradul de corespondență în sine, la rândul său, determină metode acceptabile (și inacceptabile) de prelucrare a datelor. În principiu, fenomenul sau obiectul studiat în sine impune anumite restricții asupra procedurii de măsurare.

Mai mult, vom lua în considerare numai astfel de fenomene, procese și obiecte, despre orice stări despre care putem spune dacă sunt distinse sau nu și numai astfel de metode de măsurare care atribuie denumiri diferite stărilor care pot fi distinse și desemnări identice stărilor care nu se pot distinge. Aceasta înseamnă că atât stările obiectului, cât și desemnările lor trebuie să satisfacă cel puțin următoarele axiome:

Reflexivitate -

Simetrie - Dacă, atunci.

tranzitivitate - Dacă și, atunci.

Aici simbolul „=” denotă o relație de echivalență.



Pentru a dezvolta un model matematic al unui fenomen sau proces, este necesar în primul rând să se stabilească tipuri de cântare , în care se vor măsura anumite caracteristici, proprietăți și stări. Tipul scalei determină și el grup de transformări de scară admisibile . Transformările permise nu modifică relațiile dintre rezultatele măsurătorii. La măsurarea distanței, trecerea de la o unitate de măsură, de exemplu de la metri la picioare, nu schimbă relația dintre distanțe - dacă un obiect este situat la o distanță mai mare de obiect decât , atunci această relație va fi păstrată, indiferent de in ce unitati se masoara distanta.

Să luăm în considerare principalele tipuri de scale de măsurare și grupurile corespunzătoare de transformări permise. În primul rând, trebuie remarcat faptul că scalele sunt împărțite în două grupe: calitative și cantitative. Să ne uităm la scalele de calitate.

Scala de nume sau scara nominala este o scară care este folosită doar pentru a distinge obiecte.

Să presupunem că numărul de stări distinse (numărul de clase de echivalență) este finit. Să asociem fiecare clasă de echivalență cu o desemnare care este diferită de denumirile altor clase. Acum măsurătorile vor consta în efectuarea unui experiment pe un obiect, determinarea dacă rezultatul aparține uneia sau altei clase de echivalență și notarea acestuia folosind un simbol care denotă această clasă. Această măsurătoare se numește măsurătoare la scară de denumire (uneori numită și scară nominală sau de clasificare). În acest caz, un set de simboluri care denotă clase de echivalență formează o scară de nume.

Exemple de scale nominale pot fi diverse sisteme de numerotare (numere de telefon, număr individual de contribuabil etc.), precum și denumirea de naționalitate, orașe, țări și alte metode care fac posibilă înregistrarea diferențelor de procese, fenomene sau obiecte sau ale acestora. proprietăți.

Transformările acceptabile la scara nominală sunt doar transformări unu-la-unu, de exemplu, înlocuirea numerelor numerice cu combinații de litere. Un exemplu de astfel de conversie unu-la-unu sunt adresele IP. Utilizatorul folosește litere din alfabetul latin și câteva simboluri suplimentare pentru a desemna o adresă IP, iar aplicațiile de rețea funcționează cu adrese IP, care constau din numere și puncte. Nu pot fi utilizate operații aritmetice sau relaționale la scara nominală.

Trebuie subliniat faptul că denumirile folosite în scala de numire sunt doar simboluri, chiar dacă numerele sunt folosite în acest scop. Prin urmare, la prelucrarea datelor experimentale înregistrate la scară nominală, direct cu datele în sine, nu se poate efectua decât operația de verificare a echivalenței acestora, precum și de numărare a numărului de măsurători aparținând unei anumite clase de echivalență.

Prelucrarea statistică a datelor poate fi efectuată pe mai multe dimensiuni în scara numelui. Să luăm în considerare elementele individuale ale unei astfel de procesări a rezultatelor măsurătorilor. Să introducem simbolul Kronecker după cum urmează:

Apoi numărul de dimensiuni aparținând acelei clase de echivalență va fi determinat prin formulă

Iată numărul total de măsurători. După obținerea acestor rezultate, este posibil să se determine frecvențele relative pentru diferite clase de echivalență -

Scara ordinală(utilizat și numele scala de clasare) sunt folosite pentru a defini o anumită relație asupra unui set de fenomene, procese și obiecte sau proprietățile acestora, cel mai adesea aceasta este o relație de ordin strict sau nestrict.

Astfel de scale sunt utilizate atunci când există necesitatea (și oportunitatea) nu numai de a clasifica rezultatele măsurătorii ale proprietăților selectate ale obiectelor sau proceselor la una sau alta clasă de echivalență, ci și pentru a compara aceste clase între ele în funcție de unul sau altul criteriu.

O relație de ordine strictă (folosind notațiile , ) este o relație care are următoarele proprietăți:

antireflexivitate-fals;

asimetrieși - se exclud reciproc;

tranzitivitatea: din .

O scară de rang care satisface proprietățile de mai sus se numește scară de ordine simplă sau strictă. Exemple de astfel de scară sunt gradele militare, numerotarea priorităților etc.

Exemple (luare a deciziilor, priorități de acces).

O relație de ordine non-strict (se folosește notația: , ) este o relație care are următoarele proprietăți:

reflexivitate

antisimetrie

tranzitivitatea .

O scară ordinală pe care este valabilă o relație de ordin nestrict se numește scară de ordine slabă.

Pentru procesarea datelor experimentale prezentate în scale ordinale, se utilizează conceptul de rang. Pentru a defini acest concept, se folosește o funcție pas a formularului

Atunci rangul dimensiunii proprietății unui obiect sau fenomen este numărul

unde este numărul de măsurători comparate.

În scalele de ordine slabă, unele observații pot coincide. Astfel de grupuri de observații se numesc o grămadă. În acest caz, tuturor membrilor grupului li se atribuie același rang.

Trebuie subliniat faptul că, chiar dacă rezultatele măsurătorilor într-o scară ordinală sunt prezentate sub formă de numere, acestea nu pot fi totuși procesate ca numere.

Un exemplu de astfel de scară ordinală este scara Mohs de duritate minerală. Dintre cele două minerale, cel mai dur este cel care lasă zgârieturi sau zgârieturi pe celălalt. Relația „A este mai greu decât B” este o relație de ordine. Scala de duritate minerală este o scară de ordin slab. Conține zece gradații de duritate. Următoarele minerale cu duritate crescândă sunt luate ca standarde: 1 – talc, 2 – gips, 3 – calciu, 4 – fluorit, 5 – apatit, 6 – ortoclază, 7 – cuarț, 8 – topaz, 9 – corindon, 10 – diamant . Nu există gradări intermediare de duritate în această scară. Deși gradațiile durității sunt cifre, este totuși imposibil de spus că diamantul este de două ori mai dur decât apatit și nici că diferența de duritate dintre apatit și cuarț este aceeași ca între topaz și diamant. Un exemplu tipic de prelucrare eronată a datelor prezentate pe o scară ordinală este calculul scorului mediu în scale de puncte pentru evaluarea cunoștințelor elevilor. Scara de puncte este o scară ordinală, astfel încât scorul mediu pe o astfel de scală este lipsit de sens. De exemplu, la fizică, doi absolvenți de liceu cu același GPA pot fi foarte diferiți. În acest sens, în cazurile critice ei preferă să organizeze nu un concurs de documente privind performanța academică, ci un concurs de solicitanți, i.e. revenirea la măsurarea ordinală, o comparație directă a nivelului de cunoștințe într-o anumită disciplină a fiecărui solicitant.

Ca și în cazul scalei de denumire, conversia unu-la-unu este o transformare validă în această scară. De exemplu, 2 – nesatisfăcător, 3 – satisfăcător etc.

Scalele ordinale sunt cele mai utilizate în cercetările sociologice și de marketing, în evaluarea calității produselor și serviciilor, în evaluările experților și în alte studii în care sunt posibile doar măsurători calitative.

Să luăm în considerare scalele cantitative.

Scala intervalului. Această scară nu are un punct de referință natural și o unitate naturală de măsură.

Denumirea „scara de interval” se datorează faptului că într-o astfel de scară are sens doar diferența dintre valorile măsurate a două stări diferite ale unui obiect. Un exemplu de utilizare a unei astfel de scale este diferența de potențial în câmpul electric al unui sistem de sarcini staționare. În sine, valoarea potențialului câmpului electric la un punct dat nu are semnificație fizică. Doar diferența de potențial are sens fizic. Prin definiție, diferența de potențial în câmpul electric dintre punctele 1 și 2 este egală cu munca efectuată pentru a muta o sarcină unitară de la punctul 1 la punctul 2.

O trăsătură distinctivă a unei astfel de scale este că nu depinde de alegerea punctului de referință, precum și de unitatea de măsură. De exemplu, se folosesc diferite scale pentru măsurarea temperaturii: absolută, Celsius și Fahrenheit. Toate aceste trei scale diferă în alegerea originii, scara Fahrenheit și alegerea unității de temperatură. De exemplu, unitatea de temperatură pe scara Celsius este o sutime din intervalul dintre punctul de topire al gheții și punctul de fierbere al apei. Totuși, de exemplu, diferența de temperatură dintre punctele de îngheț și de fierbere ale apei pe scara absolută și scala Celsius este aceeași și egală cu . Pe scara Fahrenheit, această diferență este de . Pentru a corela rezultatele măsurătorilor de temperatură în scalele Celsius și Fahrenheit, se folosesc formule de conversie liniară:

pentru a trece la scara Celsius,

pentru a trece la scara Fahrenheit.

Rezultă că există o relație liniară între măsurătorile de temperatură pe scalele considerate. Aceasta este o altă caracteristică distinctivă a scărilor de interval, care constă în faptul că scările de interval sunt identice până la o transformare liniară a formei

sau sunt invariante sub transformări liniare de translație, întindere sau compresie.

Orice cercetare științifică empirică începe cu faptul că cercetătorul înregistrează exprimarea proprietăților care îl interesează în obiectele de cercetare, folosind de obicei numere. Astfel, trebuie să distingem:

1. Obiecte de cercetare (în psihologie aceștia sunt cel mai adesea oameni)

2. Proprietățile lor (ceea ce interesează pe cercetător și constituie subiectul de studiu)

3. Semne care reflectă severitatea proprietăților pe o scară numerică

În funcție de ce operație stă la baza măsurării unei caracteristici, se disting așa-numitele scale de măsurare. Să ne uităm la cele mai frecvent utilizate statistici scale de măsurare.

1. Scala nominală(scala de denumire, scara de clasificare) este folosită pentru a atribui obiecte unei clase specifice. De exemplu: gen, temperament. Dacă un obiect poate aparține doar uneia dintre cele două clase, atunci o astfel de scară se numește dihotomică nominală. De exemplu: gen sau opțiuni de răspuns la întrebare (da sau nu).

2. Scara ordinală(rang, ordinal), folosit pentru a atribui obiecte unei anumite clase în conformitate cu gradul de exprimare a unei proprietăți date a obiectului studiat. De exemplu: scorurile la examene sau nivelurile de anxietate.

3. Scale cantitative Există două tipuri de scale cantitative:

Scala de intervale

Scala absolută (scara raportului)

Scala de intervale vă permite să clasificați și să organizați obiecte, precum și să descrieți cantitativ diferențele dintre proprietățile obiectelor. Pentru a seta această scară, setați unitatea de măsură și un punct de referință zero arbitrar. De exemplu: temperatura pe scara Celsius ( 0 C).

Scara absolută diferă de scara intervalului doar prin faptul că stabilește un punct de referință zero absolut corespunzător absenței totale de exprimare a proprietății măsurate. De exemplu: temperatura pe scara Kelvin ( 0 K).

Determinarea la ce scară este măsurată o trăsătură este un punct cheie în analiza datelor, deoarece alegerea metodei statistice necesare depinde de aceasta. Datele obținute pe o scară pot fi transferate la o altă scară numai în următoarea direcție.

În direcția opusă, acest lucru nu este posibil:

Prin urmare, ar trebui să încercăm, pe cât posibil, să măsurăm pe o scară cantitativă, întrucât în ​​acest caz putem trece la oricare dintre scalele luate în considerare.

Cu toate acestea, acest lucru are ca rezultat o pierdere parțială a informațiilor empirice despre diferențele individuale ale subiecților, ceea ce este atât de valoros pentru noi. Consecința acestui lucru poate fi o scădere a fiabilității statistice a rezultatelor studiului.

Se numește conversia datelor sursă de la o scară cantitativă la una ordinală clasament . Pentru a face acest lucru, mai întâi trebuie să comandați eșantionul original și apoi să atribuiți un rang fiecărui element al eșantionului. Adică numărul corespunzător numărului de serie al acestui element din proba comandată.

Sfârșitul lucrării -

Acest subiect aparține secțiunii:

Metode statistice în psihologie

Facultatea de Filosofie și Științe Sociale.. Departamentul de Psihologie.. metode statistice în prelegerile de psihologie..

Dacă aveți nevoie de material suplimentar pe această temă, sau nu ați găsit ceea ce căutați, vă recomandăm să utilizați căutarea în baza noastră de date de lucrări:

Ce vom face cu materialul primit:

Dacă acest material ți-a fost util, îl poți salva pe pagina ta de pe rețelele sociale:

Toate subiectele din această secțiune:

Principalele etape ale procesării datelor statistice
Etapa 1: Analiza inițială (preliminară) a fenomenului real studiat.

În urma acestei analize se determină următoarele: · Se studiază principalele obiective
Metode de eșantionare

Esența metodelor statistice este utilizarea unei anumite părți a populației, adică a unui eșantion, pentru a face judecăți despre proprietățile populației în ansamblu. Astfel, p
după aceasta, un număr întreg situat între K1 și K2 este selectat ca interval cantitativ necesar. De exemplu: K1=7,3 și

Quantile și interpretarea lor
Una dintre cele mai eficiente metode de rezumare a datelor sursă este de a le descrie folosind cuantile. Cuantila este un concept general; cazurile sale speciale sunt: ​​quartile, d

Reprezentarea grafică a datelor
Există 3 metode principale de prezentare grafică a datelor: histograma (diagramă cu bare), poligon de frecvență, curbă netezită (ogivă).

Gist
Măsuri de variabilitate

Măsurile de tendință centrală discutate în §9 ne permit să caracterizăm, într-un anumit sens, toate elementele eșantionului în ansamblu. În acest caz, p este de fapt neglijat
Formula nr. 10.5

Cu cât varianța eșantionului este mai mare, cu atât elementele eșantionului sunt mai dispersate de-a lungul axei numerelor în raport cu media eșantionului. Exemplu: calculați varianța următorului eșantion 1,
Formula nr. 10.6

Pentru exemplul nostru avem: Xi
Formula nr. 10.7

De exemplu, dacă varianța = 2,25, atunci abaterea standard va fi egală cu, abaterea standard vă permite să caracterizați răspândirea elementelor eșantionului în raport cu mediile
Formula nr. 10.8

Unde M și sigma sunt constante care iau următoarele valori pentru scara corespunzătoare: scara M δ
Formula nr. 10.9

Dacă β este egal cu zero, atunci aceasta înseamnă că proba originală (histograma sa) este simetrică: β=0 Dacă β
Distribuție normală

Valoarea cantităților reprezentând datele inițiale nu poate fi prezisă cu acuratețe, chiar și în condiții experimentale pe deplin cunoscute în care sunt măsurate
Formula nr. 11.11

Dacă valorile empirice ale indicatorilor de asimetrie și curtoză în valoare absolută sunt mai mici decât valorile critice, atunci ajungem la concluzia că distribuția indicatorului măsurat nu diferă de normă.
Distribuții legate de distribuția normală


Multe alte distribuții sunt asociate cu distribuția normală, printre care următoarele sunt cel mai des folosite în statistică: 1. (chi-pătrat) distribuții Pearson.

2. distribuţie t Tipuri de scale statistice: scară nominală, scară ordinală, scară interval, scară raport.

Repartizarea elevilor pe clasă, pe sex, după locul de reședință, după tipurile de sport pe care le practică, după numărul de copii din familie sunt exemple de valori nominale de scară. În acest caz, este posibilă distribuirea elevilor în funcție de două sau mai multe caracteristici (date bidimensionale sau multidimensionale).

Folosind numărătoarea, puteți stabili frecvența unei anumite categorii (numărul de băieți și fete la școală; numărul de elevi care locuiesc în fiecare microdistrict; numărul de elevi din fiecare clasă; numărul de elevi implicați într-un anumit sport; numărul de firme implicate în producția de autobuze etc. .d.). În acest caz, este posibil să se determine valoarea care apare cel mai frecvent (clasa în care studiază cel mai mare număr de studenți; tipul de sport care este cel mai popular în rândul studenților; tipul de mașină produs de cel mai mare număr de companii). Categoriile de date la scară nominală sunt desemnate, de regulă, verbal.

Ordinal, sau rang, scară indică numai succesiunea purtătorilor trăsăturii sau direcția gradului de exprimare a trăsăturii.

De exemplu, elevii pot fi clasați în funcție de numărul de itemi de test pe care le completează corect. Lăsați elevii A, B, C, D, E să îndeplinească corect 21, 16, 12, 9 și, respectiv, 3 sarcini. Grafic poate fi descris astfel

Această scară ordinală are valori de la 1 la 5, iar studenții sunt plasați pe ea în funcție de numărul de sarcini finalizate corect: A - prima, D - a cincea. Figura arată că intervalele care separă locurile din rând au dimensiuni diferite. Din acest motiv, nu este practic să adăugați, să scădeți, să înmulțiți și să împărțiți valori ordinale.

Pe scara intervalului intervale egale reflectă aceeași măsură a valorii caracteristicii măsurate. De exemplu, 1 cm între 3 și 4 centimetri pe o scară de măsurare a lungimii are aceeași semnificație ca 1 cm între 82 și 83 de centimetri. Cu alte cuvinte, pe o scară de intervale, distanțele dintre diviziunile adiacente sunt egale. Pe o scară de interval, întrebarea „cu cât?” este destul de semnificativă. Dar nu este întotdeauna posibil să se formuleze întrebarea „de câte ori?” Faptul este că pe scara intervalului punctul de referință (scara zero), unitatea de măsură și direcția de referință sunt setate în mod arbitrar. Un exemplu de scară de interval este scara de temperatură Celsius. Diferența dintre temperaturile aerului +30 și +20 °C este la fel de mare ca între -10 și -20 °C. Cu toate acestea, nu se poate spune că la o temperatură a aerului de +30 °C este de o dată și jumătate mai cald decât la o temperatură de +20 °C. Chiar dacă temperatura aerului este de 0 °C, nu se poate spune că nu există deloc căldură: la urma urmei, punctul de plecare este ales arbitrar.

Cântarile de pe majoritatea instrumentelor fizice (ampermetru, voltmetru etc.) sunt interval. Scala IQ este o scară de interval.

Scala intervalului este metrică și poate fi utilizată pentru a efectua adunarea și scăderea. Are avantaje semnificative față de scalele nominale și ordinale.

Scala de relații, sau scara proporțională, face posibilă stabilirea de relații între valorile caracteristicii măsurate datorită faptului că valoarea scalei „0” corespunde unei valori pentru care caracteristica măsurată este absentă. Cu alte cuvinte, originea pe aceste scale este aleasă involuntar. Exemple de scale de raport sunt măsurile de lungime (m, cm etc.) și de masă (kg, g etc.). Un obiect de 100 cm lungime este de două ori mai lung decât un obiect de 50 cm. Uneori, datele trebuie transformate. În special, necesitatea acestui lucru apare atunci când într-o serie de date una sau mai multe date depășesc semnificativ restul. Dacă datele sunt în mod clar denaturate, atunci înlocuiți fiecare valoare a setului de date dat cu logaritmul acelei valori pentru a simplifica analiza statistică.Logaritm convertește datele „deformate” (asimetrice) în altele mai simetrice, deoarece scara „se întinde” aproape de zero, valorile mici grupate sunt distribuite de-a lungul scalei. În același timp, logaritmul reunește valori mari la capătul drept al scalei. Cele mai utilizate sunt logaritmii zecimali și naturali. Distanțe egale lascară logaritmică corespunde pe scara inițială creșterilor procentuale egale, mai degrabă decât creșterilor egale ale valorilor.

^ Verificarea unei distribuții normale.

Numeroase metode prin care sunt procesate variabilele de scară de interval se bazează pe ipoteza că valorile lor urmează o distribuție normală. Cu această distribuție, majoritatea valorilor sunt grupate în jurul unei anumite valori medii, pe ambele părți ale căreia frecvența observațiilor scade uniform.

Ca exemplu, luați în considerare distribuția normală de vârstă, care este construită din datele din studiile hipertensiunii (fișier hyper.sav) folosind comenzile din meniul Grafice Histogramm... (Histogramă) (vezi Fig. 5.1).

Diagrama prezintă o curbă de distribuție normală (Gauss Bell). Distribuția reală se abate într-o măsură mai mare sau mai mică de la această curbă ideală. Probele care respectă cu strictețe distribuția normală, de regulă, nu apar în practică. Prin urmare, este aproape întotdeauna necesar să se afle dacă distribuția reală poate fi considerată normală și cât de semnificativ diferă distribuția dată de normală.

Înainte de a aplica orice metodă care presupune existența unei distribuții normale, trebuie verificată mai întâi prezența acesteia din urmă. Un exemplu clasic de test statistic care presupune o distribuție normală este testul t Student, care compară două eșantioane independente. Dacă datele nu urmează o distribuție normală, trebuie utilizat un test neparametric adecvat, în cazul a două eșantioane independente - testul Mann și Whitney U.

Dacă compararea vizuală a histogramei reale cu curba clopot pare insuficientă, puteți aplica testul Kolmogorov-Smirnov, care se găsește în meniul Analiză din suita de teste neparametrice (vezi Secțiunea 14.5).

Orez. 5.1: Distribuția pe vârstă

În exemplul nostru de distribuție pe vârstă, testul Kolmogorov-Smirnov nu arată o abatere semnificativă de la distribuția normală.

^ Dependența și independența probelor.

Două eșantioane depind unul de celălalt dacă fiecare valoare a unui eșantion poate fi atribuită într-un mod natural și fără ambiguitate exact unei valori a celuilalt eșantion. Dependența mai multor probe este determinată în același mod.

Cel mai adesea, eșantioanele dependente apar atunci când măsurătorile sunt efectuate în mai multe momente în timp. Eșantioanele dependente formează valorile parametrilor procesului studiat corespunzător diferitelor momente de timp.

În SPSS, eșantioanele dependente (de asemenea înrudite, pereche) vor fi reprezentate de diferite variabile care sunt comparate între ele într-un test corespunzător pe același set de observații.

Dacă nu este posibilă o corespondență regulată și neechivocă între eșantioane, aceste eșantioane sunt independente. În SPSS, eșantioanele independente conțin observații diferite (de exemplu, de la diferiți respondenți), care sunt de obicei distinse printr-o variabilă de grup legată de o scară nominală.

^ O revizuire a testelor comune pentru testarea ipotezelor despre medie.

În cea mai obișnuită situație, în care diferitele eșantioane trebuie comparate între ele în funcție de mediile sau medianele lor, sub rezerva condițiilor descrise în secțiunea 5.1, se utilizează de obicei unul dintre următoarele opt teste.

^ Variabile legate de scara intervalului și supuse distribuției normale

^ Variabile care sunt pe o scară ordinală sau variabile care sunt pe o scară de interval, dar nu sunt distribuite în mod normal

^ Probabilitatea de eroare.

În statistica analitică s-au dezvoltat metode de calcul a așa-numitelor valori de test (de control), care se calculează folosind anumite formule pe baza datelor conținute în probe sau a caracteristicilor obținute din acestea. Aceste valori de test corespund anumitor distribuții teoretice (distribuție t, distribuție F, distribuție X2 etc.), care permit calcularea așa-numitei probabilități de eroare. Această probabilitate este egală cu procentul de eroare care poate fi făcută prin respingerea ipotezei nule și acceptarea alternativei.

Probabilitatea este definită în matematică ca o valoare cuprinsă între 0 și 1. În statistica practică, este adesea exprimată ca procent. De obicei, probabilitatea este notată cu litera p:

0
Probabilitatea de eroare la care este acceptabil să se respingă ipoteza nulă și să se accepte ipoteza alternativă depinde de fiecare caz specific. În mare măsură, această probabilitate este determinată de natura situației studiate. Cu cât este mai mare probabilitatea cerută cu care trebuie evitată o decizie eronată, cu atât se aleg limitele probabilității de eroare la care se respinge ipoteza nulă, așa-numitul interval de încredere al probabilității, mai înguste.

Există o terminologie general acceptată care se referă la intervalele de încredere de probabilitate. Afirmații cu probabilitate de eroare p


^ Probabilitatea de eroare

Semnificaţie

Desemnare

p > 0,05

Nu este semnificativ

ns

r

Semnificativ

*

r

Foarte semnificativ

**

r

Semnificație maximă

***

^ Intervalul de încredere al probabilității.

Interval de încredere - termen folosit înstatistici matematice cu estimarea pe interval (spre deosebire de punct) a parametrilor statistici, care este de preferat cu o dimensiune mică a eșantionului. Un interval de încredere este unul care acoperă un parametru necunoscut cu o fiabilitate dată.

Intervalul de încredere al parametrului θ distribuție ale variabilelor aleatoare X cu nivelul de încredere 100 p%[nota 1] , generată de eșantion ( x 1 ,…,x n), se numește un interval cu granițe ( x 1 ,…,x n) și ( x 1 ,…,x n), care sunt realizări ale variabilelor aleatoare L(X 1 ,…,X n) și U(X 1 ,…,X n), astfel încât

Se numesc punctele limită ale intervalului de încredere limitele de încredere.

O interpretare bazată pe intuiție a intervalului de încredere ar fi: dacă p este mare (să zicem 0,95 sau 0,99), atunci intervalul de încredere conține aproape sigur valoarea adevărată θ .

^ Descriptiv (analiza descriptivă).

Acest tip de analiză implică o prezentare descriptivă a variabilelor individuale. Aceasta include crearea unui tabel de frecvență, calcularea caracteristicilor statistice sau reprezentarea grafică. Tabelele de frecvență se construiesc pentru variabilele legate de scara nominală și pentru variabilele ordinale care nu au prea multe categorii; despre aceasta, vezi capitolele 6, 12 și 24.

Pentru variabilele legate de scara nominală nu pot fi calculate caracteristici statistice semnificative. Cel mai adesea, pentru variabilele ordinale și variabilele legate de scara intervalului, dar care nu sunt supuse unei distribuții normale, se calculează medianele și ambele quartile (vezi secțiunea 6.2); Dacă numărul de categorii este mic, poate fi utilizată opțiunea pentru date concentrate (vezi secțiunea 6.3).

Pentru variabilele pe o scară de interval și supuse unei distribuții normale, se calculează cel mai adesea media și abaterea standard sau eroarea standard (a se vedea secțiunea 6.2). Cu toate acestea, ar trebui selectată doar una dintre aceste două caracteristici de împrăștiere. Pentru variabilele pe toate scalele statistice, se poate construi o mare varietate de grafice care prezintă frecvențe, medii sau alte caracteristici.

^ Statistici analitice.

Aproape orice analiză statistică, împreună cu operațiile pur descriptive, includ anumite metode analitice (teste de semnificație), a căror aplicare determină în cele din urmă probabilitatea de eroare p (vezi Secțiunea 5.3).

O baterie mare de teste este utilizată pentru a determina dacă două sau mai multe probe diferite diferă în ceea ce privește mediile sau medianele lor. Aceasta ia în considerare diferența dintre eșantioanele independente (observații diferite) și eșantioanele dependente (variabile diferite; vezi secțiunea 5.1.3). În funcție de numărul de eșantioane (două sau mai multe), dacă eșantioanele sunt dependente sau nu, dacă variabilele aparțin unui interval sau scară ordinală, sau dacă sunt supuse unei distribuții normale, se folosesc teste specializate (vezi secțiunea 5.2). .

O situație foarte frecventă apare atunci când se compară diferite grupuri de observații sau valori ale variabilelor legate de o scală nominală. În acest caz, sunt construite tabele de contingență (vezi Capitolul 11). Un alt grup de teste se referă la studiul relațiilor dintre două variabile, adică identificarea corelațiilor și reconstrucția regresiilor (vezi Capitolul 15, secțiunea 16.1).

Pe lângă aceste metode statistice destul de simple, există și metode mai complexe de analiză multivariată, care folosesc de obicei multe variabile în același timp. De exemplu, dacă doriți să reduceți un număr mare de variabile într-un număr mai mic de „mănunchiuri de variabile”, numite factori, atunci se efectuează analiza factorială (Capitolul 19). Dacă scopul nostru este opus - să combinăm observațiile date, formând clustere din ele, atunci se utilizează analiza cluster (Capitolul 20).

Într-un anumit grup de teste multivariate, se face distincția între o variabilă dependentă, numită și țintă, și mai multe variabile independente (variabile de influență sau de predicție).


^ Variabila dependenta

Variabile independente

Metoda multidimensională

Dihotomică

Orice

Regresie logistică binară (secțiunea 16.4); analiza discriminantă (Capitolul 18)

Dihotomică



Modele liniare Logit-log

Cu scară nominală

Cu scară nominală sau ordinală

Regresia logistică multinomială (secțiunea 16.5)

Cu scară ordinală

Cu scară nominală sau ordinală

Regresia ordinală (secțiunea 16.6)

Cu scară de intervale

Cu scară nominală sau ordinală

Analiza varianței (Secțiunea 17.1)

Cu scară de intervale

Orice

Analiza covarianței (Secțiunea 17.2); analiza regresiei multiple (secțiunea 16.2)

Regresia logistică multinomială și regresia ordinală pot utiliza, de asemenea, covariate la scară de interval.

Variabilele independente legate de scala nominală în regresia logistică binară, analiza discriminantă și analiza regresiei multivariate trebuie să fie dihotomice sau descompuse într-un set de variabile dihotomice (vezi Secțiunea 16.2). Modelele liniare Logit-log nu sunt discutate în această carte, ci în al doilea volum, dedicat metodelor de cercetare a pieței și a opiniei publice.

Validarea teoretică în cercetarea sociologică: Metodologie și metode

Datorită lui Stanley Stevenson, în practica noastră de cercetare operăm cu mai multe tipuri de cântare. Unii critică această tipologie, dar se pare că nimeni nu a venit cu ceva mai bun.

0 Faceți clic dacă a fost util =ъ

Indiferent de complexitatea întrebărilor din chestionar sau a tehnicilor de testare pe care le luați în considerare, toate pot fi împărțite în trei tipuri, în funcție de scara de măsurare căreia îi aparțin. În acest caz, nu vorbim despre metode specifice de construire a instrumentelor de măsură (de exemplu, scara Guttmann sau scara Thurstone), ci despre clasificarea scalelor de măsură propusă de Stanley Stevens în 1946. Cunoașterea acestei clasificări este crucială din punctul de vedere al utilizării unei abordări cantitative, întrucât utilizarea anumitor metode de statistică matematică se bazează, printre altele, pe scale de măsurare în care sunt afișate variabilele de interes pentru cercetător.

Aflați mai multe despre conceptul de „variabilă”
„Variabilă” este un concept des folosit în cercetarea științifică (nu doar în științele sociale și comportamentale) și mai ales atunci când vorbim de o abordare cantitativă și de utilizarea metodelor statistice. De fapt, o variabilă este orice proprietate a obiectelor studiate care se schimbă de la o observație la alta. În acest caz, observațiile se referă la obiectele de studiu (oameni, organizații, țări sau orice altceva - depinde de studiul în sine).
Dacă o proprietate nu se schimbă de la o observație la alta, atunci nu oferă nicio informație valoroasă în sens matematic (majoritatea metodelor vor fi pur și simplu inutilizabile).
Astfel, în cadrul abordării cantitative, obiectele studiate sunt prezentate ca un set de variabile care prezintă interes și fac obiectul studiului. Nu este greu de ghicit că variabilele sunt împărțite în primul rând în funcție de scalele în care sunt afișate. Astfel, putem distinge, de exemplu, variabile nominale, ordinale și metrice. În același timp, ordinale pot fi împărțite în ordinale prăbușite și continue. Variabilele ordinale continue au multe valori numerice și arată (cel puțin la prima vedere) ca cele metrice. Variabilele ordinale restrânse au doar câteva categorii sau valori numerice (nu mai mult de cinci sau șase). Ele pot fi obținute fie prin colectarea datelor în formă restrânsă, fie prin restrângerea unei scale ordinale sau metrice continue.
O altă diviziune importantă a variabilelor este împărțirea în dependente și independente. Adesea, în procesul de analiză, sunt formulate ipoteze cu privire la influența unor variabile asupra altora. În astfel de cazuri, variabilele influențate se numesc independente, iar variabilele influențate se numesc dependente. De exemplu, dacă vorbim despre relația dintre genul unui student și succesul studiilor sale, atunci genul va fi o variabilă independentă, iar succesul studiilor sale va fi unul dependent.

Conform clasificării lui Stevenson, în forma cea mai generală, se pot distinge trei tipuri de scale:
- nominal,
- ordinal,
- metric.

Nominal scala include o clasă de variabile ale căror valori pot fi împărțite în grupuri, dar nu pot fi clasate. Exemple de variabile relevante sunt sexul, naționalitatea, religia etc. Să luăm în considerare mai detaliat o astfel de variabilă precum naționalitatea. În acest caz, respondenții pot fi împărțiți în diferite grupuri în funcție de ce naționalitate se consideră a fi. În același timp, pe baza acestor informații, este imposibil să sortăm respondenții în funcție de expresia cantitativă a parametrului care ne interesează, deoarece naționalitatea nu este o proprietate măsurabilă, în sensul tradițional al cuvântului.
Ordinal scala include o clasă de variabile ale căror valori pot fi nu numai împărțite în grupuri, ci și clasate în funcție de gravitatea proprietății măsurate. Un exemplu clasic de scară ordinală este Scala Bogardus, concepută pentru a măsura distanța națională. Mai jos este o versiune adaptată pentru populația Ucrainei (N. Panina, E. Golovakha):

Sarcina chestionarului
Pentru fiecare naționalitate enumerată mai jos, selectați una dintre pozițiile care vă este cel mai apropiat personal, la care ați permite reprezentanți ai naționalității respective.
Scala de răspuns
1) ca membri ai familiei mele;
2) ca prieteni apropiați;
3) ca vecini;
4) ca colegi de serviciu;
5) ca rezidenți ai Ucrainei;
6) ca vizitatori în Ucraina;
7) nu i-ar permite deloc să intre în Ucraina.

Această scală vă permite să ordonați respondenții în funcție de atitudinea lor față de o anumită naționalitate. Cu toate acestea, oferă doar informații aproximative, ceea ce nu face posibilă evaluarea cu precizie a diferențelor dintre gradațiile scalei. Deci, de exemplu, putem argumenta că un respondent care este gata să admită evrei ca membri ai familiei sale îi va trata mai bine decât unul care este gata să-i admită doar ca vecini. În același timp, nu putem spune „cu cât?” sau "la ce ora?" întrucât primul respondent are o atitudine mai bună față de reprezentanții naționalității evreiești decât al doilea. Cu alte cuvinte, nu avem niciun argument care să susțină egalitatea intervalelor dintre itemii scalei.
Metric scala include o clasă de variabile ale căror valori pot fi fie împărțite în grupuri și clasate, fie valoarea lor poate fi determinată în termeni precisi (același „cu cât?” și „la ce oră?”). Exemple tipice de variabile relevante sunt vârsta, salariul, numărul de copii etc. Fiecare dintre ele poate fi măsurat cât mai precis: vârsta în ani, salariul în grivne, numărul de copii în... bucăți;)
Desigur, dacă o variabilă poate fi exprimată într-o scară metrică, atunci aceeași variabilă poate fi exprimată într-o scară ordinală.

De exemplu, vârsta poate fi exprimată în grupe de vârstă (tineret, vârstă mijlocie, vârstă înaintată), care oferă doar informații aproximative despre respondent, în ciuda posibilității de a le ierarhizare.
Apartenența la o scară metrică deschide posibilitatea utilizării oricăror metode statistice. La rândul său, apartenența la o scală ordinală sau nominală limitează alegerea instrumentelor matematice (în cazul unei scale ordinale, într-o măsură mai mică, iar în cazul unei scale nominale, într-o măsură mai mare). Este dată clasificarea metodelor statistice.
Pentru a face și mai evidente diferențele dintre scalele nominale, ordinale și metrice, voi da un exemplu suplimentar dedicat evaluării boxerilor profesioniști de categoria grea conform boxrec.com (informații actuale la 31.01.2012). În același timp, vom analiza datele privind primii zece boxeri în funcție de trei variabile: etnia boxerului, locul său în clasament și numărul de puncte de rating pe care le avea la 31 ianuarie 2012.

A) Etnie ( scara nominala). Trei boxeri (frații Klitschko și Dimitrenko) sunt ucraineni, unul (Povetkin) este rus, unul (Adamek) este polonez, doi (Chambers și Thompson) sunt americani, unul (Fury) este britanic, unul (Helenius) este finlandez, unul ( Pulev) - bulgară. Astfel, variabila „naționalitate” ne-a ajutat să împărțim toți boxerii în 7 grupe, în funcție de etnia lor. Deținând aceste date, o persoană departe de box nu va putea spune nimic despre succesul boxerilor listați, deși va primi informații despre etnia celor mai buni 10 grei (vom continua să apelăm la un ipotetic expert):
ucraineni - 30%;
americani - 20%;
Ruși, polonezi, britanici, finlandezi și bulgari - 10% fiecare.
B) Locul în clasament ( scară ordinală) oferă informații aproximative despre succesul boxerului. Situația este următoarea:
1. Wladimir Klitschko
2. Vitali Klitschko
3. Alexander Povetkin
4. Tomasz Adamek
5. Eddie Chambers
6. Tyson Fury
7. Robert Helenius
8. Tony Thompson
9. Alexandru Dimitrenko
10. Kubrat Pulev
Acum, analistul nostru neinformat cunoaște succesiunea primilor zece boxeri la categoria grea. Și, deși numerele de la 1 la 10 sunt deja prezente aici, el încă nu poate efectua alte operații matematice decât compararea. De exemplu, nu poate spune că Vladimir Klitschko este cu 4 unități mai bun decât Eddie Chambers. Expresia „5 minus 1” nu are sens în acest caz. În ceea ce privește acești doi boxeri, nu poate decât să spună că Vladimir Klitschko este un boxer mai bun decât Eddie Chambers (la fel ca toți ceilalți din top zece). Motivul pentru care este imposibil să se efectueze operații matematice este că nu există egalitate de intervale între punctele 1 la 10. Care sunt intervalele reale dintre puncte poate fi văzut datorită ultimei variabile.
B) Numărul de puncte de rating ( scara metrica). Acest indicator



Distribuie