Vrste i vrste podataka. Mjerne vage

Korištenje određenih statističkih metoda određuje se prema kojoj statističkoj skali pripada dobijeni materijal. S. Stevens je predložio razliku između četiri statističke skale:

1. skala imena (ili nazivna);

2. skala naloga;

3. intervalna skala;

4. skala odnosa.

Poznavajući tipične karakteristike svake skale, nije teško odrediti u koje od njih treba svrstati materijal koji je predmet statističke obrade.

Imenska skala. Ova skala uključuje materijale u kojima se predmeti koji se proučavaju razlikuju jedni od drugih po svom kvalitetu.

Prilikom obrade takvih materijala nema potrebe da se ti objekti slažu u bilo koji redoslijed na osnovu njihovih karakteristika. U principu, objekti se mogu poredati bilo kojim redoslijedom.

Evo primjera: proučava se sastav međunarodne naučne konferencije. Učesnici su Francuzi, Englezi, Danci, Nijemci i Rusi. Da li je redosled kojim su učesnici raspoređeni bitan kada se ispituje sastav konferencije? Možete ih rasporediti po abecednom redu, to je zgodno, ali je jasno da u ovom rasporedu nema suštinskog značaja. Prilikom prevođenja ovih materijala na drugi jezik (a samim tim i na drugo pismo), ovaj redoslijed će biti poremećen. Možete organizirati nacionalne grupe prema broju učesnika. Ali kada uporedimo ovaj materijal sa materijalom druge konferencije, nalazimo da je malo verovatno da će ovaj red biti isti. Objekti koji su dodijeljeni skali imenovanja mogu se postaviti bilo kojim redoslijedom u zavisnosti od svrhe studije.

Prilikom statističke obrade ove vrste materijala, mora se uzeti u obzir broj jedinica kojim je svaki objekat predstavljen. Postoje vrlo efikasne statističke metode koje omogućavaju da se iz ovih numeričkih podataka dođe do naučno značajnih zaključaka (na primjer, hi-kvadrat metoda).

Skala narudžbe. Ako u skali imenovanja redoslijed proučavanih objekata praktički ne igra nikakvu ulogu, onda se u ljestvici redoslijeda - to je jasno iz njenog imena - sva pažnja prebacuje na ovaj niz.

Ova skala u statistici uključuje takve istraživačke materijale u kojima se razmatraju objekti koji pripadaju jednoj ili više klasa, ali se razlikuju kada se međusobno porede – „više-manje”, „više-niže” – itd.

Najlakši način da pokažete tipične karakteristike skale redoslijeda je da pogledate objavljene rezultate bilo kojeg sportskog takmičenja. Ovi rezultati redom navode učesnike koji su zauzeli prvo, drugo, treće i naredna mjesta. Ali u ovim informacijama o rezultatima takmičenja, informacije o stvarnim postignućima sportista često izostaju ili blijede u pozadinu, a njihova redna mjesta stavljaju se u prvi plan.

Recimo šahist D. je zauzeo prvo mjesto na takmičenju. Koja su njegova postignuća? Ispostavilo se da je postigao 12 poena. Šahist E. zauzeo je drugo mjesto. Njegovo postignuće je 10 bodova. Treće mjesto zauzeo je J. sa osam bodova, četvrto sa 3. sa šest bodova itd. U izvještajima o takmičenju razlika u postignućima pri plasmanu šahista bledi u drugi plan, a njihova redna mjesta ostaju na prvom mjestu. Činjenica da se rednom mjestu pridaje glavni značaj ima svoje značenje. Zapravo, u našem primjeru, Z. je postigao šest, a D. 12 poena. Ovo su njihova apsolutna dostignuća - igre u kojima su pobijedili. Ako bismo ovu razliku u postignućima pokušali protumačiti čisto aritmetički, morali bismo priznati da Z igra duplo lošije od D. Ali ne možemo se složiti s tim. Okolnosti takmičenja nisu uvijek jednostavne, kao ni način na koji ih je ovaj ili onaj učesnik vodio nije uvijek jednostavan. Stoga se, uzdržavajući se od aritmetičke apsolutizacije, ograničavaju na ono što utvrđuju: šahista 3. zaostaje za D., koji je zauzeo prvo mjesto, za tri redna mjesta.

Intervalna skala. Ovo uključuje materijale koji daju kvantitativnu procjenu predmeta koji se proučava u fiksnim jedinicama.

Vratimo se eksperimentima koje je psiholog izveo sa Sašom. Eksperimenti su uzimali u obzir koliko bodova mogu dati sam Sasha i svaki od njegovih vršnjaka, radeći maksimalnom brzinom koja im je dostupna. Jedinice evaluacije u eksperimentima bili su broj bodova. Nakon što ih je prebrojao, istraživač je dobio apsolutni broj bodova za koji se ispostavilo da je moguće dati u određenom vremenu za svakog učesnika u eksperimentima. Glavna poteškoća u dodjeljivanju materijala intervalnoj skali je da je potrebno imati jedinicu koja bi bila identična samoj sebi za sva ponovljena mjerenja, odnosno identična i nepromijenjena. U primjeru sa šahistima (skala reda) takva jedinica uopće ne postoji.

U stvari, uzima se u obzir broj igara koje je osvojio svaki učesnik u takmičenju. Ali jasno je da su stranke daleko od identičnih. Moguće je da je učesnik takmičenja koji je zauzeo četvrto mesto - dobio je šest partija - dobio najtežu utakmicu protiv samog lidera! Ali u konačnim rezultatima izgleda da je prihvaćeno da su sve dobijene utakmice iste. U stvarnosti to nije slučaj. Stoga je pri radu s takvim materijalima prikladno vrednovati ih u skladu sa zahtjevima skale narudžbe, a ne intervalne skale. Materijali koji prate intervalnu skalu moraju imati jedinicu mjere.

Skala odnosa. Ova skala uključuje materijale koji uzimaju u obzir ne samo broj fiksnih jedinica, kao u intervalnoj skali, već i međusobni odnos rezultirajućih ukupnih rezultata. Da biste radili s takvim odnosima, morate imati određenu apsolutnu tačku od koje možete računati. Kada se proučavaju psihološki objekti, ova skala je praktično neprimjenjiva.

Najvažnija stvar, u smislu praktične upotrebe modela sistema, jeste utvrđivanje stepena korespondencije između modela i objekata, pojava ili procesa koji se modeliraju. Svrha uspostavljanja takve korespondencije je da se razjasni pitanje da li je model adekvatan originalu. Najefikasnija i najčešće korištena metoda za utvrđivanje istinitosti modela je upoređivanje teoretskih implikacija dobivenih korištenjem modela s eksperimentalnim podacima ili eksperimentalnim mjerenjima.

Rezultati bilo kojeg eksperimenta se bilježe u ovom ili onom obliku, a zatim se, po pravilu, koriste ili za provjeru istinitosti modela ili za kreiranje modela fenomena koji se proučava. U praksi naučno-istraživačkog rada, obrada eksperimentalnih podataka je važan korak između faza dobijanja informacije (merenje vidljivih svojstava objekta koji se proučava) i njegove upotrebe. Eksperimentalni podaci se prikazuju na određenoj skali koja određuje prihvatljive metode obrade podataka.

Measurement je operacija koja povezuje dato vidljivo stanje objekta, procesa ili fenomena s određenom oznakom: brojem, brojem ili simbolom. Ova korespondencija obezbeđuje da rezultati merenja sadrže informacije o posmatranom objektu, a količina informacija zavisi od stepena potpunosti ove korespondencije. Potrebne informacije dobivaju se mjerenjima kao rezultat njihove transformacije, ili, kako još kažu, obradom eksperimentalnih podataka.

Očigledno, što je potpunija korespondencija između posmatranih stanja i njihovih oznaka, to se više informacija može izdvojiti kao rezultat obrade podataka. Ono što je manje očigledno je da stepen ove korespondencije ne zavisi samo od izbora metoda i metoda merenja (tj. od eksperimentatora), već i od prirode fenomena koji se proučava, kao i da sam stepen korespondencije, zauzvrat, određuje prihvatljive (i neprihvatljive) metode obrade podataka. U principu, sam fenomen ili predmet koji se proučava nameće određena ograničenja postupku mjerenja.

Nadalje, razmatrat ćemo samo takve pojave, procese i objekte, o svim stanjima za koja možemo reći da li se razlikuju ili ne, i samo takve metode mjerenja koje razlučivim stanjima dodjeljuju različite oznake, a identične oznake nerazlučivim stanjima. To znači da i stanja objekta i njihove oznake moraju zadovoljiti barem sljedeće aksiome:

Refleksivnost -

simetrija - Ako onda.

tranzitivnost - Ako i, onda.

Ovdje simbol “=” označava odnos ekvivalencije.



Da bi se razvio matematički model pojave ili procesa, potrebno je prije svega utvrditi vrste vaga , u kojem će se mjeriti određene karakteristike, svojstva i stanja. Tip skale takođe određuje grupa dozvoljenih transformacija skale . Dozvoljene transformacije ne mijenjaju odnose između rezultata mjerenja. Prilikom mjerenja udaljenosti, prijelaz s jedne mjerne jedinice, na primjer iz metara u stope, ne mijenja odnos između udaljenosti - ako se objekt nalazi na većoj udaljenosti od objekta od , tada će se taj odnos zadržati, bez obzira na jedinice u kojima se mjeri udaljenost.

Razmotrimo glavne vrste mjernih skala i odgovarajuće grupe dopuštenih transformacija. Prije svega, treba napomenuti da su skale podijeljene u dvije grupe: kvalitativne i kvantitativne. Pogledajmo skale kvaliteta.

Imenska skala ili nominalna skala je skala koja se koristi samo za razlikovanje objekata.

Pretpostavimo da je broj razlučivih stanja (broj klasa ekvivalencije) konačan. Povežimo svaku klasu ekvivalencije s oznakom koja se razlikuje od oznaka drugih klasa. Sada će se mjerenja sastojati od provođenja eksperimenta na objektu, utvrđivanja da li rezultat pripada jednoj ili drugoj klasi ekvivalencije i zapisivanja pomoću simbola koji označava ovu klasu. Ovo mjerenje se naziva mjerenje skale imenovanja (ponekad se naziva i nominalna ili klasifikacijska skala). U ovom slučaju, skup simbola koji označavaju klase ekvivalencije formira skalu imena.

Primeri nominalnih skala mogu biti različiti sistemi numerisanja (telefonski brojevi, individualni broj poreskog obveznika, itd.), kao i naziv nacionalnosti, gradova, država i druge metode koje omogućavaju evidentiranje razlika u procesima, pojavama ili objektima ili njihovim svojstva.

Prihvatljive transformacije u nominalnoj skali su samo transformacije jedan prema jedan, na primjer, zamjena numeričkih brojeva kombinacijama slova. Primjer takve konverzije jedan na jedan su IP adrese. Korisnik koristi slova latinice i neke dodatne simbole za označavanje IP adrese, a mrežne aplikacije rade sa IP adresama koje se sastoje od brojeva i tačaka. U nominalnoj skali ne mogu se koristiti nikakve aritmetičke ili relacijske operacije.

Treba naglasiti da su oznake koje se koriste u skali imenovanja samo simboli, čak i ako se u tu svrhu koriste brojevi. Stoga, prilikom obrade eksperimentalnih podataka snimljenih na nominalnoj skali, direktno sa samim podacima, možete izvršiti samo operaciju provjere njihove ekvivalencije, kao i prebrojavanje broja mjerenja koja pripadaju datoj klasi ekvivalencije.

Statistička obrada podataka može se vršiti na više dimenzija u nazivnoj skali. Razmotrimo pojedine elemente takve obrade rezultata mjerenja. Predstavimo Kroneckerov simbol na sljedeći način:

Tada će se formulom odrediti broj dimenzija koje pripadaju -toj klasi ekvivalencije

Ovdje je ukupan broj mjerenja. Dobivši ove rezultate, moguće je odrediti relativne frekvencije za različite klase ekvivalencije -

Redna skala(takođe se zove skala rangiranja) koriste se za definiranje određene relacije na skupu pojava, procesa i objekata ili njihovih svojstava, najčešće je riječ o odnosu strogog ili nestrogog reda.

Takve skale se koriste kada postoji potreba (i mogućnost) ne samo da se razvrstavaju rezultati mjerenja odabranih svojstava objekata ili procesa u jednu ili drugu klasu ekvivalencije, već i da se te klase uporede jedna s drugom prema jednom ili drugom kriteriju.

Relacija strogog reda (koristeći oznake , ) je relacija koja ima sljedeća svojstva:

antirefleksivnost-false;

asimetrija i - međusobno se isključuju;

tranzitivnost: od .

Skala ranga koja zadovoljava gornja svojstva naziva se jednostavna ili stroga skala reda. Primjeri takve ljestvice su vojni činovi, prioritetno numeriranje itd.

Primjeri (donošenje odluka, prioriteti pristupa).

Relacija ne-strogog reda (koristi se notacija: , ) je relacija koja ima sljedeća svojstva:

refleksivnost

antisimetrija

tranzitivnost .

Ordinalna skala na kojoj postoji nestrogi odnos reda naziva se skala slabog reda.

Za obradu eksperimentalnih podataka predstavljenih u ordinalnim skalama koristi se koncept ranga. Za definiranje ovog koncepta koristi se funkcija koraka forme

Tada je rang dimenzije svojstva nekog objekta ili pojave broj

gdje je broj mjerenja koja se porede.

U skalama slabog reda, neka zapažanja se mogu poklopiti. Takve grupe zapažanja se nazivaju gomila. U ovom slučaju, svim članovima skupa se dodjeljuje isti rang.

Treba naglasiti da čak i ako su rezultati mjerenja u ordinalnoj skali prikazani u obliku brojeva, oni se ipak ne mogu obraditi kao brojevi.

Primjer takve ordinalne skale je Mohsova skala tvrdoće minerala. Od ta dva minerala, tvrđi je onaj koji ostavlja ogrebotine ili udubljenja na drugom. Relacija „A je teža od B“ je relacija poretka. Skala tvrdoće minerala je skala slabog reda. Sadrži deset stupnjeva tvrdoće. Za standarde se uzimaju sledeći minerali sa povećanjem tvrdoće: 1 – talk, 2 – gips, 3 – kalcijum, 4 – fluorit, 5 – apatit, 6 – ortoklas, 7 – kvarc, 8 – topaz, 9 – korund, 10 – dijamant . U ovoj skali nema srednjih stupnjeva tvrdoće. Iako su gradacije tvrdoće brojevi, ipak je nemoguće reći da je dijamant dvostruko tvrđi od apatita, niti da je razlika u tvrdoći između apatita i kvarca ista kao između topaza i dijamanta. Tipičan primjer pogrešne obrade podataka prikazanih na ordinalnoj skali je izračunavanje prosječne ocjene na bodovnim skalama za ocjenjivanje znanja učenika. Bodovna skala je ordinalna skala, tako da je prosječna ocjena na takvoj skali besmislena. Na primjer, u fizici, dva maturanta sa istim prosjekom mogu biti vrlo različiti. S tim u vezi, u kritičnim slučajevima radije organizuju ne konkurs dokumenata o akademskom uspjehu, već konkurs kandidata, tj. povratak na redovna mjerenja, direktno poređenje nivoa znanja u pojedinoj disciplini svakog kandidata.

Kao i kod skale imenovanja, konverzija jedan na jedan je važeća transformacija u ovoj skali. Na primjer, 2 – nezadovoljavajuće, 3 – zadovoljavajuće, itd.

Redne skale se najčešće koriste u sociološkim i marketinškim istraživanjima, u ocjenjivanju kvaliteta proizvoda i usluga, stručnim procjenama i u drugim studijama gdje su moguća samo kvalitativna mjerenja.

Razmotrimo kvantitativne skale.

Intervalna skala. Ovoj skali nedostaje prirodna referentna tačka i prirodna jedinica mere.

Naziv "intervalna skala" je zbog činjenice da u takvoj skali ima smisla samo razlika između izmjerenih vrijednosti dva različita stanja objekta. Primjer upotrebe takve skale je razlika potencijala u električnom polju sistema stacionarnih naelektrisanja. Sama po sebi, vrijednost potencijala električnog polja u datoj tački nema fizičko značenje. Samo potencijalna razlika ima fizičko značenje. Po definiciji, razlika potencijala u električnom polju između tačaka 1 i 2 jednaka je radu obavljenom da se jedinični naboj pomeri od tačke 1 do tačke 2.

Posebnost takve skale je da ne zavisi od izbora referentne tačke, kao ni mjerne jedinice. Na primjer, za mjerenje temperature koriste se različite skale: apsolutna, Celzijusova i Farenhajtova. Sve ove tri skale se razlikuju po izboru porijekla, te Farenhajtovoj skali i izboru temperaturne jedinice. Na primjer, jedinica temperature u Celzijusovoj skali je stoti dio intervala između tačke topljenja leda i tačke ključanja vode. Međutim, na primjer, temperaturna razlika između tačaka smrzavanja i ključanja vode u apsolutnoj skali i Celzijusovoj skali je ista i jednaka je . Na Farenhajtovoj skali, ova razlika je . Da bi se korelirali rezultati mjerenja temperature u Celzijusovim i Farenhajtovim skalama, koriste se formule linearne konverzije:

za prebacivanje na Celzijusovu skalu,

za promjenu na Farenhajtovu skalu.

Iz toga slijedi da postoji linearna veza između mjerenja temperature na razmatranim skalama. Ovo je još jedna karakteristična karakteristika intervalnih skala, koja leži u činjenici da su intervalne skale identične do linearne transformacije oblika

ili su invarijantne prema linearnim transformacijama translacije, rastezanja ili kompresije.

Svako empirijsko naučno istraživanje počinje činjenicom da istraživač bilježi izraz svojstava koja ga zanimaju u objektima istraživanja, obično koristeći brojeve. Dakle, treba razlikovati:

1. Objekti istraživanja (u psihologiji su to najčešće ljudi)

2. Njihova svojstva (ono što zanima istraživača i čini predmet proučavanja)

3. Znakovi koji odražavaju ozbiljnost svojstava na numeričkoj skali

U zavisnosti od toga koja je operacija u osnovi merenja neke karakteristike, razlikuju se takozvane merne skale. Pogledajmo najčešće korištene statistika mjerne skale.

1. Nazivna skala(skala imenovanja, klasifikacijska skala) se koristi za dodeljivanje objekata određenoj klasi. Na primjer: spol, temperament. Ako objekt može pripadati samo jednoj od dvije klase, onda se takva skala naziva nominalna dihotomna. Na primjer: pol ili opcije odgovora na pitanje (da ili ne).

2. Redna skala(rang, ordinal), koji se koristi za dodeljivanje objekata određenoj klasi u skladu sa stepenom izraženosti datog svojstva objekta koji se proučava. Na primjer: rezultate ispita ili nivoe anksioznosti.

3. Kvantitativne skale Postoje dvije vrste kvantitativnih skala:

Intervalna skala

Apsolutna skala (skala omjera)

Intervalna skala omogućava vam da klasifikujete i organizujete objekte, kao i kvantitativno opišete razlike između svojstava objekata. Da biste postavili ovu skalu, postavite mjernu jedinicu i proizvoljnu nultu referentnu tačku. Na primjer: temperatura na Celzijusovoj skali ( 0 C).

Apsolutna skala razlikuje se od intervalne skale samo po tome što uspostavlja apsolutnu nultu referentnu tačku koja odgovara potpunom odsustvu izražavanja svojstva koje se mjeri. Na primjer: temperatura na Kelvinovoj skali ( 0 K).

Utvrđivanje na kojoj se skali mjeri neka osobina je ključna tačka u analizi podataka, jer od toga ovisi izbor potrebne statističke metode. Podaci dobijeni na jednoj skali mogu se prenijeti na drugu skalu samo u sljedećem smjeru.

U suprotnom smjeru, to nije moguće:

Stoga treba pokušati, koliko je to moguće, mjeriti u kvantitativnoj skali, jer u ovom slučaju možemo prijeći na bilo koju od razmatranih skala.

Međutim, to rezultira djelomičnim gubitkom empirijskih informacija o individualnim razlikama ispitanika, što je za nas toliko dragocjeno. Posljedica ovoga može biti smanjenje statističke pouzdanosti rezultata studije.

Pretvaranje izvornih podataka iz kvantitativne skale u ordinalnu skalu se zove rangiranje . Da biste to učinili, prvo morate naručiti originalni uzorak, a zatim svakom elementu uzorka dodijeliti rang. Odnosno, broj koji odgovara serijskom broju ovog elementa u naređenom izboru.

Kraj rada -

Ova tema pripada sekciji:

Statističke metode u psihologiji

Fakultet za filozofiju i društvene nauke.. Odsjek za psihologiju.. statističke metode u nastavi psihologije..

Ako vam je potreban dodatni materijal na ovu temu, ili niste pronašli ono što ste tražili, preporučujemo da koristite pretragu u našoj bazi radova:

Šta ćemo sa primljenim materijalom:

Ako vam je ovaj materijal bio koristan, možete ga spremiti na svoju stranicu na društvenim mrežama:

Sve teme u ovoj sekciji:

Glavne faze statističke obrade podataka
Faza 1: Inicijalna (preliminarna) analiza realnog fenomena koji se proučava. Kao rezultat ove analize utvrđuje se sljedeće: · Proučavaju se glavni ciljevi

Metode uzorkovanja
Suština statističkih metoda je korištenje određenog dijela populacije, odnosno uzorka, za donošenje sudova o svojstvima populacije u cjelini. Dakle, str

Formula br. 6.3
nakon toga se kao traženi kvantitativni interval bira cijeli broj koji se nalazi između K1 i K2. Na primjer: K1=7,3 i

Kvantili i njihova interpretacija
Jedna od najefikasnijih metoda za sumiranje izvornih podataka je njihovo opisivanje pomoću kvantila. Kvantil je opšti pojam, njegovi posebni slučajevi su: kvartil, d

Grafički prikaz podataka
Postoje 3 glavne metode grafičkog predstavljanja podataka: histogram (bar chart), frekvencijski poligon, izglađena kriva (ogiven). Gist

Mjere varijabilnosti
Mere centralne tendencije o kojima se govori u §9 omogućavaju nam da okarakterišemo, na neki način, sve elemente uzorka kao celine. U ovom slučaju, p je zapravo zanemareno

Formula br. 10.5
Što je varijansa uzorka veća, to su elementi uzorka više rasuti duž brojevne ose u odnosu na srednju vrednost uzorka. Primjer: izračunajte varijansu sljedećeg uzorka 1,

Formula br. 10.6
Za naš primjer imamo: Xi

Formula br. 10.7
Na primjer, ako je varijansa = 2,25, tada će standardna devijacija biti jednaka, standardna devijacija vam omogućava da okarakterizirate širenje elemenata uzorka u odnosu na okolinu

Formula br. 10.8
Gdje su M i sigma konstante koje uzimaju sljedeće vrijednosti za odgovarajuću skalu: skala M δ

Formula br. 10.9
Ako je β jednako nuli, to znači da je originalni uzorak (njegov histogram) simetričan: β=0 Ako je β

Normalna distribucija
Vrijednost veličina koje predstavljaju početne podatke ne može se precizno predvidjeti, čak ni pod potpuno poznatim eksperimentalnim uvjetima u kojima se mjere

Formula br. 11.11
Ako su empirijske vrijednosti indikatora asimetrije i ekscesa u apsolutnoj vrijednosti manje od kritičnih vrijednosti, onda zaključujemo da se distribucija mjerenog indikatora ne razlikuje od norme

Distribucije vezane za normalnu distribuciju
Mnoge druge distribucije su povezane sa normalnom distribucijom, među kojima se u statistici najčešće koriste: 1. (hi-kvadrat) Pirsonove distribucije. 2. t-distribucija


Vrste statističkih skala: nominalna skala, ordinalna skala, intervalna skala, skala odnosa.

Nazivna skala koristi se za evidentiranje najnižeg nivoa mjerenja koji pretpostavlja postojanje minimalnih preduslova za mjerenje. Prilikom mjerenja na ovom nivou praktično se ne koriste brojevi. Ovdje je važno utvrditi sličnost ili razliku objekata prema nekoj osobini, odnosno, u ovom slučaju imamo posla s kvalitativnim podacima. Pogledajmo primjere.

Raspodjela učenika po razredima, polu, mjestu stanovanja, vrstama sportova kojima se bave, broju djece u porodici primjeri su nominalnih vrijednosti skale. U ovom slučaju je moguće rasporediti učenike prema dvije ili više karakteristika (dvodimenzionalni ili višedimenzionalni podaci).

Koristeći brojanje, možete utvrditi učestalost određene kategorije (broj dječaka i djevojčica u školi; broj učenika koji žive u svakom mikrookrugu; broj učenika u svakom odjeljenju; broj učenika koji se bave određenim sportom; broj preduzeća koja se bave proizvodnjom autobusa itd. .d.). U ovom slučaju moguće je odrediti vrijednost koja se najčešće javlja (klasa u kojoj studira najveći broj studenata; vrsta sporta koji je najpopularniji među studentima; tip automobila koji proizvodi najveći broj kompanija). Kategorije podataka u nominalnoj skali označavaju se, po pravilu, usmeno.

Redni, ili rang, skala označava samo redosled nosilaca osobine ili pravac stepena izraženosti osobine.

Na primjer, učenici se mogu rangirati na osnovu broja zadataka testa koje su ispravno ispunili. Neka učenici A, B, C, D, E tačno urade 21, 16, 12, 9 i 3 zadatka. Grafički se to može prikazati ovako

Ova redna skala ima vrijednosti od 1 do 5, a učenici se na njoj postavljaju u zavisnosti od broja tačno urađenih zadataka: A - prvi, D - peti. Slika pokazuje da su intervali koji razdvajaju mjesta u redu različite veličine. Iz tog razloga nije praktično zbrajati, oduzimati, množiti i dijeliti redne vrijednosti.

On intervalna skala jednaki intervali odražavaju istu mjeru vrijednosti mjerene karakteristike. Na primjer, 1 cm između 3 i 4 centimetra na skali mjerenja dužine ima isto značenje kao 1 cm između 82 i 83 centimetra. Drugim riječima, na intervalnoj skali, udaljenosti između susjednih podjela su jednake. Na skali intervala, pitanje "za koliko?" Ali nije uvijek moguće formulirati pitanje "koliko puta kada se koristi intervalna skala?" Činjenica je da se na intervalnoj skali referentna tačka (nulta skala), jedinica mjere i referentni smjer postavljaju proizvoljno. Primjer intervalne skale je Celzijeva temperaturna skala. Razlika između temperatura vazduha +30 i +20 °C je velika kao između -10 i -20 °C. Međutim, ne može se reći da je na temperaturi zraka od +30 °C jedan i po puta topliji nego na temperaturi od +20 °C. Čak i ako je temperatura zraka 0 °C, ne može se reći da uopće nema topline: na kraju krajeva, početna tačka se bira proizvoljno.

Skala na većini fizičkih instrumenata (ampermetar, voltmetar, itd.) je intervalna. IQ skala je intervalna skala.

Intervalna skala je metrička i može se koristiti za obavljanje sabiranja i oduzimanja. Ima značajne prednosti u odnosu na nominalne i ordinalne skale.

Skala odnosa, ili skala proporcija, omogućava uspostavljanje odnosa između vrijednosti izmjerene karakteristike zbog činjenice da vrijednost skale “0” odgovara vrijednosti za koju izmjerena karakteristika nema. Drugim riječima, porijeklo na ovim skalama se bira nehotice. Primjeri skala omjera su mjere dužine (m, cm, itd.) i mase (kg, g, itd.). Objekt dužine 100 cm je dvostruko duži od objekta dužine 50 cm Ponekad je potrebno transformirati podatke. Posebno, potreba za tim se javlja kada u nizu podataka jedan ili više podataka značajno nadmašuju ostale. Ako su podaci jasno iskrivljeni, zamijenite svaku vrijednost danog skupa podataka logaritmom te vrijednosti kako biste pojednostavili statističku analizu.Logaritam pretvara "iskrivljene" (asimetrične) podatke u simetričnije, jer se skala "proteže" blizu nule, male vrijednosti grupisane zajedno se distribuiraju duž skale. Istovremeno, logaritam spaja velike vrijednosti na desnom kraju skale. Najčešće se koriste decimalni i prirodni logaritmi. Jednake udaljenosti nalogaritamska skala odgovara na originalnoj skali jednakim procentima povećanja, a ne jednakim povećanjem vrijednosti.

^ Provjera normalne distribucije.

Brojne metode kojima se obrađuju varijable intervalne skale temelje se na hipotezi da njihove vrijednosti slijede normalnu distribuciju. Sa ovom distribucijom, većina vrijednosti je grupirana oko određene prosječne vrijednosti, na čijoj obje strane učestalost opažanja opada ravnomjerno.

Kao primjer, razmotrite normalnu starosnu distribuciju, koja je konstruisana od podataka iz studija hipertenzije (fajl hyper.sav) korišćenjem naredbi menija Grafovi Histogramm... (Histogram) (vidi sliku 5.1).

Dijagram prikazuje krivu normalne distribucije (Gaussian Bell). Stvarna distribucija u većoj ili manjoj mjeri odstupa od ove idealne krive. Uzorci koji se striktno pridržavaju normalne distribucije po pravilu se ne javljaju u praksi. Stoga je gotovo uvijek potrebno utvrditi da li se realna raspodjela može smatrati normalnom i koliko se data raspodjela značajno razlikuje od normalne.

Prije primjene bilo koje metode koja pretpostavlja postojanje normalne distribucije, prvo se mora provjeriti prisustvo ove druge. Klasičan primjer statističkog testa koji pretpostavlja normalnu distribuciju je Student t test, koji upoređuje dva nezavisna uzorka. Ako podaci ne prate normalnu distribuciju, treba koristiti odgovarajući neparametarski test, u slučaju dva nezavisna uzorka - Mann i Whitney U test.

Ako vam se čini da vizuelno poređenje stvarnog histograma sa krivuljom zvona nije dovoljno, možete primijeniti Kolmogorov-Smirnov test, koji se nalazi u meniju Analiza u paketu neparametarskih testova (pogledajte odjeljak 14.5).

Rice. 5.1: Distribucija po godinama

U našem primjeru starosne distribucije, Kolmogorov-Smirnov test ne pokazuje značajno odstupanje od normalne distribucije.

^ Zavisnost i nezavisnost uzoraka.

Dva uzorka zavise jedan od drugog ako se svaka vrijednost jednog uzorka može dodijeliti na pravilan i nedvosmislen način tačno jednoj vrijednosti drugog uzorka. Ovisnost nekoliko uzoraka utvrđuje se na isti način.

Najčešće se ovisni uzorci javljaju kada se mjerenja vrše u više tačaka vremena. Zavisni uzorci formiraju vrijednosti parametara procesa koji se proučavaju koji odgovaraju različitim vremenskim točkama.

U SPSS-u, zavisni (takođe povezani, upareni) uzorci će biti predstavljeni različitim varijablama koje se međusobno upoređuju u odgovarajućem testu na istom skupu opservacija.

Ako redovna i nedvosmislena korespondencija između uzoraka nije moguća, ti uzorci su nezavisni. U SPSS-u, nezavisni uzorci sadrže različita zapažanja (na primjer, od različitih ispitanika), koja se obično razlikuju po grupnoj varijabli koja se odnosi na nominalnu skalu.

^ Pregled uobičajenih testova za testiranje hipoteza o srednjoj vrijednosti.

U najčešćoj situaciji, kada različite uzorke treba uporediti jedni s drugima na osnovu njihovih srednjih vrijednosti ili medijana, u skladu sa uvjetima opisanim u Odjeljku 5.1, obično se koristi jedan od sljedećih osam testova.

^ Varijable koje se odnose na intervalnu skalu i podliježu normalnoj distribuciji

^ Varijable koje su na ordinalnoj skali ili varijable koje su na intervalnoj skali, ali nisu normalno raspoređene

^ Vjerovatnoća greške.

U analitičkoj statistici razvijene su metode za izračunavanje takozvanih testnih (kontrolnih) vrijednosti, koje se izračunavaju pomoću određenih formula na osnovu podataka sadržanih u uzorcima ili karakteristikama dobijenim iz njih. Ove testne vrijednosti odgovaraju određenim teorijskim distribucijama (t-distribucija, F-distribucija, X2 distribucija, itd.), koje omogućavaju izračunavanje takozvane vjerovatnoće greške. Ova vjerovatnoća je jednaka postotku greške koja se može napraviti odbacivanjem nulte hipoteze i prihvatanjem alternative.

Vjerovatnoća se u matematici definira kao vrijednost u rasponu od 0 do 1. U praktičnoj statistici, često se izražava i kao postotak. Obično se vjerovatnoća označava slovom p:

0
Vjerovatnoća greške pri kojoj je prihvatljivo odbaciti nultu hipotezu i prihvatiti alternativnu hipotezu ovisi o svakom konkretnom slučaju. U velikoj mjeri, ova vjerovatnoća je određena prirodom situacije koja se proučava. Što je veća potrebna vjerovatnoća s kojom se mora izbjeći pogrešna odluka, biraju se uže granice vjerovatnoće greške pri kojima se odbacuje nulta hipoteza, takozvani interval povjerenja vjerovatnoće.

Postoji općeprihvaćena terminologija koja se odnosi na intervale pouzdanosti vjerovatnoće. Izjave sa vjerovatnoćom greške str


^ Vjerovatnoća greške

Značaj

Oznaka

p > 0,05

Nije značajno

ns

R

Značajno

*

R

Veoma značajno

**

R

Maksimalni značaj

***

^ Interval pouzdanosti vjerovatnoće.

Interval povjerenja - izraz koji se koristi umatematičke statistike sa intervalnom (za razliku od tačkastog) procenom statističkih parametara, što je poželjno sa malom veličinom uzorka. Interval pouzdanosti je onaj koji pokriva nepoznati parametar sa datom pouzdanošću.

Interval pouzdanosti parametra θ distribucija slučajne varijable X sa nivoom pouzdanosti 100 p%[napomena 1] , generiran od strane uzorka ( x 1 ,…,x n), naziva se interval sa granicama ( x 1 ,…,x n) i ( x 1 ,…,x n), koje su realizacije slučajnih varijabli L(X 1 ,…,X n) i U(X 1 ,…,X n), tako da

Zovu se granične tačke intervala pouzdanosti granice poverenja.

Interpretacija intervala povjerenja zasnovana na intuiciji bila bi: ako str je velika (recimo 0,95 ili 0,99), tada interval pouzdanosti gotovo sigurno sadrži pravu vrijednost θ .

^ Deskriptivna (deskriptivna analiza).

Ova vrsta analize uključuje deskriptivni prikaz pojedinačnih varijabli. Ovo uključuje kreiranje tabele učestalosti, izračunavanje statističkih karakteristika ili grafički prikaz. Tabele učestalosti su konstruirane za varijable koje se odnose na nominalnu skalu i za redne varijable koje nemaju previše kategorija; o tome vidi poglavlja 6, 12 i 24.

Za varijable koje se odnose na nominalnu skalu, ne mogu se izračunati značajne statističke karakteristike. Najčešće, za redne varijable i varijable koje se odnose na intervalnu skalu, ali ne podliježu normalnoj distribuciji, izračunavaju se medijani i oba kvartila (vidi odjeljak 6.2); Ako je broj kategorija mali, može se koristiti opcija za koncentrirane podatke (vidi odjeljak 6.3).

Za varijable na intervalnoj skali i podložne normalnoj distribuciji, najčešće se izračunavaju srednja vrijednost i standardna devijacija ili standardna greška (vidi odjeljak 6.2). Međutim, treba odabrati samo jednu od ove dvije karakteristike raspršenja. Za varijable na svim statističkim skalama, može se konstruisati širok spektar grafova koji predstavljaju frekvencije, srednje vrijednosti ili druge karakteristike.

^ Analitička statistika.

Gotovo svaka statistička analiza, zajedno sa čisto deskriptivnim operacijama, uključuje određene analitičke metode (testove značajnosti), čija primjena u konačnici određuje vjerovatnoću greške p (vidi odjeljak 5.3).

Velika baterija testova se koristi da bi se utvrdilo da li se dva ili više različitih uzoraka razlikuju u svojim srednjim vrijednostima ili medijanima. Ovo uzima u obzir razliku između nezavisnih uzoraka (različita opažanja) i zavisnih uzoraka (različite varijable; vidjeti odjeljak 5.1.3). U zavisnosti od broja uzoraka (dva ili više), da li su uzorci zavisni ili ne, da li varijable pripadaju intervalnoj ili ordinalnoj skali, ili su podložne normalnoj distribuciji, koriste se specijalizovani testovi (videti odeljak 5.2) .

Vrlo česta situacija se javlja kada se upoređuju različite grupe zapažanja ili vrijednosti varijabli koje se odnose na nominalnu skalu. U ovom slučaju se prave tabele nepredviđenih situacija (vidi Poglavlje 11). Druga grupa testova odnosi se na proučavanje odnosa između dvije varijable, odnosno na identifikaciju korelacija i rekonstrukciju regresija (vidi Poglavlje 15, odjeljak 16.1).

Pored ovih prilično jednostavnih statističkih metoda, postoje i složenije metode multivarijantne analize, koje obično koriste više varijabli istovremeno. Na primjer, ako želite da svedete veliki broj varijabli na manji broj “snopova varijabli” koji se nazivaju faktori, tada se izvodi faktorska analiza (Poglavlje 19). Ako je naš cilj suprotan – kombinirati data zapažanja, formirajući od njih klastere, onda se koristi klaster analiza (poglavlje 20).

U određenoj grupi multivarijatnih testova pravi se razlika između zavisne varijable, koja se naziva i ciljnom, i nekoliko nezavisnih varijabli (utjecajnih ili prediktivnih varijabli).


^ Zavisna varijabla

Nezavisne varijable

Multidimenzionalna metoda

Dihotomno

Bilo koji

Binarna logistička regresija (odjeljak 16.4); diskriminantna analiza (poglavlje 18)

Dihotomno



Logit-log linearni modeli

Sa nominalnom skalom

Sa nazivnom ili rednom skalom

Multinomijska logistička regresija (odjeljak 16.5)

Sa rednom skalom

Sa nazivnom ili rednom skalom

Redna regresija (odjeljak 16.6)

Sa intervalnom skalom

Sa nazivnom ili rednom skalom

Analiza varijance (odjeljak 17.1)

Sa intervalnom skalom

Bilo koji

Analiza kovarijanse (odjeljak 17.2); analiza višestruke regresije (odjeljak 16.2)

Multinomijska logistička regresija i ordinalna regresija također mogu koristiti kovarijate intervalne skale.

Nezavisne varijable koje se odnose na nominalnu skalu u binarnoj logističkoj regresiji, diskriminantnoj analizi i multivarijantnoj regresijskoj analizi moraju biti dihotomne ili razložene u skup dihotomnih varijabli (vidi Odjeljak 16.2). Logit-log linearni modeli se ne raspravljaju u ovoj knjizi, već u drugom tomu, posvećenom metodama istraživanja tržišta i javnog mnijenja.

Teorijska validacija u sociološkim istraživanjima: Metodologija i metode

Zahvaljujući Stanley Stevensonu, u našoj istraživačkoj praksi radimo s nekoliko vrsta vaga. Neki kritikuju ovu tipologiju, ali očigledno niko nije smislio ništa bolje.

0 Kliknite ako je bilo korisno =ʺ

Bez obzira na složenost upitnika ili tehnika testiranja koje razmatrate, svi se mogu podijeliti u tri tipa ovisno o tome kojoj mjernoj skali pripadaju. U ovom slučaju ne govorimo o specifičnim metodama za izradu mjernih instrumenata (na primjer, Guttmannova skala ili Thurstoneova skala), već o klasifikaciji mjernih skala koju je predložio Stanley Stevens 1946. godine. Poznavanje ove klasifikacije je ključno sa stanovišta upotrebe kvantitativnog pristupa, budući da se upotreba određenih metoda matematičke statistike zasniva, između ostalog, na skalama mjerenja u kojima se prikazuju varijable od interesa za istraživača.

Saznajte više o konceptu "varijable"
„Varijabla“ je koncept koji se često koristi u naučnim istraživanjima (ne samo u društvenim i bihevioralnim naukama), a posebno kada je reč o kvantitativnom pristupu i upotrebi statističkih metoda. U stvari, varijabla je svako svojstvo objekata koji se proučava i koje se mijenja od jednog opažanja do drugog. U ovom slučaju, zapažanja se odnose na objekte proučavanja (ljude, organizacije, države ili bilo šta drugo - zavisi od samog proučavanja).
Ako se neko svojstvo ne mijenja iz jednog opažanja u drugo, onda ono ne pruža nikakvu vrijednu informaciju u matematičkom smislu (većina metoda će jednostavno biti neupotrebljiva).
Dakle, u okviru kvantitativnog pristupa, objekti koji se proučavaju predstavljaju se kao skup varijabli koje su od interesa i predmet proučavanja. Nije teško pretpostaviti da se varijable prvenstveno dijele u zavisnosti od skala u kojima su prikazane. Tako možemo razlikovati, na primjer, nominalne, ordinalne i metričke varijable. Istovremeno, redni se mogu podijeliti na skupljeni i kontinuirani redni. Neprekidne redne varijable imaju mnogo numeričkih vrijednosti i izgledaju (barem na prvi pogled) kao metričke. Sažete redne varijable imaju samo nekoliko kategorija ili numeričkih vrijednosti (ne više od pet ili šest). Mogu se dobiti bilo prikupljanjem podataka u sažetom obliku ili sažimanjem kontinuirane ordinalne ili metričke skale.
Druga važna podjela varijabli je podjela na zavisne i nezavisne. Često se u procesu analize postavljaju hipoteze o uticaju nekih varijabli na druge. U takvim slučajevima, varijable koje utiču na njih nazivaju se nezavisnim, a varijable na koje se utiče nazivaju se zavisne. Na primjer, ako govorimo o odnosu spola studenta i uspjeha njegovog studija, tada će spol biti nezavisna varijabla, a uspjeh njegovog studija zavisna.

Prema Stevensonovoj klasifikaciji, u najopštijem obliku, mogu se razlikovati tri vrste skala:
- nominalno,
- redni,
- metrički.

Nominalno skala uključuje klasu varijabli čije se vrijednosti mogu podijeliti u grupe, ali se ne mogu rangirati. Primjeri relevantnih varijabli su spol, nacionalnost, religija itd. Razmotrimo detaljnije takvu varijablu kao što je nacionalnost. U ovom slučaju, ispitanici se mogu podijeliti u različite grupe u zavisnosti od toga koje nacionalnosti smatraju. Istovremeno, na osnovu ovih podataka nemoguće je ispitanike sortirati po kvantitativnom izrazu parametra koji nas zanima, jer nacionalnost nije mjerljivo svojstvo, u tradicionalnom smislu te riječi.
Redni skala uključuje klasu varijabli čije se vrijednosti mogu ne samo podijeliti u grupe, već i rangirati ovisno o ozbiljnosti svojstva koje se mjeri. Klasičan primjer ordinalne skale je Bogardusova skala, dizajnirana za mjerenje nacionalne udaljenosti. Ispod je verzija prilagođena stanovništvu Ukrajine (N. Panina, E. Golovakha):

Zadatak upitnika
Za svaku dole navedenu nacionalnost odaberite jednu od pozicija koja vam je lično najbliža na koju biste dopustili predstavnike te nacionalnosti.
Skala odgovora
1) kao članovi moje porodice;
2) kao bliski prijatelji;
3) kao komšije;
4) kao kolege na poslu;
5) kao rezidenti Ukrajine;
6) kao posetioci Ukrajine;
7) uopšte mu ne bi dozvolio da uđe u Ukrajinu.

Ova skala vam omogućava da poredite ispitanike u zavisnosti od njihovog stava prema određenoj nacionalnosti. Međutim, on daje samo približne informacije, što ne omogućava preciznu procjenu razlika između gradacija skale. Tako, na primjer, možemo tvrditi da će ispitanik koji je spreman prihvatiti Jevreje kao članove svoje porodice prema njima postupati bolje nego onaj koji je spreman da ih primi samo kao komšije. Istovremeno, ne možemo reći "za koliko?" ili "u koje vrijeme?" budući da prvi ispitanik ima bolji odnos prema predstavnicima jevrejske nacionalnosti od drugog. Drugim riječima, nemamo nijedan argument koji bi podržao jednakost intervala između stavki skale.
Metric skala uključuje klasu varijabli čije se vrijednosti mogu podijeliti u grupe i rangirati, ili se njihova vrijednost može odrediti preciznim terminima (one “za koliko?” i “u koje vrijeme?”). Tipični primjeri relevantnih varijabli su starost, plata, broj djece itd. Svaki od njih se može što preciznije izmjeriti: starost u godinama, plata u grivnama, broj djece u... komadima;)
Naravno, ako se varijabla potencijalno može izraziti u metričkoj skali, onda se ista varijabla može izraziti u ordinalnoj skali.

Na primjer, starost se može izraziti u starosnim grupama (mladost, srednja dob, starost), koje daju samo približne podatke o ispitaniku, uprkos mogućnosti njihovog rangiranja.
Pripadnost metričkoj skali otvara mogućnost korištenja bilo koje statističke metode. Zauzvrat, pripadnost ordinalnoj ili nominalnoj skali ograničava izbor matematičkih alata (u slučaju ordinalne skale, u manjoj mjeri, a u slučaju nominalne skale u većoj mjeri). Data je klasifikacija statističkih metoda.
Kako bi razlike između nominalne, ordinalne i metričke skale bile još očiglednije, dat ću dodatni primjer posvećen ocjenjivanju profesionalnih boksera teške kategorije prema boxrec.com (informacija aktuelna od 31.01.2012.). Istovremeno ćemo pogledati podatke o prvih deset boksera prema tri varijable: etničkoj pripadnosti boksera, njegovom mjestu na rang listi i broju rejting poena koje je imao na dan 31.01.2012.

A) Etnička pripadnost ( nominalna skala). Tri boksera (braća Kličko i Dimitrenko) su Ukrajinci, jedan (Povetkin) je Rus, jedan (Adamek) je Poljak, dva (Chambers i Thompson) su Amerikanci, jedan (Fury) je Britanac, jedan (Helenius) je Finac, jedan ( Pulev) - bugarski. Tako nam je varijabla "nacionalnost" pomogla da sve boksere podijelimo u 7 grupa, ovisno o njihovoj etničkoj pripadnosti. Posjedujući ove podatke, osoba koja je daleko od boksa neće moći ništa reći o uspjehu navedenih boksera, iako će dobiti informacije o etničkoj pripadnosti 10 najboljih teškaša (nastavit ćemo se obraćati hipotetičkom stručnjaku):
Ukrajinci - 30%;
Amerikanci - 20%;
Rusi, Poljaci, Britanci, Finci i Bugari - po 10%.
B) Mjesto na rang listi ( ordinalna skala) daje približne podatke o bokserovom uspjehu. Situacija je sljedeća:
1. Vladimir Kličko
2. Vitalij Kličko
3. Aleksandar Povetkin
4. Tomasz Adamek
5. Eddie Chambers
6. Tyson Fury
7. Robert Helenius
8. Tony Thompson
9. Aleksandar Dimitrenko
10. Kubrat Pulev
Sada naš neupućeni analitičar zna redosled deset najboljih boksera teške kategorije. I iako su brojevi od 1 do 10 već prisutni ovdje, on još uvijek ne može izvoditi nikakve matematičke operacije osim poređenja. Na primjer, ne može reći da je Vladimir Kličko 4 jedinice bolji od Edija Čembersa. Izraz “5 minus 1” nema smisla u ovom slučaju. Što se tiče ova dva boksera, može samo da kaže da je Vladimir Kličko bolji bokser od Edija Čembersa (kao i svih ostalih iz prvih deset). Razlog zašto je nemoguće izvoditi matematičke operacije je taj što ne postoji jednakost intervala između tačaka 1 do 10. Koji su stvarni intervali između tačaka može se vidjeti zahvaljujući posljednjoj varijabli.
B) Broj bodova ( metrička skala). Ovaj indikator



Dijeli