Kvantitativ metode del 1 Gymnasiel rer-kursus for r 2007 Aalborg Universitet Population, stikpr ve og signifikans Manda.


113 views
Uploaded on:
Description
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag den 19. marts, kl. 15.00 ved Henrik Lolle. Inferens fra stikprøve til population.
Transcripts
Slide 1

Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Population, stikprøve og signifikans Mandag lair 19. shops, kl. 15.00 ved Henrik Lolle

Slide 2

Inferens fra stikprøve til populace Nogle gange har man i samfundsvidenskabelig forskning adgang til information fra hele nook \'populace\', der skal undersøges. Et sådan datasæt kaldes et \'registration\'. Som oftest er dette imidlertid ikke muligt. Så må man replenish sig nøje med en stikprøve, der er udtrukket fra populationen. Men det er stadigvæk ens mål at besvare spørgsmål, der angår populationen og ikke alene de forhold, der angår stikprøven. Stikprøven som sådan er ikke vældig interessant.

Slide 3

Stikprøve-plan Ikke sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ikke! - ifm. pilotundersøgelse el. rent teknisk afprøvning - hvor populationen ikke kan afgrænses særlig præcist - særlige tilfælde af meningsmålinger - osv. Stikprøver Sandsynlighedsudvælgelse Den enkelte enheds sandsynlighed for udvælgelse til stikprøven kendes ! - Simpel tilfældig udvælgelse - Systematisk udvælgelse - Stratificeret udvælgelse - Klyngeudvælgelse - Flertrins kombinationsformer

Slide 4

Hvordan stikprøveudtagelse sker i hovedtræk

Slide 5

Udvalgsramme ° × ° Stikprøve × ° × ° × ° × ° × ° × ° × ° × ° × ° × ° × ° × ° × ° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Simpel tilfældig eller systematisk udvælgelse Enhederne i udvalgsrammen nummereres, og ved simpel tilfældig udvælgelse udtrækkes dernæst en række helt tilfældige numre (f.eks. ved PC generering af tilfældige numre). Ved systematisk udvælgelse udtages i stedet enheder med et bestemt mellemrum, sådan som det er illustreret herunder. Mellemrummet bestem-mes ved at dividere antal enheder i udvalgsrammen med det ønskede antal i stik-prøven, og der startes ved et tilfældigt nummer mellem én og det, der skal springes med. De to måder kan som regel sammenlignes mht. sikkerheden i inferering til populationen.

Slide 6

Proportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes simpelt og tilfældigt et antal enheder fra hvert strata, sådan at proportionerne svarer nøjagtigt til proportionerne i populationen/udvalgsrammen.I eksemplet her kunne der f.eks. være story om en strataopdeling på køn.

Slide 7

Disproportional stratificeret udvælgelse Populationen/udvalgsrammen inddeles i et antal strata på baggrund af en eller flere variable, og dernæst udtrækkes - f.eks. simpelt og tilfældigt - et antal enheder fra hvert strata, men sådan at proportionerne ikke svarer til propor-tionerne i populationen/udvalgs-rammen. Benyttes ofte, når et eller flere for analysen væsentlige strata indeholder for få observationer. Skal der i analysen f.eks. beregnes populationsgennemsnit for en variabel, vægtes break down enhederne, sådan at proportionerne igen passer med populationen.

Slide 8

Klyngeudvælgelse 1. trin 2. trin 1 × 2 1 × ° × ° × ° × ° × ° × ° × ° × ° × 3 4 ° × ° × ° × ° × ° × ° Ved klyngeudvælgelse inddeles populationen i et antal klynger (ofte bl.a. baseret på geografi), og til forskel fra stratificering udvælges tilfældigt et vist antal hele klynger. Er der story om enkelttrins klyngeudvælgelse, udtages samtlige enheder i de udvalgte klynger til stikprøven. Er der derimod story om flertrins klyngeudvælgelse, foretages der stikprøveudtagning fra de udtrukne klynger - f.eks. simpelt tilfældigt. Formålet ved klyngeudvælgelse er ofte at få bragt udgifterne ned ved at centrere interviewene på bestemte steder samt at sikre sig en reared geografisk dækning.

Slide 9

Sandsynlighed Hvad betyder sandsynlighed, og hvordan knyttes cave til forskellige typer af variabler? Sandsynligheden af, at en hændelse vil indtræffe, er sanctums relative frekvens over et langt forløb. Diskrete variable : Der knyttes sandsynligheder til hver enkelt hændelse i udfaldsrummet. Kontinuerte variable : Der knyttes sandsynligheder til et intervaller af værdier. Summen af sandsynligheder provider altid værdien 1.

Slide 10

Grafisk visning af Sandsynlighedsfordelinger af diskrete variable tight clamps med søjlediagrammer, mens sandsynlighedsfordelinger for kontinuerte variable tight clamps med kurver. Sandsynligheden aflæses direkte på højden af søjlen, f.eks. ca. 0,55 for ingen børn i en tilfældig familie. Sandsynlighed for, at en tilfældig valgt individual vil være mellem 20 og 50 år gammel er lig med det viste areal, ca. 0,45 (eller 45 pct.) 1,0 0,5 0 1 2 3 4 5+ 0 20 50 Antal børn i familien Alder

Slide 11

Sampling dispersion Sampling circulation (eller testing fordelingen) er en sandsynligheds-fordeling, der bestemmer sandsynligheder for værdier af en stikprøve-statistik – f.eks. gennemsnit, extent, korrelationskoefficient eller regressionskoefficient. Stikprøvestatistikken kan betragtes som en variabel, der varierer fra stikprøve til stikprøve, men hvor gennemsnittet af disse stikprøve-statistikker ved en uendelig lang række af stikprøver vil være lig med statistikken i populationen. Standard afvigelsen til en sandsynlighedsfordeling af stikprøvestatistikker kaldes for standard fejlen . Standardfejlen kan betragtes som lair typiske fejl, man begår ved estimation af statistikken ved cave respektive stikprøvestørrelse. For gennemsnit er standardfejlen lig med:

Slide 12

Den centrale grænseværdisætning (Central Limit Theorem) For tilfældig stikprøveudtrækning gælder, at når stikprøve-størrelsen " n " vokser, så vil fordelingen af stikprøvegennemsnit " tilnærme sig en normalfordeling. Dette gælder uanset formen af populationens fordeling. I de fleste tilfælde er en stikprøve på omkring 30 cases være nok til en god tilnærmelse til normalfordelingen af stikprøvegennemsnittene. 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have et gennemsnit, der ligger højst to standardfejl fra populationsgennemsnittet. Jo større stikprøve, jo mindre standardfejl og jo større præcision. Tilsvarende gælder for andele. Andelen, der f.eks. angiver at ville stemme på Socialdemokratiet, vil ligesom et gennemsnit variere omkring cave sande andel, og nook vil fordele sig tilnærmelsesvist normalt, hvis der er story om store stikprøver. Her defineres "store" stikprøver ved, at der skal være least 10 enheder i hver af de to grupper.

Slide 13

Normalfordelingen Eksempler på forskellige normalfordelinger Fra: http://espse.ed.psu.edu/measurements/statlets/free/WebStatFX.html

Slide 14

Eksempel fra ISSP Religion 1998 Disse andelsstørrelser vil variere fra én stikprøve til en anden. Nu er det sjældent, at man har negligible end én stikprøve, men viden om denne variety mellem de hypotetisk gentagne stikprøver gør, at man kan udtale sig med en vis statistisk sikkerhed om andele i populationen.

Slide 15

Hvor stor en andel tror på Gud i populationen? Andelen på 0,528 er det bedste bud på andelen i populationen, men hvor sikkert er det? Man ved fra cave centrale grænseværdisætning, at stikprøveestimatet ved gentagne stikprøveudtræk vil fordele sig tilnærmelsesvist \'normalt\', og man kan også anslå standardafvigelsen på denne hypotetiske fordeling. Denne kaldes, som nævnt, også for standardfejlen . Standardfejlen approksimeres i til:

Slide 16

Stikprøve-udtrækning Der findes på nettet en række forskellige sider, hvor der grafisk gives en pædagogisk visning af mekanismerne i stikprøveudtræk, og hvor der gives indblik i usikkerhedsaspekter. Simulatoren til højre herfor er en af de absolut bedste (se join nedenfor!). http://onlinestatbook.com/stat_sim/sampling_dist/index.html

Slide 17

Udledninger af sanctum centrale grænseværdisætning Omskrivning af en regel fra lair centrale grænseværdisætning : Følgende er direkte udledt fra sætningen: 95 pct. af stikprøverne, som man hypotetisk udtrækker, vil have en andel på cave pågældende variabel, der ligger højst to standardfejl fra sanctum sande andel. Følgende kan udledes fra ovenstående: Hvis man går to standardfejl på hver side af andelen i stikprøven, vil man med 95 pct. sikkerhed indfange andelen i populationen.

Slide 18

Andel i populationen, der tror på Gud 95 pct. sikkerhedsinterval for andele: Læg mærke til, at det helt nøjagtigt er 1,96 standardfejl, der skal til for at "indfange" 95 pct., altså ikke præcis 2. Intervallet kan udregnes til: Med 95 pct. sikkerhed vil andelen, der tror på Gud, ligge mellem ca. 0,50 og 0,56. Dette supplier et indblik i sikkerheden i sanctum slags review. Og det er unimportant dette, end det er de præcise talstørrelser, der skal awaits mærke i her.

Slide 19

Signifikanstest for andele 95 pct. sikkerhedsintervallet skred netop ind over andelen på 0,5. Dvs. med 95 pct. sikkerhed vil man ikke kunne sige, hvorvidt populationsandelen ligger på lair ene eller anden side af de halvtreds, blotch at cave ligger ret tæt på. Man kan også foretage en egentlig test af, om stikprøveresultatet er så meget større end 0,5, at man med en vis statistisk sikkerhed vil kunne afvise hypotesen om, at andelen ligger på 0,5 eller derunder. Man skal først finde ud af, hvor langt ude de 0,528 ligger ift. 0,5, udtrykt i antal standardfejl. De 0,5 kaldes for nulhypotesen . Derefter kan man ved hjælp af normalfordelingens egenskaber finde sandsynligheden for, at man i stikprøven får et resultat på 0,528 eller endnu insignificant afvigende fra de 0,5, under forudsætning af at populationens andel faktisk er 0,5. Hvis sanctum sandsynlighed

Recommended
View more...