Stokastik: Sandsynlighed og statistik

I skolen indgår både sandsynlighedsregning og statistik som emner i faget matematik, og de hænger nøje sammen. Begge fagområder handler, groft sagt, om at lave modeller for fænomener, som vi opfatter som mere eller mindre tilfældige – fx vejret, togdrift og aktiemarkedet. Det kan gøre det muligt at lave ”kvalificerede gæt” - fx på, hvad der vil ske i fremtiden. På videregående trin bruges betegnelsen sandsynlighedsteori oftere, idet fokus her ikke kun er på beregning af sandsynligheder, men også på teoretiske begreber som fx tæthedsfunktioner og stokastiske variable.

De to emner betegnes sommetider med fællesbetegnelsen stokastik, som kommer af det græske ord for gæt. Vi taler om stokastiske modeller når tilfældighed indregnes i beskrivelsen af et fænomen – i modsætning til deterministiske modeller som er (eller foregiver at være) absolut præcise.

Forskellen på sandsynlighedsteori og statistik handler om hvordan tilfældige fænomener modelleres. Sandsynlighedsteoretiske modeller baseres på teoretiske antagelser om fænomenet, og der opstilles herudfra en matematisk model. Statistiske modeller laves på basis af kvantitative data om fænomenet, fx temperaturvariation, afgangstider eller aktiekurser. I arbejdet med statistisk modellering indgår ofte sandsynlighedsteoretiske modeller, med den forskel at forudsætningerne i disse ikke alene begrundes teoretisk, men også på grundlag af data.

I forskningssammenhæng er sandsynlighedsteori en rent matematisk disciplin, mens statistik i dag er en selvstændig videnskabelig disciplin med stærke forbindelser til såvel matematik som til andre fag. Matematikdidaktiske forskere beskæftiger sig naturligvis også med stokastik i skolefaget, men også statistik-didaktik (på engelsk: statistics education) er i dag en selvstændig disciplin med egne tidsskrifter og kongresser. I tysktalende lande tales om ”stokastikkens didaktik”, hvilket giver god mening: sandsynlighedsteori og statistik kan nemlig ikke meningsfuldt behandles som uafhængige discipliner i skolen.

HVAD ER STATISTIK?

I daglig tale betyder ”en statistik” som bekendt en større eller mindre samling af data, normalt tal, som beskriver et eller andet – fx dagens oliepriser gennem et år. Vi fastholder her brugen af ordet data om et sådant talmateriale. Med statistik mener vi det fagområde, som handler om at beskrive og analysere data. Statistik består både af teknikker til at beskrive og analysere data, og af principper for brugen af disse teknikker til at besvare større eller mindre spørgsmål som søges belyst vha. data. Sådanne spørgsmål kan være ganske brede og vage – fx ”hvordan udviklede olieprisen sig over året”, og mere smalle: ”kan man sige at olieprisen steg i år, når man renser tallene for sæsonsvingninger”.

I grundskolen lærer man om forskellige deskriptorer, der kan bruges til at angive forskellige egenskaber ved et simpelt datasæt: fx gennemsnit, median, typetal, og spredning (se Undersøgelse 6). Man lærer også forskellige metoder til at repræsentere et datasæt visuelt, fx histogrammer og cirkeldiagrammer. Både deskriptorer og visuelle repræsentationer fremstilles typisk vha. digitale statistikværktøjer, hvoraf en del er specielt lavet til undervisningsbrug. Deskriptiv statistik handler om denne type af arbejde med et forelagt datasæt, hvor fokus er på at skabe overblik og identificere vigtige egenskaber (fx tendenser eller deskriptorer) i datasættet.

Man arbejder også med elementer af inferentiel statistik, som handler om at slutte fra data til spørgsmål, de ikke direkte beskriver: fx forudse den fremtidige udvikling af olieprisen, eller afgøre om en hypotese (fx ”olieprisen er størst om vinteren”) understøttes af et givet datasæt. Der findes selvfølgelig en række matematiske teknikker til at behandle sådanne spørgsmål, og nogle af de lidt mere avancerede behandles i gymnasiet (fx hypotesetests og konfidensintervaller). Men man kan aldrig besvare sådanne spørgsmål alene vha. matematiske teknikker: det er også vigtigt at opsøge viden om data og modeller for de fænomener de handler om. Olieprisen kan opgøres på mange måder, det er ikke vinter på samme tid i hele verden, og der kan også være lokale og sæsonbestemte forskelle når vi ser på bestemte olieprodukter som fx benzin – også i hvad produkterne består af. Under alle omstændigheder påvirkes oliepriserne langt mere af andre faktorer end årstiden – fx krige og handelsreguleringer - som det kan være svært at ”rense” en evt. sæsonvariation for. Men det kan selvfølgelig også være væsentligt at sige, at en almindelig udbredt antagelse ikke kan underbygges af data.

HVAD ER SANDSYNLIGHED?

I daglig tale bruger vi ordet ”sandsynlighed” om en subjektiv vurdering af, hvor ”sandsynligt” det er at en given hændelse indtræffer i fremtiden – fx ”det er usandsynligt at det bliver regn i dag”. Vi bruger også ofte ordene chance eller risiko om denne form for sandsynlighed: ”Der er gode chancer for gevinst”, ”Der er risiko for skybrud”. Bemærk, at den subjektive vurdering ofte ikke indeholder en talmæssig angivelse af sandsynligheden (chancen, risikoen). Ikke desto mindre kan der være tale om en slags ”ordning” af sådanne sandsynligheder: ”X har større chance for at blive valgt end Y”.

I sandsynlighedsregning forsøger vi at erstatte sådanne vage udsagn med et kvantitativt mål for, hvor sandsynlig det er at en given hændelse indtræffer – et tal mellem 0 og 1, som forklaret i introen.

Hvis $H$ er en hændelse, bruger vi notationen $P(H)$ til at betegne det tal i intervallet $[0,1]$ som angiver hændelsens sandsynlighed. Notationen viser, at sandsynligheden afhænger (og faktisk er en funktion) af hændelsen. Både historisk og i skolesystemet kan man skelne mellem tre tilgange til sandsynlighed, forstået som måder hvorpå $P$defineres og beregnes:

  • Statistisk sandsynlighed (også kaldet frekvens eller hyppighed), hvor man beregner $P$ vha data, fx fra eksperimenter. Hvis vi har slået med en terning 50 gange, og fået 8 seksere, vurderer vi at $P(\text{sekser})=8/50$. Med andre ord defineres sandsynligheden for en hændelse som andelen af forsøg i hvilken den indtræffer. Lidt mere formelt siger man at vi estimerer sandsynligheden ud fra den observerede frekvens.
  • Symmetrisk sandsynlighed, hvor man beregner $P$ ud fra et teoretisk bestemt udfaldsrum, bestående af endeligt mange mulige udfald, som er lige sandsynlige. En hændelse $H$ består af et eller flere af disse udfald. Hvis $H$ indeholder $n$ udfald, og der er i alt $N$ mulige udfald i alt, defineres $P(H)=\frac{n}{N}$. Fx kunne man i eksemplet ovenfor komme frem til at $P(\text{sekser})=\frac{1}{6}$
  • Aksiomatisk sandsynlighed, baseret på mængdelære, hvor udfaldsrummet er en vilkårlig mængde $U$, hændelser er (visse) delmængder af $U$, og $P$ er en funktion fra mængden af hændelser ind i $[0,1]$. Aksiomerne fastlægger egenskaber som mængden af hændelser og funktionen P skal opfylde. Symmetrisk sandsynlighed opfylder disse egenskaber, men er kun et eksempel blandt mange andre. Denne tilgang giver altså ikke en bestemt beregningsmetode, men fastlægger egenskaber for funktioner, som kan bruges til at beregne sandsynligheder. Aksiomerne, der skal gælde, er
    (1) $P(U)=1$
    (2) Hvis $A_1,A_2,...$ er parvist disjunkte hændelser, er $P(A_1 \cup A_2 \cup ...) =P(A_1)+P(A_2)+ \cdots$

De fleste matematiklærere er fortrolige med frekvensbaseret og symmetrisk sandsynlighed, og matematikken bag dem er da også den samme: sandsynligheder beregnes som en brøk, hvor tælleren er antal udfald i hændelsen, og nævneren er det totale antal udfald. Der er en undervisningstradition for at bruge udtrykket ”antal gunstige divideret med antal mulige udfald” som huskeregel for denne brøk. Det er lidt uheldigt, da hændelsen ikke behøver beskrive noget gunstigt. Men det bør særligt fremgæves, at der er forskel på frekvens baseret på data, og en symmetrisk sandsynlighed baseret på et teoretisk argument (ofte kombinatorisk). Man kan i øvrigt vise, at frekvensen (under visse betingelser, der ofte er opfyldt) ”nærmer” sig den teoretiske sandsynligheds (Se fx https://denstoredanske.lex.dk/de_store_tals_lov.). Det kan demonstreres i praksis ved at udføre et simpelt eksperiment mange gange. Når man fx kaster terning et stort antal gange, vil frekvensen af seksere nærme sig 1/6.

I gymnasiet bruges også mængdeteoretisk notation ifm. sandsynlighed, hvor fx $P(A \cap B)$ betegner sandsynligheden for at begge hændelserne $A$ og $B$ indtræffer. Detaljerne i den aksiomatiske tilgang undervises der kun i på universitetet, men som sagt bruges den mængdeteoretiske notation også i skolen, særlig på gymnasialt niveau.

Allerede i grundskolen kan man sagtens komme ind på fænomener, der ikke dækkes af de to første tilgange. Fx hvis man slår plat og krone indtil man får krone, og udfaldene er det antal gange man slår i alt. Man kunne være interesseret i at finde sandsynlighederne for alle muligheder. Men der er uendelig mange udfald, og de er bestemt ikke lige sandsynlige.

Svar på ovenstående opgave. Hvis man kaster mønten $2$ gange, er der fire mulige udfald, som vi kunne angive som PP, PK, KP, KK, og disse er alle lige sandsynlige. Tilsvarende hvis vi kaster mønten $n$ gange, er der $2^n$ lige sandsynlige udfald. Kun et af disse udfald svarer til at vi får plat i de første $n-1$ kast og krone i det sidste. Når der kastes $n$ gange, er sandsynligheden for dette specielle udfald altså $\frac{1}{2^n}$. Men dermed har vi ikke helt løst opgaven. Vi skal forestille os at vi slår uendelig mange gange og blot noterer hvornår vi fik krone første gang. Sandsynligheden for at dette sker efter $n$ kast er $\frac{1}{2^n}$, og den ændres ikke af om vi kaster videre. Hvis i stedet holder op med at kaste mønten, så snart vi får krone, er sandsynligheden for at det sker i $n$’te kast stadig $\frac{1}{2^n}$. Og hvis vi som udfaldsrum i stedet bruger antallet af kast, vi kommer til at kaste på denne måde, er dette udfaldsrum alle naturlige tal, og vi har $P(\{n\}) = \frac{1}{2^n}$. At vi selvfølgelig ”før eller senere” får krone, svarer til at summen af disse uendelig mange sandsynligheder er 1:

$\frac{1}{2} + \frac{1}{4} + \frac{1}{8} + \cdots = 1$

Denne smukke formel kan betragtes som et specialtilfælde af (2) ovenfor!

Opgave. Hvor mange gange skal man kaste med en mønt, for at være 99% sikker på at få krone mindst én gang? (Svar: 7… hvordan indses det?) 

Stokastiske variable er et sandsynlighedsteoretisk begreb, som dukker op i gymnasiet, særlig ifm. binomial- og normalfordelingerne. Moderne statistik er utænkelig uden dette begreb. Det repræsenterer samtidig en abstraktion, som er vanskelig at gøre rede for (og håndtere i praksis) uden elementer af den mængdeteoretiske tilgang til sandsynlighed som beskrevet ovenfor. Hvor den helt indledende sandsynlighedsregning i høj grad støtter sig på intuition fra det statistiske frekvensbegreb, er den videregående statistik altså i meget høj grad baseret på mere abstrakte begreber fra moderne sandsynlighedsteori.

Eksempel. Hvis vi forestiller os at vi kaster med en mønt uendelig mange gange, kan udfaldsrummet $U$ beskrives som uendelige sekvenser af P’er og K’er, og det er overtælleligt og dermed i sig selv lige så svært at håndtere som alle reelle tal. I stedet for at arbejde med det, kan vi definere en stokastisk variabel $X: U \rightarrow \mathbb{N} \cup \{\infty\}$ som for et udfald angiver placeringen af første krone, fx $X(PKPKPP \dots) = 2$ dog $X(PPPP \dots) = \infty$ Opgavesvaret ovenfor kan så formuleres sådan: $P(X = n) = \frac{1}{2^n}$ for naturlige tal $n$, og vi får også $P(X = \infty) = 0$ (overvej). Vi kan altså beskrive situationen med en diskret (geometrisk fordelt) stokastisk variabel. (se fx https://denstoredanske.lex.dk/geometrisk_fordeling)

 

til: GRUNDSKOLE & GYMNASIE
emne: STOKASTIK

UDGIVET: 2023

Forfatter



Udgiver

Temaer på matematikdidaktik.dk udvikles i tæt samarbejde mellem forskere og praktikere og udgives af NCUM.
Se redaktionen og vores redaktionelle retningslinjer
Del tema Print