torsdag 15. september 2011

Student T sannsynlighetsfordeling

I det forrige innlegget diskuterte vi kriteriene for om en temperaturserie viser en statistisk signifikant oppvarming eller nedkjøling. Vi regnet ut t-score, som er beregnet trend dividert med dens beregnete standardfeil. Vi skrev at t-score verdien har en Student T sannsynlighetsfordeling. Vi vil nå se nærmere på hvordan Student T sannsynlighetsfordelingen brukes for å bestemme statistisk signifikans.


t-score verdien har en Student T sannsynlighetsfordeling under forutsetning av at støyen på målingene er normalfordelt, dvs. tilfeldig. Et relevant spørsmål er om vi kan bruke denne sannsynlighetsfordelingen på en temperaturserie når vi vet at den inneholder farget støy, bl.a. pga. solaktivitet med 11 års sykler og El Nino / La Nina i Stillehavet. Svaret er ja. Vi regner nemlig ut sannsynligheten for å måle disse temperaturene, eller noen som avviker enda mere fra nullhypotesen, gitt at nullhypotesen er riktig. Nullhypotesen er at det er en tilfeldig sammenheng mellom tiden og temperaturmålingene, så vi kan bruke Student T fordelingen. Den alternative hypotesen er at temperaturen endrer seg med tiden, dvs. at det enten er en oppvarming eller en nedkjøling.


I resten av innlegget bruker jeg den mere generelle betegnelsen t i stedet for t_score.

Sannsynlighetstetthetsfunksjonen


Figur 1 viser sannsynlighetstetthet funksjonen til Student T fordelingen med 11 frihetsgrader. Beregnet t er langs horisontal akse, og sannsynlighetstettheten er langs vertikal akse. Temperaturserien fra 1998 til 2010 har 13 målepunkter, som gir 11 frihetsgrader, som i figuren.
Figur 1. Student T sansynlighetstetthetsfunksjonen med 11 frihetsgrader.
Arealet under hele kurven er 1, fordi t må jo ha en verdi. Arealet markert med grønt er 0.95, som betyr at det er 95% sannsynlig at t er mellom -2.2 og +2.2.

Tilsvarende er det 5 % sannsynlig at t er mindre enn -2.2 eller større enn +2.2, som markert med det røde arealet på figuren. Det er mindre enn 5% sannsynlig at en temperaturserie har t i det røde området gitt at nullhypotesen er riktig. Derfor forkaster vi nullhypotesen når t-score er i det røde området. Vi sier da at den alternative hypotesen er statistisk signifikant på 95% konfidensnivået, eller bare at den er statistisk signifikant. Det er viktig å være klar over denne logikken med å snu 5% sannsynlighet for nullhypotesen til 95% konfidens for den alternative hypotesen.

p-verdi 0.05 er en valgt grense. Statistikere velger ofte 0.05 som grense, og den har blitt en de facto standard for å angi statistisk signifikans.


Kumulative fordelingsfunksjonen

Figur 2 viser Student T kumulative fordelingsfunksjonen med 11 frihetsgrader.
Figur 2. Student T kumulative fordelingsfunksjon med 11 frihetsgrader.
97.5% percentilet ved t lik 2.2 er markert med grønne streker.
Den kumulative fordelingsfunksjonen er sannsynlighetstetthetfunksjonen integrert fra -∞ frem til t. Figur 2 markerer 97.5% percentilet med grønne streker, og viser at F(2.2) er 0.975. Det er 97.5 % sannsynlighet for at t er mindre enn 2.2, og da er det 2.5% sannsynlighet for at t er større enn 2.2. Fordi funksjonen i figur 1 er symetrisk om null, er det også 2.5% sannsynlighet for at t er mindre enn -2.2.

Percentilet omtales gjerne i prosent, som f.eks. 97.5% percentilet. Matematisk angis det som et desimaltall, som f.eks. 0.975. Ligning (1) illustrerer sammenhengen mellom percentil og den t verdien som gir det percentilet.

Den kumulative fordelingsfunksjonen F(t) er implementert i mange matematikkbibliotek og programmeringsspråk. I Scilab, som jeg programmerer i, heter funksjonen for Student T fordelingen cdft( ). Den kan regne enten fra t verdi til F verdi eller motsatt vei, i begge tilfellene med antall frihetsgrader som parameter.

Vi bruker den kumulative funksjonen F(t) for å regne ut sannsynlighetstetthetsfunksjonen f(t). Jeg brukte ligning (2) for å generere kurven i figur 1.

Forklaringene til figur 1 viser hvordan kritisk t brukes for å angi om en beregning gir en  statistisk signifikant løsning eller ikke. I praksis regner vi ut p verdien, som er sannsynligheten for at tilfeldige tall kan gi en i tallverdi like stor eller større verdi som den beregnete. Hvis p verdien er mindre enn 0.05, er beregnet verdi statistisk signifikant på 95% konfidensnivå. Hvis den er mindre enn 0.01, er beregnet verdi statistisk signifikant på 99% konfidensnivå, osv. Ligning (3) viser hvordan vi regner ut p verdien vha. F(t).

I noen sammenhenger bruker vi F(t) funksjonen for å regne ut konfidensintervall. Ligning (4) er et eksempel der 95% konfidensintervallet for et ŷ estimat regnes ut. Vha. F(t) funksjonen finner vi t0.975, som er t verdien med percentil 97.5%. Vi bruker 97.5% percentilet fordi det skal være 2.5% sannsynlighet for at korrekt y er større enn øvre grense i konfidensintervallet, og tilsvarende for nedre grense. SE er forkortelse for standardfeil. Ca 2/3 av estimatene skal ha feil mindre enn standardfeilen, noe som bekreftes av at t0.67+0.17 er ca 1, avhengig av antall frihetsgrader. Når antall frihetsgrader er 11, må standardfeilen multipliseres med 2.2 for å angi ± grensene til 95% konfidensintervallet.

Noen betraktninger

I mange tilfeller er det mulig å gjøre flere eksperimenter. Selv om en nullhypotesen er riktig, vil statistisk 1 av 20 eksperimenter forkaste den. Og det ene eksperimentet med signifikans for den alternative hypotesen kan publiseres, mens de 19 andre ikke får den samme oppmerksomheten. Det gir selvfølgelig et galt bilde. Våre globale temperaturserier kommer ikke fra eksperimenter som vi kan gjenta til vi får ønsket resultat. Men det er viktig å huske på at med en p-verdi på 0.05 er det 5% sannsynlighet for å konkludere med statistisk signifikant oppvarming eller nedkjøling selv om sammenhengen mellom tid og temperatur skulle være helt tilfeldig.

Det er mulig å kirsebærplukke målinger. I eksperimenter kan vi underkjenne målinger som vi tror er gale pga. instrumentfeil eller lignende, og på den måten bevisst eller ubevisst fjerne målinger som ikke passer med vårt forutintatte syn. I globale temperaturserier kan vi kirsebærplukke både startår, lengde på tidsserien og leverandør av temperaturdataene, og på den måten få resultater som vi ønsker. Vi kommer tilbake til det i et senere innlegg. Kort sagt må vi være både ærlige og edruelige, og ikke la oss styre av forutintatte synspunkter. Hvis ikke kan den statistiske analysen lett ende opp som en statistisk løgn.

1 kommentar:

  1. 12. mai 2012 utvidet jeg innlegget med avsnittet om den kumulative fordelingsfunksjonen. Avsnittet inneholder også ligninger som jeg bruker for bl.a. å beregne p verdi.

    SvarSlett