Variansanalyse

Frå Wikipedia – det frie oppslagsverket
Gå til: navigering, søk

Variansanalyse (ANOVA, frå det engelske «analysis of variance») er eit fellesomgrep for ei rekkje statistiske metodar for å teste likskap mellom to eller fleire utval, der éin eller fleire faktorar gjer seg gjeldande. Variansanalyse er i dei enkle tilfella eit alternativ til Z/t-testane for å samanlikne gjennomsnitt i populasjonar.

Dei to grunnleggjande formene for variansanalyse skildrast gjerne som 'einvegs' og 'tovegs' variansanalyse. I einvegs tilfellet undersøkingar ein berre éin eigenskap som varierer mellom gruppene, i tovegstilfellet undersøkjer ein òg variasjonar innover i gruppene.

Variansanalyse med éin faktor[endre | endre wikiteksten]

Det enklaste tilfellet for variansanalyse er tilfellet der ein har I grupper med like storleikar J, og ønskjer å samanlikne gjennomsnitta til gruppene. Han nyttar gjerne der ein ønskjer å samanlikne skilnader i respons på forskjellige handsamingar (treatments) i forskjellige grupper.

Hypotesen ein testar er for ei mengd populasjonar[1] I

  1.  H_0: \ \mu_1 = \mu_2 = \dots = \mu_I
  2.  H_A: minst to av gruppene er forskjellige.

Føresetnadene for testen er at alle observasjonane er uavhengige normalfordelte tilfeldige variable med lik varians.

Kvadratavvik og varians[endre | endre wikiteksten]

Dei fundamentale storleikane i variansanalysen er kvadratavvik totalt (SST), mellom individ og gruppe (SSE) og mellom gruppe og totalt gjennomsnitt (SSTr). Desse er definert ved[2]
 SST = \sum_i\sum_j (x_{ij} - \overline{x}_{..})^2 = \sum_i\sum_j x_{ij}^2 - \frac{x_{..}^2}{IJ}
 SSTr = \sum_i\sum_j (\overline{x}_{i.} - \overline{x}_{..})^2 = \frac{\sum_i X_{i.}^2}{J} - \frac{x_{..}^2}{IJ}
 SSE = \sum_i\sum_j (x_{ij} - \overline{x}_{i.})^2

Samanhengen mellom desse gjev opphav til den fundamentale ANOVA-identiteten SST = SSTr + SSE.[3] Videre har vi at[4]
MSTr = \frac{SSTr}{I - 1}
MSE  = \frac{SSE}{I(J-1)}

Dette gjev opphavet til det ein kallar ein ANOVA-tabell:[5]

Variasjonskjelde Fridomsgrader Kvadratavvik Varians f-verdi
Grupper I - 1 SSTr MSTr = SSTr/(I - 1) MSTr/MSE
Feil I(J - 1) SSE MSE = SSE/[I(J - 1)]
Total IJ - 1 SST

Test av nullhypotesen[endre | endre wikiteksten]

For å teste nullhypotesen, brukar ein ofte ein f-test. Testobservatoren er gjeven ved[4]
f = \frac{MSTr}{MSE}

som ein reknar har ein F_{I - 1, I(J - 1)}-fordeling. Forkastingsområdet for H_0 er f \geq F_{\alpha, I-1, I(J-1)} for ønska signifikansnivå \alpha

Tukeys prosedyre[endre | endre wikiteksten]

F-testen er eit godt utgangspunkt for å samanlikne gjennomsnitta i fleire populasjonar, men han gjev ikkje svar på kva av populasjonane som er signifikant ulike kvarandre. Tukeys prosedyre nyttar ei Q-fordeling til å rekne ut kva intervall gjennomsnitta i populasjonen kan ligge i for å vere signifikant like kvarandre. For eit signifikansnivå \alpha definerer vi w som

w =  Q_{\alpha, I, I(J - 1)}\sqrt{MSE / J}

Dei gjennomsnitta som har større differanse enn w vert rekna å vere signifikant ulike, med signifikansnivå \alpha[6]

Relasjon til t-testen[endre | endre wikiteksten]

For tilfellet med to populasjonar, vil variansanalyse og ein alminneleg t-test gje same resultat for hypotesen H_0: \ \mu_1 = \mu_2 mot H_A: \ \mu_1 \neq \mu_2. T-testen er meir fleksibel, då ein og kan teste om eit gjennomsnitt er større enn, eller mindre enn eit anna.

For I > 2 kan ein i prinsippet òg utføre t-testar for alle kombinasjonar av grupper, men dette vil gje større sannsyn for type 1-feil.[7]

Kjelder[endre | endre wikiteksten]

  1. Devore/Berk 2007, side 540.
  2. Devore/Berk 2007, side 544.
  3. Devore/Berk 2007, side 547.
  4. 4,0 4,1 Devore/Berk 2007, side 545.
  5. Devore/Berk 2007, side 548.
  6. Devore/Berk 2007, side 552.
  7. Devore/Berk 2007, side 557, 563.