STK1000: FØRSTE SETT MED OBLIGATORISKE OPPGAVER

Høsten 2008

 

Oppgavesettet består av tre oppgaver. For å løse oppgavene trenger du hjelp av MINITAB eller annen statistisk programvare. I forbindelse med bruk av MINITAB kan du ha nytte av notatet Starthjelp i MINITAB (kalt "innføringsheftet" nedenfor). Det er tilgjengelig på hjemmesiden til kurset.

I den skriftlige besvarelsen av oppgavene skal du kort forklare hvordan de enkelte punktene er løst. Det er valgfritt om du vil skrive besvarelsen for hånd eller om du vil bruke et tekstbehandlingsprogram. Der du bruker MINITAB, må relevante utskrifter og plott legges ved eller limes inn i besvarelsen. Instruksjoner for utskrift fra MINITAB finner du i avsnitt 10 i innføringsheftet.

Obligen skal leveres med en egen forside som du finner her. Det er lov å 欧洲杯在线买球_欧洲杯投注网站推荐@e og å bruke hjelpemidler. Den innleverte besvarelsen skal imidlertid skrives av deg og gjenspeile din forståelse av stoffet. Er vi i tvil om at du virkelig har forstått det du har levert inn, kan vi be deg om en muntlig redegjørelse.

Besvarelsen leveres på instituttkontoret ved Matematisk Institutt i 7. etasje, Niels Henrik Abels hus (Matematikkbygningen).

Frist for innlevering er fredag 26. september 2008 kl 14.30.


Oppgave 1

Karbondioksid (CO2) er en gass som dannes n?r man brenner fossile brensler, og bidrar bl.a. til global oppvarming. På side 33 i læreboken (Moore & McCabe, 5. utg.) finner du en tabell over CO2-utslipp i tonn per person i 2006 fra land med mer enn 20 millioner innbyggere. Tallene er gitt på fil i tekst-format og Minitab-format.

a) Del verdiområdet opp i passende delintervaller og tell opp antall observasjoner i hvert delintervall. Tegn for hånd et histogram for de 48 observasjonene. Kommenter histogrammets form.

b) Lag et histogram over de 48 observasjonene ved hjelp av MINITAB (kommando: Graph -> Histogram; jfr. avsnitt 8.3 i innføringsheftet). Sammenlign med histogrammet du lagde i a). Lag også et stilk-og-blad-plott (Graph -> Stem-and-Leaf). Hvilke land skiller seg ut? Frivillig: Finn ut hvor i fordelingen Norges CO2-utslipp ligger.

c) Hvilke oppsummerende mål bør brukes for å beskrive en fordeling som den du ser i a) og b)? Begrunn svaret. Beregn disse ved hjelp av MINITAB (kommando: Stat -> Basic Statistics -> Display Descriptive Statistics; jfr. avsnitt 8.1 i innføringsheftet - plukk ut det du trenger fra utskriften).

d) Bruk MINITAB til å lage et boxplot over dataene. Beskriv og beregn kriteriet som ligger til grunn for at en observasjon er markert med stjerne-symbol i plottet. Syns du denne potensielle uteliggeren burde fjernes fra datasettet i videre analyser? Begrunn svaret.




Oppgave 2

I denne oppgaven skal vi se på data som er samlet inn under et innføringskurs i statistikk ved et amerikansk universitet. Studentene i kurset gjennomførte et enkelt forsøk. Hver student noterte sin høyde og vekt og målte pulsen sin (under hvile). Så kastet hver av studentene en mynt. De som fikk krone løp på stedet i ett minutt, mens de som fikk mynt ble sittende stille i ett minutt. Så målte alle pulsen en gang til (for de som satt stille, er dette en måling til av pulsen under hvile). Dataene for de 92 studentene finnes som en Minitab-fil og som en vanlig tekstfil, som du må kopiere inn i et arbeidsark i MINITAB. På datafilen er det en linje for hver av de 92 studentene, der variablene i kolonnene har følgende betydning:
  • Pulse1:  Første pulsmåling (antall slag per minutt)
  • Pulse2:  Andre pulsmåling (antall slag per minutt)
  • Ran:        1=løp på stedet; 2=satt stille
  • Sex:        1=mann; 2=kvinne
  • Height:   høyde i inches (1 inch = 2,54 cm)
  • Weight:   vekt i pounds (1 pound =0,454 kg)
Når du har lastet dataene inn i MINITAB, registrerer du dine egne verdier for variablene Sex, Height og Weight i linje 93 i arbeidsarket (husk å regne om til hhv. inches og pounds). Mål pulsen din under hvile og registrer den som Puls1. Kast så et kronestykke. Hvis det viser krone, løper du på stedet i ett minutt. Hvis ikke sitter du stille ett minutt. Så måler du pulsen din igjen og registrer den som Puls2 i linje 93 i arbeidsarket. Skriv også inn din verdi for Ran (1 hvis du løp, 2 hvis du satt stille).

Med dette modifiserte datasettet:

a) Lag histogram for variabelen Pulse1 og merk av din egen verdi.

b) Beregn enkle oppsummerende mål for den samme variabelen. Hvordan ligger din egen verdi i dette bildet?

c) Lag et scatterplot med Pulse1 på x-aksen og Pulse2 på y-aksen, med forskjellige symboler for de som løp og de som ikke løp. Forklar hva plottet viser. Lag andre grafiske fremstillinger som viser effekten av aktivitet p? Pulse2.

d) Gjennomfør en regresjonsanalyse med vekt som responsvariabel og høyde som forklaringsvariabel. Forklar hva resultatene av regresjonsanalysen forteller deg. (Kommandoer: Stat -> Regression -> Regression og Stat -> Regression -> Fitted Line Plot.)

e) Forklar hva R-Sq (r-kvadrert) i utskriften betyr.




Oppgave 3

Denne oppgaven er essensielt oppgave 2.106 på side 186 i læreboka. De to datasettene i oppgave 2.106 (ett for kvinner og ett for menn) er fremkommet ved at man har latt et antall eliteløpere løpe på tredemølle ved bestemte hastigheter ('Speed', som her betraktes som forklaringsvariabel), og målt stegfrekvensen (antall steg per sekund) ved hver hastighet. Responsvariabel er gjennomsnittlig stegfrekvens for henholdsvis kvinnelige og mannlige løpere ('Stride rate'). En enkel måte å organisere dataene på i MINITAB er å lage seks kolonner: speed, stride rate kvinner, stride rate menn, en dobbelt så lang kolonne der speed ligger to ganger etter hverandre og en dobbelt så lang kolonne der stride rate for kvinner og stride rate for menn ligger etter hverandre. Til slutt lager du en kolonne med en kategorisk variabel som angir om individene i den sistnevnte kolonnen er kvinner eller menn. De tre første kolonnene må du skrive inn manuelt. De to neste kan du lage manuelt eller ved å bruke Data -> Stack -> Columns. Den siste kolonnen må du lage manuelt.

a) Plott først dataene for hastighet og stegfrekvens. Her lager du tre figurer: Først en der dataene plottes i samme figur, men med ulike plottesymboler for menn og kvinner, dernest en der det legges inn en felles regresjonslinje og til slutt en der det legges inn separate regresjonslinjer. Plottene kan du lage med kommandoen Graph -> Scatterplot. På bildet som kommer fram kan du spesifisere de tre typene av plott som er beskrevet ovenfor ved With Groups, With Regression og With Groups and Regression henholdsvis. Du trenger den sjette kolonnen, som identifiserer kvinner og menn, for å lage det første og siste av plottene.

b) Anta nå at du fikk dataene uten identifikasjon av kjønn. Beregn koeffisientene for minste kvadraters linje for alle dataene. Bruk de to kolonnene der dataene for kvinner og dataene for menn er slått sammen.

c) Lag plott av residualene fra linjen i punkt b) mot rekkefølgen av observasjonene og mot hastighet. Forklar hvordan det vises i plottet at dataene kommer fra to forskjellige grupper. Kommandoene er her Stat -> Regression -> Regression. Klikk på Graphs og be om å få plottet (i) residualene mot rekkefølgen av observasjonene og (ii) residualene mot hastighet.

d) Beregn så regresjonslinjer separat for hvert kjønn. Hva blir korrelasjonen mellom hastighet og stegfrekvens i hvert av tilfellene? Hva sier disse korrelasjonene om regresjonslinjene?

e) Lag plott av residualene fra hver av de to linjene fra punkt d) mot hastighet. Kommenter plottene!