SUMA4 forår 2007 - overlevelsesanalyse og introduktion til statistisk software

Kursusholdere:
Søren Lundbye-Christensen og Anders Gorst-Rasmussen, Institut for Matematiske Fag.

Hvad handler det så om?

Kurset er en hel del ting. Dels er det et PE-kursus og skal derfor støtte op om jeres projektarbejde, der tager udgangspunkt i en epidemiologisk problemstilling (hvad det så er for noget, kan I læse eksempelvis her). Desuden er det jeres allerførste statistikkursus. Og endelig handler det hele i bund og grund om overlevelsesanalyse - og hvordan man laver den slags på sin computer. Indholdet er med andre ord følgende:

  • Epidemiologi (risikomål, confounding, effektmodifikation).
  • Statistik (maksimaliseringsestimation, tests og konfidensintervaller).
  • Overlevelsesanalyse (estimation af overlevelseskurver, logrank test, Coxregression og modelkontrol).
  • Introduktion til statistisk software (med udgangspunkt i pakken R).

Kurset vil overvejende foregå som studiekreds. Det betyder, at I på et eller andet tidspunkt - når I altså er blevet kloge nok - selv skal til at fremlægge det læste stof for hinanden. Mindst én af os undervisere vil befinde sig i lokalet og komme med indsigtsfulde kommentarer og opmuntrende tilråb under jeres respektive fremlæggelser og diskussioner. Derudover vil der selvfølgelig være opgaveregning ca. halvdelen af tiden hver kursusgang.

Omfang:
3+1 ECTS (20 kursusgange).

Litteratur:

  • [PO] Probability, Statistics, and Stochastic Processes, Peter Olofsson. John Wiley & Sons Inc. (2005).
  • [DC] Modelling survival data in medical research, 2nd ed., David Collett. Chapman & Hall/CRC (2003).
  • [SJ] Epidemiologi og evidens, Svend Juul. Munksgaard (2004).
  • Kopier og artikler som udleveres løbende.

Lektionsplan (meget foreløbig):

a
1. kursusgang
Tid og sted: 1/2-2007, 12.30-15.00 (G5-110).
Indhold: Hvad handler kursus og projekt om? Søren og jeg fortæller den første halvanden time om analyse af overlevelsesdata, og hvorfor det faktisk ikke er helt let at lave den slags. Ved 14-tiden får vi besøg af Claus Dethlefsen fra Kardiovaskulært Forskningscenter, Aalborg Sygehus, Aarhus Universitetshospital, som vil fortælle om de data, der ligger til grund for jeres projekt.
Litteratur:
Ekstramateriale: En guide til hvor man henter, og hvordan man installerer statistikprogrammet R samt editoren Tinn-R kan findes lige her.
2. kursusgang
Tid og sted: 8/2-2007, 08.15-12.00 (G5-110).
Indhold: Hvordan er en medicinsk artikel opbygget? Vi aftalte sidste gang, at det er jer, som står for at holde oplæg denne gang - så måtte I selv slås om, hvem der snakker. Tag udgangspunkt i tekstmaterialet nedenfor; første tekst er en teoretisk gennemgang - anden tekst er et konkret eksempel af relevans for jeres projekt. Det er selvfølgelig helt okay, hvis I vil inddrage yderligere kilder; men det forventes ikke.
Litteratur:
Opgaver: Med udgangspunkt i dagens oplæg og diskussion skal I lave en skitse for opbygningen af artikeldelen af jeres projekt. Hvor skal fokus ligge og hvilke hypoteser vil I (i første omgang) undersøge? Tag f.eks. udgangspunkt i Claus Dethlefsens ønskeseddel (kan findes her) eller lad jer inspirere af referencerne i projektoplægget.
Kage: Vi enedes sidste gang om at have en kageordning. Der var bred tilslutning til, at Steffen medbringer denne gang.
Ekstramateriale: En af epidemiologiens helte (jep, den slags findes!) Kenneth J. Rothman har skrevet lidt om, hvordan en epidemiologisk artikel bør forfattes. Det kan I måske også få glæde af.
3. kursusgang
Tid og sted: 15/2-2007, 08.15-12.00 (G5-110).
Indhold:

Først vil vi (dvs. I) snakke om opgaven fra sidste gang.

Dernæst vil Søren belære jer om forsøgsdesign og forskellige risikomål (risiko og odds) og associationsmål (relativ risiko og odds) - måske kan han også overtales til at nævne prævalens, incidens og deres rate-ratio-udgaver. Han har også tænkt sig at fortælle om konfidensintervaller for associationsmål, og hvad det egentlig er for nogle størrelser. Ved en alternativ men ganske retfærdig lodtrækning sidste kursusgang blev det besluttet, at jeg efter Sørens forelæsning skal fortælle noget om R: hvordan man installerer det, hvad man kan bruge det til - og ikke mindst hvordan.

Litteratur:
  • [SJ] kapitel 2-2.4 samt 5-5.4 (Sørens seance).
  • Til R-seancen er der intet obligatorisk læsestof - denne gang. På følgende side kan I til gengæld finde en solid håndfuld gratis tekster om R. `Simple R' af J. Verzani (nummer to fra oven) er fin at orientere sig i til en start. Husk gerne bærbare PC'er.
Opgaver: ... aftalte vi at gemme vi til næste gang, når vi nu får lov til at køre dobbeltforelæsning.
Kage: Dorte.
Ekstramateriale: Slides til Sørens seance findes her. Desuden slides til R-delen samt eksempler på brug af R.
4. kursusgang
Tid og sted: 22/2-2007, 08.15-12.00.
Indhold: Opgaveregning. I er selvfølgelig velkomne til at sidde i G5-110, hvis I vil have lidt mere plads. Så skal jeg nok kigge forbi en gang eller to. Ellers kan I få fat i mig på mit kontor.
Opgaver:
  • Opgave 1 fra opgavesættet til første kursusgang i Søren Buhls MAT3-kursus, R og WinBUGS.
  • En simulationsopgave om konfidensintervaller for den relative risiko.
  • Opgave 1.2-1.7 fra Søren L-C's eksamensopgaver til kurset Epidemiologi og statistik på basis.

    Datasættet er tilgængeligt her i CSV-format (brug read.table i R). For variablen Sex er kvinder er kodet som 0 og mænd som 1. I bliver i opgaven bedt om at udregne prævalens med sikkerhedsintervaller. Det kan I f.eks. gøre vha. funktionen binom.approx i pakken epitools. Til beregning af relativ risiko/odds ratio, kan I bruge fremgangsmåden i R-filen fra sidste forelæsning, dvs. xtabs og epitab. I skal på passende vis anvende logiske operatorer på Sex (køn), Type (diabetestype), Mac (makulopati) samt Bplow (blodtrykssænkende medicin) for at trække `indikatorvektorer' for de forskellige patientgrupper ud af datasættet.

5. kursusgang
Tid og sted: 26/2-2007, 10-12 (Forskningens Hus, Sdr. Skovvej 15).
Indhold: Introduktion til epidemiologiske grundbegreber ved forskningsleder, adjungeret professor, ph.d. Kim Overvad (Klinisk Epidemiologisk Afdeling, Aalborg Sygehus og Århus Universitetshospital). Kim Overvad havde desværre brækket sit kraveben, så Søren var stand-in og fortalte om noget helt andet: estimation, konfidensintervaller og tests, mestendels i normalfordelingen. Vi kom ganske vidt omkring og snakkede bl.a. maximum likelihood estimation (på dansk maksimaliseringsestimation) samt likelihood ratio tests. Det sidste var dog lidt kort.
Litteratur:
  • [PO], Kapitel 6-6.3.1 samt 6.4.2 (maximum likelihood) og 6.5-6.5.2 (hypotesestest).
Kage: Anders (en rigtig sund én med gulerødder og sager).
6. kursusgang
Tid og sted: 28/2-2007, 08.15-12.00 (G5-110).
Indhold: Asymptotisk teori for simple estimatorer.
Litteratur:
  • [PO] kapitel 4. I har endnu ikke haft om momentfrembringende funktioner i Bo Rosbjerg's kursus, så I kan nøjes med at skimme beviser og eksempler, hvori de indgår. Bemærk at I senere i Bos kursus skal samme kapitel igennem - så meget desto mere grund til at læse det nu!
Opgaver: Dem udleverede Søren efter forelæsningen.
7. kursusgang
Tid og sted: 1/3-2007, 08.15-12.00 (G5-110).
Indhold: Mere om R (grafik, datatyper og funktioner).
Litteratur: Intet litteratur. Til gengæld bedes I forberede en kort præsentation af jeres besvarelse - inklusiv R-kode - af den sidste opgave fra 4. kursusgang (den fra Sørens eksamensopgaver). I opfordres naturligvis også til at læse (videre?) i jeres favorit R-tutorial og eksperimentere med programmellet på egen hånd.
Opgaver: Om asymptotisk statistik.
Ekstramateriale: R-kode fra forelæsningen.
8. kursusgang
Tid og sted: 1/3-2007, 12.30-16.15 (G5-110).
Indhold: Generel maximum likelihood estimation.
Litteratur: I første omgang bedes i læse litteraturen til 5. kursusgang nok engang. Sørg for at I får en forståelse for idéen med estimation, intervalestimation (konfidensintervaller) samt hypotesetests (evt. kan I også orientere jer videre i kapitel 6 i [SO]). Søren vil fortsætte med disse begreber i et lidt mere generelt setup end 5. kursusgang.
Opgaver: Er tilgængelige her.
9. kursusgang
Tid og sted: 2/3-2007, 8.15-12.00 (G5-110).
Indhold: Den lineære normale model, modelkontrol og residualer.
Litteratur: Der er ingen obligatorisk læsning til denne kursusgang, men I kan evt. orientere jer i [PO] 6.8, som omhandler den lineære normale model svarende til lineær regression. Han giver også en kort diskussion af modelkontrol og residualplots.
10. kursusgang
Tid og sted: 5/3-2007, 8.15-12.00 (G5-110).
Indhold: Mere om hypotesetests, opsamling på den første del af kurset - og introduktion til den rigtige overlevelsesanalyse.
Litteratur: [PO] 6.5.3, 6.6. Desuden [DC], kapitel 1.
Opgaver: De gamle opgaver, I ikke har nået.
Ekstramateriale: Søren var syg, så ingen hypotesetest denne gang. Jeg underholdte i stedet med hazard- og likelihoodfunktioner - og vi regnede lidt på, hvordan man kunne estimere for højrecensurerede observationer fra eksponentialfordelingen. Udover kapitel 1 i [DC], gennemgik jeg, hvad der svarer til 5-5.4 i [DC].
11. kursusgang
Tid og sted: 8/3-2007, 8.15-12.00 (G5-110).
Indhold: Estimation af overlevelsesfunktioner og konfidensbånd for overlevelsesfunktionen. Desuden estimation af den kumulerede hazardfunktion.
Litteratur: [DC], 2-2.2 samt afsnit 2.3.3.
Opgaver: Om hazardfunktioner og ML-estimation. Desuden blev I bedt om at regne en overlevelsesfunktion ud for nogle data, som jeg havde fundet.
12. kursusgang
Tid og sted: 12/3-2007, 8.15-12.00 (G5-110).
Indhold: Inferens for fraktiler af overlevelsesfunktion og sammenligning af overlevelsesfunktioner.
Litteratur: [DC], 2.4-2.6, 2.8 samt 2.9.
Opgaver: Opgaver fra sidste gang samt Sørens (håndskrevne) opgaver om konfidensintervaller for odds ratio/risikodifferens, forskelle i overlevelse mellem køn ud fra Kost, Kræft og Helbred samt opgaven at estimere overlevelsesfunktioner for kostgrupper i Kost, Kræft og Helbred.
13. kursusgang
Tid og sted: 15/3-2007, 8.15-12.00 (G5-110).
Indhold: Overlevelsesanalyse i R.
Opgaver: Gamle opgaver.
Ekstramateriale: R-kode fra forelæsningen.
14. kursusgang
Tid og sted: 19/3-2007, 8.15-12.00 (G5-110).
Indhold: Hazardregression, Coxmodellen og Cox's (partielle) likelihood og konfidensintervaller for parametre.
Litteratur: [DC], 3-3.4.
Opgaver: Efter de seneste par R-forelæsninger bør I være i stand til at regne simulationsopgaven om konfidensintervaller for den relative risiko fra 4. kursusgang.
15. kursusgang
Tid og sted: 22/3-2007, 8.15-12.00 (G5-110).
Indhold: Hypotesetest, middelværdistrukturer - og R. Sidste gang enedes vi om, at det vist var nødvendigt, at Søren holdt sit foredrag om hypotesetests, p-værdier og alt det dér. Vi vil kombinere Sørens visdomsord med lidt R.
Litteratur: [DC], 3.5.
Opgaver: Om styrke og beregning af stikprøvestørrelser.
16. kursusgang
Tid og sted: 26/3-2007, 8.15-12.00 (G5-110).
Indhold: Opsamling på statistik og overlevelsesanalyse ved Søren.
Litteratur: Intet nyt litteratur. Brug i stedet forberedelsestiden på at genopfriske `de svære ting' fra tidligere kursusgange - og forberede spørgsmål til hr Lundbye-Christensen, hvis der er uklarheder.
Opgaver: Opgaven fra sidste gang samt gamle opgaver.
17. kursusgang
Tid og sted: 28/3-2007, 8.15-12.00 (G5-110).
Indhold: Fortolkning af parameterestimater, estimation af (kumuleret) hazard ud fra Coxmodellen samt log-rank test ud fra Coxmodellen.
Litteratur: [DC], 3.7-3.9.
18. kursusgang
Tid og sted: 29/3-2007, 8.15-12.00 (G5-110).
Indhold: Modelkontrol for Coxmodellen.
Litteratur: [DC], 4.1, 4.2 samt 4.4.
19. kursusgang
Tid og sted: 2/4-2007, 8.15-12.00 (G5-110).
Indhold: Modelkontrol i R.
Ekstramateriale: R-kode fra forelæsningen.
20. kursusgang
Tid og sted: 4/4-2007, 8.15-12.00 (G5-110).
Indhold: Festlig kursusafslutning.