Hvor viktig var første serierunde?

Tre serierunder på etterskudd kommer bloggopddateringen som ble lovet etter første runde. I bloggposten fra 16 mars predikerte vi hvordan serietabellen ville se ut etter fem runder. Kort oppsummert brukte vi Tippeliga-historikk fra 2009 til å sette opp en modell som predikerte tabellen etter runde 5 basert på resultatet i runde 1. Videre rangerte vi lag basert på hvor bra lagene hadde gjort det i treningskampene i 2016.

Dersom vi ser på modellprediksjonen uten lagnavn, kun tabellplassering etter fem runder gitt antall poeng i første runde, ser vi at modellen ikke gjør det så aller værst. Tendensen er klart at dersom du fikk 3 poeng i første runde havner du høyere enn om du fikk 0 eller 1 poeng.

picture01

Vi ser at vi klarte 6 av 16 riktige. Rosenborg ødelegger stort med tap i første, men førsteplass etter fem runder. Også resultatene nedover på tabellen er relativt gode.

Verdien av denne prediksjonen er ikke særlig høy, da vi ikke vet hvilke lag som havner hvor, men (f.eks.) kun hvilke plasser som får lag som tok 3, 1 eller 0 poeng i første runde.

Ser vi derimot på prediksjonen vår med lagnavn hvor vi også tok hensyn til treningskamphistorikk i 2016, blir ikke modellen like imponerende. Modellen klarte ikke predikere en eneste plassering korrekt. Det nærmeste vi kom var Tromsø som vi tippet på 9’ende plass, men som endte på 11.

Picture2

Kan vi konkludere med at resultat fra første runde har betydning for plassering etter 5 runder, men at resultat fra treningskampene ikke har mye å si?

La oss se nærmere på andre «modeller».
Dersom vi kan finne en måte å måle modellfeilen, kan vi videre forsøke å sammenligne vår modell med andre modeller. Vi har valgt å definere feil som summen av den absolutte forskjellen mellom predikerte og faktiske verdier for alle 16 lag. Da vil vår supermodell oppnå en feil på 92. Andre måter å måle på kan være å si at det er i gjennomsnitt 5.75 plasser feil per lag, eller at medianfeilen er 5.5 plasseringer.

Deretter er det interessant å se hvordan andre «modeller» vil gjøre det i konkurranse med vår modell. Først gjør vi 10 000 tilfeldige simuleringer av tabellen. Da får vi en gjennomsnittlig feil på 85, minimum feil på 28 og maksimum på 128. Ved en tilfeldig trekking av tabell vil vi ved 6530 av 10000 ganger få bedre resultat enn vår supermodell. Eller sagt på en annen måte vil det i 65.3 % av de tilfeldige trekkene være bedre å velge trekke tilfeldig enn å velge modellen vår.

picture3

Vi har så sett på fire ulike modeller. Alfabetmodellen, befolkningsmodellen, maratonmodellen og lengdegradsmodellen.
– Alfabetmodellen sier at resultatet etter fem runder vil være lik en alfabetisk sortert liste over lagene. Det vil si at Bodø/Glimt ligger øverst og Ålesund nederst (med norsk alfabet i hvert fall).
– Befolkningsmodellen vil sette laget fra byen med høyest innbyggertall øverst og byen/tettstedet med færrest innbyggere neders.
– Maratonmodellen plassere laget med flest poeng i øverste ligå siden 1949 øverst
– Lengdegradsmodellen vil plassere laget som er geografisk lengst mot nord øverst

Resultatene fra disse fire modellene er gitt i tabellen under:

picture4

picture5

Disse modellene gjør det relativt bra, med alfabetmodellen som vinneren (det må sies at alfabetmodellen gjør det klart bedre på norsk enn på engelsk, ettersom Ålesund/Aalesund ligger nest sist på den faktiske tabellen). Mens vår modell ser på kortsiktig historikk, ser maratonmodellen på langsikig historikk. Vi ser at i dette tilfellet ville det vært bedre å se på langsiktig historikk enn resultat fra treningskamper og første runde.

Konklusjonen er vel at tipping av fotballtabeller er særdeles vanskelig. F.eks. er det 16! antall mulige varianter av tabellen (eller 2.09 e+19 sagt på en mer forståelig måte), noe som gjør det relativt vanskelig å treffe «spot on» selv om innsikt og historikk om de ulike lagene vil kunne hjelpe oss litt på vei. Selv med 10 000 tilfeldige trekk, klarte vi ikke å få færre enn 28 tabellplasseringsfeil.