https://frosthead.com

Meg tudja-e számolni egy statisztikai modell pontosan az olimpiai érmek számát?

Ha valaki megkérdezi, hogy előre jelezze az egyes országok által elnyert érmek számát az idei olimpián, akkor valószínűleg megpróbálná azonosítani az egyes eseményeken kedvelt sportolókat, akkor az egyes országok várhatóan összesen nyernének eredményt.

Tim és Dan Graettinger, a Discovery Corps, Inc. adatbányászati ​​társaság mögött álló testvérek meglehetősen eltérő megközelítést alkalmaznak. Teljes mértékben figyelmen kívül hagyják a sportolókat.

Ehelyett a szocsi játékokkal kapcsolatos modelljük az egyes országok földrajzi területét, az egy főre jutó GDP-t, az export teljes értékét és a szélességi fokot veszi figyelembe annak meghatározása érdekében, hogy az egyes országok hány érmet nyernek. Abban az esetben, ha kíváncsi, az előrejelzése szerint az USA kijön a tetején, összesen 29 érmével.

A Graettingers nem az első, aki ilyen típusú, adatközpontú, felülről lefelé építkező megközelítést alkalmaz az érmek számának előrejelzésére. Daniel Johnson, a Colorado Főiskola közgazdaságtan professzora hasonló modelleket készített az öt olimpiai játékra 2000 és 2008 között - 94% -os pontosságot ért el az országos érmek számának előrejelzésében, de nem hozott létre modellt Szocsi számára.

Dan és Tim újabb a játékban. Dan - aki tipikusan szokásosabb adatbányászati ​​projekteken dolgozik, például előre jelez egy vállalat potenciális ügyfeleit - először négy évvel ezelőtt, a Vancouveri téli olimpián érdeklődött a modellek iránt, hogy előre jelezzék a versenyeket. "A múlt adatait mindig a jövő előrejelzésére használom" - mondja. "Minden este a TV-ben megmutatták az érmek számát, és arra gondoltam, vajon tudjuk-e megjósolni."

Annak ellenére, hogy az egyes sportolók teljesítménye kiszámíthatatlanul változhat, indokolta, lehet, hogy általános kapcsolat van egy ország alapvető jellemzői (például az ország mérete, éghajlata és gazdagsága) és az érmek száma között, amelyeket valószínűleg hazavisz. Ez a fajta megközelítés nem képes megmondani, hogy melyik versenyző nyerhet egy adott eseményen, de ha elegendő adat áll rendelkezésre, akkor pontosan meg tudja mondani az egyes országok összesített érmeszámát.

Kezdetben ő és bátyja elkezdte a 2012-es londoni játékok előzetes modelljének kidolgozását. Először különféle típusú adatkészleteket gyűjtöttek, az ország földrajzától kezdve a történelemig, a vallásig, a gazdagságig és a politikai felépítésig. Ezután regressziós analízist és más adatcsopogási módszereket alkalmaztak annak megállapítására, hogy mely változók álltak a legszorosabban kapcsolatban az olimpiai érmek történelmi adataival.

Megállapították, hogy a nyári játékok esetében egy olyan modell, amelybe beépítették az ország bruttó hazai termékét, lakosságát, szélességét és az általános gazdasági szabadságot (az Örökség Alapítvány indexével mérve), a legjobban korreláltak az egyes országok előző két nyári olimpián (2004 és 2008). De akkor az előzetes modell csak azt tudta megjósolni, hogy mely országok nyernek két vagy több érmet, nem pedig az országonkénti érmek számát.

Úgy döntöttek, hogy javítják a szocsi játékok számára, de nem támaszkodhattak korábbi modelljükre, mert a télen sikeres országok annyira különböznek a nyártól. Új szocsi-modelljük két lépésből áll az érmek számának előrejelzésének problémájával. Mivel az országok kb. 90% -a soha nem nyert egyetlen téli olimpián kitüntetett érmet (soha nem nyert egyetlen közel-keleti, dél-amerikai, afrikai vagy karibi atléta), először elválasztja a tíz százalékot, amelyek valószínűleg legalább egy nyernek, majd megjósolja, hogy hány mindegyik nyeri.

"Egyes trendek nagyjából megvárják, amit elvárnánk - mivel egy ország lakossága növekszik, annál valószínűbb, hogy érmet nyer" - mondja Tim. "Végül azonban szükség van egy erősebb statisztikai gépen, amely sok változót átsűríthet, és besorolhatja őket a leginkább prediktív szempontból."

Végül néhány olyan változóra jutottak, amelyek pontosan elválasztják a nem éremnyertes országok kilencven százalékát a valószínűleg nyerő tíz százaléktól: ezek között szerepelt a bevándorlási arány, az egy főre jutó orvosok száma, a szélesség, a bruttó hazai termék és az, hogy az ország nyert érmet az előző nyári játékokon (soha egyetlen ország sem nyert téli érmet anélkül, hogy az előző nyáron is nyert volna, részben azért, mert a nyári nyertesek száma sokkal nagyobb, mint a téli). A modell futtatásával az elmúlt két téli olimpián ez a modell meghatározta, hogy mely nemzetek 96, 5 százalékos pontossággal vitték át az érmet.

Az országok 90 százalékának kizárásával a Graettingers hasonló regressziós elemzéseket használt egy olyan modell létrehozására, amely visszamenőleges hatállyal megjósolta, hogy az egyes megmaradó országok hány érmet nyernek. Elemzésük szerint egy kissé eltérő változók listája illeszkedik a legjobban a történeti érem adatokhoz. Ezek a változók és a szocsi játékok előrejelzései az alábbiakban találhatók:

4. kép - Jósolt érem 2. táblázat - border.png A modell előrejelzései a szocsi játékokhoz (Graph courtesy Discovery Corps, Inc.)

Néhány olyan korrekciós tényező, amely kiderült, nem hatalmas sokk - érthető, hogy a nagyobb szélességi fokú országok jobban teljesítenek a téli játékok során játszott eseményeknél, ám mások meglepőbbek voltak.

"Úgy gondoltuk, hogy fontos a lakosság, nem pedig a földterület, " mondja Dan. Bizonytalanok abban, hogy a földrajzi terület miért illeti jobban a történeti adatokat, de lehet, hogy néhány magas népességű ország, amely nem nyeri a téli érmet (például India és Brazília), eldobja az adatokat. A földterület helyett a modell kiküszöböli ezeknek az országoknak a túlzott befolyását, de továbbra is durva kapcsolatot tart fenn a népességgel, mivel összességében a nagyobb területű országok lakossága nagyobb.

Természetesen a modell nem tökéletes, még a történeti adatokkal sem. "Megközelítésünk a 30 000 láb hosszúságú megközelítés. Vannak olyan változók, amelyeket nem tudunk figyelembe venni" - mondja Tim. Néhány ország többször is felülmúlta a modell előrejelzéseit (köztük Dél-Korea, amely aránytalanul sok rövidtávú gyorskorcsolya-eseményt nyer), míg mások következetesen alulteljesítik (például az Egyesült Királyság, amely sokkal jobban teljesít a várható nyári rendezvényeken, talán azért, mert - szélessége ellenére - sokkal több eső lesz, mint hó).

Emellett a modell előrejelzései során következetes kivétel, hogy a fogadó ország több érmet táskáz, mint amennyire egyébként lenne, egyszerűen az adatok alapján. Mind Olaszország (a 2006-os torinói játékok során), mind Kanada (a 2010-es Vancouver-játékok során) felülmúlta a modellt, Kanada pedig minden idők rekordját 14 arany nyerésével állította elő.

Ugyanakkor statisztikailag szigorú megközelítésük alapján a Graettingers-ek meg vannak győződve arról, hogy modelljük általánosságban viszonylag nagy pontossággal előrejelzik a végleges érmek számát.

Hogyan hasonlítják előrejelzéseik a hagyományosabb stratégiákat alkalmazó szakemberek előrejelzéseihez? A szakértők nem különböznek drasztikusan, de van néhány hagyományosan sikeres ország (Norvégia, Kanada, Oroszország), akik nagyobb számú érmet nyernek, valamint néhány másik országgal (Kína, Hollandia, Ausztrália), amelyek mindegyike kevesebbet nyer.

A Graettingers eddig nem tett licitet előrejelzéseire, de azt tervezik, hogy összehasonlítják modelleik teljesítményét a fogadási esélyekkel közvetlenül a játékok kezdete előtt. Ha észlelnek olyan eltéréseket, amelyeket ki szeretnének használni, akkor a pénzük odahelyezéséhez vezethetnek.

Meg tudja-e számolni egy statisztikai modell pontosan az olimpiai érmek számát?