https://frosthead.com

Megjósolható-e egy számítógépes modell az idei márciusi őrület első fordulóját?

„Óvakodj a márciusi idéktől.” Igen, végre ismét az évszak ideje: amikor az egyetemi kosárlabda császárának figyelni kell a hátát, nehogy csapódjon meg a verseny alsóbb vetőmagja.

Március 15-e előtt a világszerte milliók töltik meg a márciusi őrület zárójelét. 2017-ben az ESPN rekord 18, 8 millió zárójelben részesült.

A tökéletes tartóhoz vezető első lépés az első kör helyes kiválasztása. Sajnos a legtöbbünk nem tudja megjósolni a jövőt. Tavaly a benyújtott zárójelben mindössze 164 volt tökéletes az első fordulóban - kevesebb mint 0, 001 százalék.

18, 8 millió zárójel benyújtva.

A 164. sorozat tökéletes az 1. forduló után.

Itt van a túlteljesítés. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy), 2017. március 18

Sok zárójel zökkenőmentes, amikor egy alacsonyabb vetésű csapat felborítja a kedvelt magasabb magot. Mióta a pálya 1985-ben 64 csapatra bővült, évente átlagosan legalább nyolc felbukkan. Ha meg szeretné nyerni a konzol-medencét, akkor válasszon legalább néhány felbukkanást.

Két matematika vagyunk Ph.D. jelöltjei az Ohio Állami Egyetemen, akiknek szenvedélyük van az adattudomány és a kosárlabda iránt. Ebben az évben úgy döntöttünk, hogy jó lenne egy számítógépes programot létrehozni, amely matematikai megközelítést alkalmaz az első fordulóbeli előrejelzések előrejelzésére. Ha igaza van, akkor a programunkkal kiválasztott konzolnak jobban kell teljesítenie az első fordulóban, mint az átlagos konzolon.

Fallible emberek

Nem könnyű azonosítani az első fordulóban szereplő játékok közül melyik okozza a felzaklatást.

Tegyük fel, hogy el kell döntenie a 10. számú és a 7. számú vetőmag között. A 10. számú vetődés zavarokat okozott az elmúlt három bajnokságban, miután egyszer még a Final Four-re is került. A 7. számú vetőmag egy olyan csapat, amelyre csak kevés vagy egyáltalán nincs országos lefedettség; az alkalmi rajongó valószínűleg még soha nem hallott róla. Melyiket választanád?

Ha 2017-ben a 10. számú vetőmagot választotta volna, akkor a Virginia Commonwealth Egyetemen ment volna át a kaliforniai Saint Mary's-nél - és tévedtél volna. Az újbóli elfogultságnak nevezett döntéshozatali tévedésnek köszönhetően az embereket becsaphatják a legújabb megfigyeléseik felhasználására a döntéshozatalhoz.

A recencia torzítás csak egyfajta torzítás, amely beszivároghat valakinek a válogatási folyamatába, ám sok más is létezik. Lehet, hogy elfogult vagy a saját csapata felé, vagy talán azonosulsz egy játékosokkal, és kétségbeesetten szeretnéd, ha sikerül. Mindez potenciálisan negatív módon befolyásolja a tartót. Még a tapasztalt szakemberek is ebbe a csapdába esnek.

Modellezési zavarok

A gépi tanulás megvédi ezeket a buktatókat.

A gépi tanulás során a statisztikusok, matematikusok és számítógépes tudósok kiképezik a gépet előrejelzések készítéséhez azáltal, hogy hagyják, hogy „tanuljanak” a múltbeli adatokból. Ezt a megközelítést számos különféle területen alkalmazták, beleértve a marketing, az orvostudomány és a sport területén.

A gépi tanulási technikák hasonlíthatók egy fekete dobozhoz. Először az algoritmust adagolja a múltbeli adatokkal, alapvetően a tárcsákat a fekete dobozba állítva. A beállítások kalibrálása után az algoritmus beolvassa az új adatokat, összehasonlítja azokat a múltbeli adatokkal, majd kiszorítja előrejelzéseit.

Fekete doboz nézet a gépi tanulási algoritmusokról. Fekete doboz nézet a gépi tanulási algoritmusokról. (Matthew Osborne, CC BY-SA CC)

A gépi tanulás során különféle fekete dobozok érhetők el. Március Madness projektünkben a kívánt programokat osztályozási algoritmusoknak nevezzük. Ezek segítenek bennünket annak meghatározásában, hogy egy játékot idegesnek kell-e minősíteni, akár azért, hogy megadják a zavar valószínűségét, akár egy játék egyértelmű besorolását.

Programunk számos népszerű osztályozási algoritmust használ, beleértve a logisztikai regressziót, a véletlenszerű erdőmodelleket és a k-legközelebbi szomszédokat. Minden módszer olyan, mint ugyanazon gép különféle „márkája”; ugyanúgy eltérően működnek a motorháztető alatt, mint a Fords és a Toyotas, de ugyanazt az osztályozási munkát végzik. Minden algoritmusnak vagy doboznak megvannak a saját előrejelzései a felfordulás valószínűségére.

A 2001 és 2017 közötti első fordulóban részt vevő csapatok statisztikáit felhasználva állítottuk be a számjegyeket a fekete dobozunkra. Amikor az egyik algoritmusunkat a 2017. évi első fordulóban szereplő adatokkal teszteltük, annak 75% -os sikerességi aránya volt. Ez bizalmat ad nekünk, hogy a múltbeli adatok elemzése ahelyett, hogy bízunk a bélben, pontosabb előrejelzéseket eredményezhet a felfordulásokról, és így jobb általános zárójeleket eredményezhet.

Milyen előnyei vannak ezeknek a dobozoknak az emberi intuícióval szemben? Egyrészt a gépek másodpercek alatt azonosíthatják a mintákat az összes 2001–2017-es adatban. Sőt, mivel a gépek csak az adatokra támaszkodnak, valószínűleg kisebb eséllyel esnek emberi pszichológiai torzulások alá.

Ez nem azt jelenti, hogy a gépi tanulás tökéletes zárójelben fog szerepelni. Annak ellenére, hogy a doboz megkerüli az emberi elfogultságot, nem ellenálló a hibáktól. Az eredmények a múltbeli adatoktól függnek. Például, ha az első számú vetőmag elveszíti az első fordulóban, akkor modellünk nem valószínűleg megjósolja azt, mert még soha nem történt meg.

Ezenkívül a gépi tanulási algoritmusok a legjobban működnek több ezer vagy akár millió példával. 2001 óta csak 544 március első fordulóbeli Madness játékot játszottak, tehát algoritmusaink nem hívják fel minden idegesítőt. Jalen Rose visszhangzó kosárlabda-szakértő, outputunkat eszközként kell használni a szakértői ismereteivel együtt - és szerencsét! - a megfelelő játékok kiválasztása.

Gépi tanulás őrület?

Mi nem az elsők, akik gépi tanulást alkalmaztak a March Madness-en, és nem leszünk az utolsóak. Valójában hamarosan szükségesek lehetnek gépi tanulási technikák a tartó versenyképességének fokozására.

A gépi tanuláshoz nincs szükség matematikai diplomára - bár ez segít nekünk. Hamarosan a gépi tanulás sokkal hozzáférhetőbb lehet, mint valaha. Az érdeklődők online pillantást vehetnek modelleinkre. Nyugodtan fedezze fel algoritmusainkat, sőt még jobb megoldást nyújthat magának.


Ezt a cikket eredetileg a The Conversation kiadta. A beszélgetés

Matthew Osborne, a matematika Ph.D jelöltje, az Ohio Állami Egyetem

Kevin Nowland, matematika doktori jelölt, az Ohio Állami Egyetem

Megjósolható-e egy számítógépes modell az idei márciusi őrület első fordulóját?