https://frosthead.com

Hogyan forradalmasíthatja a mesterséges intelligencia az Archívum Múzeum kutatását?

Amikor a mesterséges intelligenciára gondolsz, a botanika területe valószínűleg nem a legfontosabb a fejedben. Ha a legmodernebb számítástechnikai kutatásokra állít be képet, akkor előfordulhat, hogy az évszázados múzeumok nem szerepelnek a listán. És mégis, a Biodiversity Data Journal nemrégiben közzétett cikke megmutatja, hogy a gépi tanulás egyik legizgalmasabb és legrövidebb innovációja a Washington DC-ben, a Nemzeti Természettudományi Múzeum Nemzeti Herbáriumán zajlik.

A cikk, amely bemutatja, hogy a digitális ideghálózatok képesek megkülönböztetni a két hasonló növénycsaládot, több mint 90% -os pontossággal, mindenféle szájfogyasztási lehetőséget kínál a tudósok és az akadémikusok számára. A tanulmány a „mélyreható tanulás” algoritmusain alapuló szoftverekre támaszkodik, amelyek lehetővé teszik a számítógépes programok számára, hogy tapasztalataikat ugyanúgy gyűjtsék, mint az emberi szakértők, és minden egyes futásukkor meghosszabbítják a játékot. Hamarosan ez a technika lehetővé tenné a világ minden sarkából származó különféle példányok millióinak összehasonlító elemzését - egy olyan állítás, amely korábban tarthatatlan mennyiségű emberi erőfeszítést igényelt volna.

"Ez a kutatási irány sok ígéretet mutat" - mondja Mark Algee-Hewitt Stanford professzor, a digitális humanitárius mozgalom kiemelkedő hangszere és az egyetem Térbeli és Szöveges Elemzési Központjának kari igazgatóhelyettese. "Ezeknek a módszereknek az a képessége, hogy hatalmas mennyiségű információt szolgáltassanak nekünk arról, hogy mit tartalmaznak a gyűjtemények" - mondja és "ezt tesszük hozzáférhetővé."

Ezek az új megállapítások a Smithsonian Intézetnél végzett éves munkájukon alapulnak, hogy gyűjteményeit szisztematikusan digitalizálják az egyetemi és a nyilvános online elérhetőség érdekében, és figyelemreméltó interdiszciplináris szemléletmódot képviselnek: a botanikusok, a digitalizálási szakértők és az adattudósok mind részt vettek ezek előállításában. eredmények világossá válnak.

A történet 2015 októberében kezdődik, amikor egy kamera- és szállítószalag-berendezés telepítése a Természettudományi Múzeum alá jelentősen leegyszerűsítette a Smithsonian botanikus gyűjteményének digitalizálására tett erőfeszítéseket. Ahelyett, hogy manuálisan le kellene szkennelni a lerakatban levő összes préselt virágot és füvet, a dolgozók sorba állíthatják a minták egész sorát, hagyhatják, hogy az öv mágia működjön, és a farok végén kinyomtassák és újra katalógusba állítsák őket. Három személyes legénység debütálása óta felügyelte az övet, és évente mintegy 750 000 példányon megy keresztül. Röviddel ezelőtt a Smithsonian herbárium-leltárának, ötmillió példányának nagysága teljesen online lesz.

Minden mintát egy alapos azonosító kártyával jelölnek, amely információt nyújt annak eredetéről, valamint alapvető statisztikai adatokat. E kártyák tartalmát átírták és feltöltötték a digitális képekkel együtt, átfogó képet nyújtva a gyűjtemény minden eleméről azok számára, akik hajlandók keresni.

A Smithsonian digitalizált botanikai archívumában a példányok nagy felbontású képei párosulnak a hozzájuk rögzített praktikus azonosító címkék átirataival. A Smithsonian digitalizált botanikai archívumában a példányok nagy felbontású képei párosulnak a hozzájuk rögzített praktikus azonosító címkék átirataival. (Nemzeti Természettudományi Múzeum)

"Ez a gyűjteményünket bárki számára elérhetővé teszi, aki számítógéppel és internet-kapcsolattal rendelkezik" - mondja Laurence Dorr múzeumi botanikai szék -, amely nagyszerű választ ad bizonyos kérdések megválaszolására. "Dorr mégis úgy találta, hogy nem képes megrázni a kiaknázatlan potenciál érzetét. . Bizonyos, hatalmas mennyiségű példányadat volt már elérhető az online közösség számára, de az összesített elemzése továbbra is képzeletbeli. Bizonyos példányok és kis példánykategóriák felkutatása elég könnyű volt, de Dorr azon töprengett, vajon létezik-e módszer az adatok kihasználására, hogy következtetéseket vonj le ezer példányra vonatkozóan. - Mit tehetsz ezekkel az adatokkal? - emlékszik vissza csodálkozva. Az Adam Metallo nevű férfi hamarosan meggyőző választ adott.

Metallo, a Smithsonian Digitalizációs Program Irodájának tisztje részt vett egy konferencián, amelyen az NVIDIA technológiai óriás - a PC-játékosok drágája mindenütt - bemutatta a következő generációs grafikus feldolgozó egységeket vagy GPU-kat. Metallo ott kereste a Smithsonian 3D digitális megjelenítési képességeinek javításának lehetőségeit, ám ez egy nagymértékben független információs rögtönzött, amely felhívta a figyelmét és ragadt vele. A dinamikus, nagy hűségű 3D-s látványtermelésen túlmenően az NVIDIA GPU-k jól alkalmazkodtak a nagy adatok elemzéséhez. Különösen a gyorsított GPU-k voltak az intenzív digitális mintázatfelismeréshez szükségesek; sok gépi tanulási algoritmust optimalizáltak az NVIDIA platformon.

Metallo azonnal felvetette érdeklődését. Ez a „mély tanulás” technológia, amelyet már alkalmaztak olyan niche-ágazatokban, mint például az önjáró autófejlesztés és az orvosi radiológia, nagy potenciállal bírt a múzeumok világában - ami, amint arra a Metallo rámutat, „a legnagyobb és legrégebbi adatkészlet, amelyhez most hozzáférhetünk nak nek."

„Mit jelent a nagy adatkészletek, amelyeket a Smithsoniannél digitalizálás útján készítünk?” Metallo tudni akart. Kérdése tökéletesen tükrözi Laurence Dorr kérdését, és miután a kettő összekapcsolódott, szikrák kezdtek repülni. „A botanikai gyűjtemény volt az egyik legnagyobb gyűjtemény, amelyen a közelmúltban dolgoztunk” - emlékszik vissza Metallo. Egy együttműködés javasolta magát.

Míg a gépi tanulás sok formája megköveteli, hogy a kutatók jelöljék meg az elemzendő képeken a kulcsfontosságú matematikai markereket - ez egy olyan óvatos folyamat, amely a számítógép kezének tartását jelenti -, a mai mélyreható tanulási algoritmusok megtaníthatják maguknak, hogy mely markereket kell a munka során megtakarítani idő, és kinyitja az ajtót a nagyobb mértékű vizsgálatokhoz. Mindazonáltal a Smithsonian-féle mélyreható tanulási program elkészítése és diszkrét botanikai kutatási kérdésekre való kalibrálása trükkös üzlet - Dorr és Metallo az adattudósok segítségére szorult, hogy látásuk valósággá váljon.

Az adattudósok az ideghálózat számára képzési mintákat állítanak össze, amire Paul Frandsen emlékszik Az adattudósok az idegi hálózat számára képzési mintákat állítanak össze, miközben Paul Frandsen "hideg januári napnak" emlékszik. (Nemzeti Természettudományi Múzeum)

Az egyik szakemberek, akiket fedélzetre szállítottak, Smithsonian kutatási adattudós, Paul Frandsen volt, aki azonnal felismerte az NVIDIA GPU-meghajtású ideghálózat létrehozásának potenciálját, amely hatással lehet a botanikai gyűjteményre. Frandsen számára ez a projekt egy kulcsfontosságú első lépést jelképez egy csodálatos és felfedezetlen úton. Hamarosan azt mondja: „globális szinten elkezdenénk keresni a morfológiai mintákat, és képesek leszünk megválaszolni ezeket az igazán nagy kérdéseket, amelyek hagyományosan több ezer vagy millió ember órát igényelnének az irodalom és az irodalom áttekintésével. osztályozni a dolgokat. Algoritmusokat fogunk használni, hogy segítsenek megtalálni ezeket a mintákat és megismerjék a világot. ”

A nemrég közzétett eredmények szemléltetik a koncepciót. Kilenc csoport által generált, Eric Schuettpelz kutató botanikus, Paul Frandsen és Rebecca Dikow adattudós által vezetett tanulmány célja két nagyszabású kérdés megválaszolása a gépi tanulással és a herbáriummal kapcsolatban. Az első az, hogy egy kiképzett idegháló hatékonyan képes a higanyval festett minták elválogatásáig válogatni. A második, a dolgozat kiemelt témája az, hogy egy ilyen hálózat mennyire hatékony két felületesen hasonló növénycsalád - nevezetesen a páfrányi Lycopodiaceae és a Selaginellaceae - család tagjainak megkülönböztetésére.

Az első vizsgálat megkövetelte, hogy a csapat előre menjen át több ezer példányon, és egyértelműen megjegyezte, hogy melyik láthatóan szennyeződött higanyval (elavult botanikai megőrzési technikák maradványa). Biztosak voltak abban, hogy 100 százalékos bizonyossággal tudják, melyeket festették és melyek nem - különben a program pontosságának értékelése nem lenne lehetséges. A csapat közel 8000 képet készített tiszta mintákból és további 8000 festett mintát, amelyekkel a számítógép edzhet és tesztelhető. Mire befejezték a neurális hálózati paraméterek finomítását és visszavontak minden emberi segítséget, az algoritmus 90% -os pontossággal osztályozta azokat a mintákat, amelyeket még soha nem látott. Ha a leginkább félreérthető példányokat - például azokat, amelyekben a festés minimális volt és / vagy nagyon halvány - dobták ki, ez az arány 94 százalékra nőtt.

Ez az eredmény azt sugallja, hogy a mély tanulási szoftver hamarosan segíthet a botanikusoknak és más tudósoknak elkerülni az idő pazarlását az unalmas válogatási feladatokra. "A probléma nem az, hogy az ember nem tudja meghatározni, hogy a példány higanyval festett-e vagy sem." - magyarázza Metallo, inkább az, hogy "nehéz manuálisan szétválogatni és kitalálni, ahol a szennyeződés fennáll", és nem ésszerű időkezelési szempontból tegye meg. Szerencsére a gépi tanulás a legfontosabb idő elnyomását legfeljebb néhány napos gyors automatizált elemzésré teheti.

A minták egyenkénti berakása sok energiát igényel, és megnehezíti a nagyszabású következtetések levonását. A nagy adatanalitika új módokat kínál a múzeumoknak a gyűjtemények megközelítéséhez. A minták egyenkénti berakása sok energiát igényel, és megnehezíti a nagyszabású következtetések levonását. A nagy adatanalitika új módokat kínál a múzeumoknak a gyűjtemények megközelítéséhez. (Arnold Arborétum)

A tanulmány fajokkal szembeni megkülönböztetés része még izgalmasabb. A kutatók az ideghálózatot megközelítőleg 9300 klubmosz és 9 100 spikemoss mintával kiképezték és tesztelték. A festési kísérlethez hasonlóan ezen minták kb. 70% -át használták fel a kezdeti kalibráláshoz, 20% -ot finomításhoz, a végső 10% -ot pedig a pontosság hivatalos értékeléséhez. Miután a kódot optimalizálták, a számítógép sikerességi rátája a két család közötti megkülönböztetésnél 96% volt - és a legbonyolultabb minták elhagyásakor majdnem tökéletes 99%.

Egy nap, Frandsen spekulál, az ilyen programok kezelhetik az előzetes mintavételi kategóriákat a világ múzeumain. „Semmi esetre sem gondolom, hogy ezek az algoritmusok semmit sem cserélnek a kurátorok cseréjére” - gyors megjegyzés. - Ehelyett úgy gondolom, hogy elősegítik a kurátorok és a szisztematikában részt vevő emberek termelékenységét, így sokat tehetnek a munkájukkal. gyorsabban."

A neurális hálózat sikere ebben a tanulmányban előkészíti az utat a tudományos hipotézisek gyors tesztelésére is a hatalmas gyűjtemények között. Dorr a csoport eredményeiben látja a digitalizált minták kiterjedt morfológiai összehasonlításának lehetőségét - ezek az összehasonlítások jelentős tudományos áttöréseket eredményezhetnek.

Ez nem azt jelenti, hogy a mély tanulás ezüst golyó lesz a kutatásban. A Stanfordi Mark Algee-Hewitt rámutat arra, hogy „szinte lehetetlen rekonstruálni, hogy miért és hogyan hoz döntést egy idegi hálózat”, miután kondicionálták; a számítógépes programok számára hagyott meghatározásoknak mindig bonyolultnak és ellenőrizhetőnek kell lenniük ahhoz, hogy megbízhatóvá váljanak.

„Nyilvánvalóan” - mondja Dorr, az autonóm számítógépes program „nem fog genetikai kapcsolatokat tesztelni, mint ilyesmit” - legalábbis a közeljövőben. „De megkezdhetjük a jellemzők földrajzi vagy taxonómiai egységek szerinti megoszlását. És ez nagyon erős lesz. "

Sokkal több, ez a kutatás egy ugrópont. Most már nyilvánvaló, hogy a mély tanulási technológia nagy ígérettel bír a tudósok és más tudósok számára az egész világon, valamint azon kíváncsi közönség számára, akiknek tudását állítják elő. A szigorú nyomon követési munka marad.

"Ez egy kis lépés - mondja Frandsen -, de ez egy lépés, amely valóban azt mondja nekünk, hogy ezek a technikák működhetnek a digitalizált múzeumi példányokon. Izgatottan örülünk, hogy a következő néhány hónapban még több projektet indítunk, hogy kicsit tovább próbáljuk kipróbálni a határait. ”

Hogyan forradalmasíthatja a mesterséges intelligencia az Archívum Múzeum kutatását?