https://frosthead.com

A szoftver létrehoz egy képet, amely mindent elmond

A felhasználók minden nap több mint 350 millió képet töltnek fel a Facebook-ba. A képek beáramlása nyomán az elemzők úgy becsülik, hogy a világ 3, 5 trillió fotójának 10 százaléka készült az elmúlt évben. Az összes, az internetet elárasztó adat azt jelenti, hogy ha egy adott képet vagy objektumot keres - például hogy néz ki egy narancssárga cirmos macska -, akkor pozitívan elárasztják a keresési eredményeket.

A múlt hónapban a kaliforniai Berkeley-i Egyetem kutatói új szoftvert, a AverageExplorer-t mutattak be, amely lehetővé teszi a felhasználók számára, hogy az „átlagos” képet láthassák, amit keresnek. Ezer szó helyett egy kép helyett ezer vagy annál több képet ér.

„Amikor beírja a Google képalkotót, oldalakat és képeket szitál át, ” - magyarázza Jun-Yan Zhu, az UC Berkeley végzős hallgató és a cikk vezető szerzője, amelyet az idei számítógépes grafika konferencián és kiállításon mutattak be. és interaktív technikák Vancouverben. „Nagyon nehéz és nehéz összefoglalni; nem lehet megérteni, mi történik. "

Kezdeti ajánlatához Zhu és csapata fényképeket gyűjtött a Flickr, a Google és a Bing képkeresések segítségével. A szoftver elég alacsony fogyasztású ahhoz, hogy egy átlagos asztalon futhasson, és kb. 10 000 képet egyidejűleg összenyomhat.

A felhasználók néhány különböző módon finomítják kereséseiket. Átvázolhatnak és színezhetnek egy alakot, hasonlóan az Adobe Photoshop vagy az Illustrator rajzához, hogy az átlagos képet eredményezhessék. Például, ha az Eiffel-torony egy átlagos képének háttérét színezi, akkor az automatikus képet választja ki, és csak az éjszakai felvételeket készíti. Vagy húzhat szögletes vonalakat a pillangó tájolásának irányításához az összetett anyagban.

Sóhajok hídja, napról napra A Sóhajok hídjának azEuropeExplorer képének színeinek finomításával a jelenetet napról szürkületre éjszakára változtathatja. (UC Berkeley jóvoltából)

Miután elkészült egy átlagos kép, amely akár egy percet is igénybe vehet, a felhasználók tovább finomíthatják az eredményt azzal a módszerrel, amelyet a csapat az Explorer üzemmódnak hív. Ebben a módban a kép egy bizonyos részére - például egy macska orrára - kattintva felfedezhetők az adott hely más általános lehetőségei vagy finomításai - lehet, hogy kék vagy fekete orr, vagy szög helyett kerekített. Például egy demonstrációs videóban a csapat finomította egy képet a Mikulás ölében lévő gyermekekről úgy, hogy csak azokat a képeket választotta, ahol a Mikulásnak mindkét karján egy gyermek volt.

Ahol a rendszer különösen nagy teljesítményűvé válik - mondja Zhu - számítógépes látás algoritmusok képzésére szolgáló eszköz, például a Google Goggles vagy az Amazon Firefly alkalmazások által alkalmazott alkalmazások számára, amelyek meghatározzák, hogy egy kamera miként mutat. „A számítógépes látás területén az emberek sok pénzt költenek tárgyak kommentálására” - magyarázza. „Most már alkalmazhatja a kommentárt az átlagos képhez. Az ötlet az, hogy csak egy képen kell dolgoznia, hogy az összes képet el lehessen terjeszteni egy adatkészletben. ”

Macskafajták keresése A keresési eredmény módjainak finomításával a kutatók meghatározott macskafajtákat találnak, beleértve (balról jobbra) a Ragdollot, a Sziámiát, a Maine Coonot és a Szfinxit. (UC Berkeley jóvoltából)

A grafika készítése az alacsonyan lógó gyümölcs az átlagosExplorer számára. A csapat inspirálta az új média művészeit, például Jason Salavont, aki lelkesedéssel készített átlagolt fényképeket kézzel. Használható egy Facebook plug-in létrehozására is, amely lehetővé teszi a felhasználók számára, hogy megvitassák az átlagos képet magukról.

A kutatók törekvései még szélesebb körűek és hatásosak. A szociológusok felhasználhatják a rendszert a társadalmi trendek feltárására és felkutatására; például egy átlagolt kép bizonyíthatja, hogy a menyasszonyok általában a vőlegény jobb oldalán állnak az esküvői portrék során. A AverageExplorer hasznos eszköz lehet a média elemzők számára is, akik megpróbálják elválasztani a televíziós közvetítést - megváltozik-e Stephen Colbert testtartása, amikor George W. Bushról vagy Barack Obamaról beszél?

Azáltal, hogy lehetővé teszi a felhasználók számára, hogy intuitív módon lépjenek kapcsolatba a vizuális adatokkal, ahelyett, hogy a megfelelő kulcsszavak beírására törekednének, a felhasználók áthidalhatják azt, amit Zhu tanácsadója és az AverageExplorer társalkotója, Aleksei Efros „nyelvi szűk keresztmetszetnek” hív.

A csapat elképzel egy egyedi eszközcsomagot, amelyet specifikus, nehezen megfogalmazható feladatokhoz terveztek. Például egy bevásárló alkalmazás lehetővé tenné a felhasználó számára, hogy a pókhálót egy pár sarokhoz hozzon létre az általa követett szín, sarok alakja és magassága alapján. Zhu egy olyan eszközt tervez, amely integrálódik a rendőrség vázlatművészeinek munkafolyamatához, lehetővé téve a tanúk számára, hogy az arcbázisokból az arca adatbázisában keresse meg az elkövető tulajdonságait, és összetett portrét készítsen.

Az AverageExplorer alap verziója ősszel jelenik meg.

A szoftver létrehoz egy képet, amely mindent elmond