A Facebook algoritmusai ki tudják választani az arcod a tömegből (vagy legalább megpróbálhatnak), de ez még mindig nem tudja megmondani, hogy családi portréban pózol, vagy iszik barátaival - nem tudja megmondani, hogy miként interakciózik másokkal . A jövőben azonban a számítógépek csak ezt tudják megtenni. A kutatók most egy módszert javasoltak arra, hogy kitalálják, hogy az intelligens számítógépek milyen vizuálisan azonosíthatók. A tesztüket vizuális Turing-tesztnek nevezik, miután Alan Turing számítógépes tudós megvizsgálta, hogy egy számítógép képes-e megjeleníteni az emberhez hasonló intelligenciát.
A teszt népszerű felfogása az, hogy azt az emberek megkülönböztetésére használják a számítógépektől - és ennek egyik verzióját használják, amikor CAPTCHA segítségével új e-mailt regisztrálnak. A mesterséges intelligencia kutatói azonban a tesztet valóban úgy gondolják, mint annak módját, hogy meghatározzák, mennyire fejlett a számítógépes intelligencia eddig.
„Az elmúlt években néhány látványos előrelépés történt a számítógépes látás területén” - mondja Stuart Geman, a Brown University matematikai professzora és az új értékelést javasló kutatók egy sajtóközleményében. "Úgy éreztük, hogy itt az ideje, hogy emeltük a sávot e rendszerek kiértékelésének és benchmarkingjának szempontjából."
Ahelyett, hogy egyszerűen felismernék, hogy egy képen két ember látható, a teszt megvizsgálja, vajon a számítógépek kitalálják-e, hogy a két ember beszélget, vagy akár érvel. Jelenleg a kutatók nyilvánosan elérhető adatkészleteket használnak programjaik tesztelésére - az MIT rendelkezik a LableMe-vel, amely tömegforrás felhasználásával azonosítja például az "autó", "fa" és "épület" képeket. Ennek javítása és a nagyobb kihívás felkutatása érdekében a Brown székhelyű kutatók kidolgozták a szabványosított vizuális Turing-teszt keretét.
Lee Gomes az IEEE Spectrum jelentésekhez:
Javasolt módszerük arra szólítja fel az emberi teszttervezőket, hogy dolgozzanak ki egy olyan tulajdonságok listáját, amelyek a képhez tartozhatnak, például hogy egy utcai jelenetben emberek vannak-e, vagy hogy az emberek valamit hordoznak, vagy beszélgetnek egymással. Ezeket a kritériumokat az emberek először pontozza a fényképeket; egy számítógépes látásrendszer ugyanazt a képet fogja mutatni, a „válaszok” nélkül, annak meghatározására, hogy képes-e megválasztani azt, amit az emberek észrevettek.
A kérdések kezdetben kezdetlegesek lennének, például arra, hogy vajon van-e valaki a kép kijelölt régiójában. De a kérdések bonyolultabbá válnak, ahogy a programok kifinomultabbá válnak; egy bonyolultabb kérdés magában foglalhatja a képben szereplő különböző emberek közötti interakció természetét.
A csoport a Nemzeti Tudományos Akadémia folyóiratában írta le a tesztet. Mostanáig a német azt állítja, hogy egyetlen számítógépes rendszer sem tudná átadni az új teszt egyszerű változatát sem. De a jövőben is. Mivel minden fényképnek számos lehetséges tulajdonsága van, a kutatóknak innovatív módszereket kell kidolgozniuk számítógépeik számára a fényképek értékeléséhez.
"Mint kutatók, hajlamosak vagyunk" a tesztre tanítani "- mondja Geman nyilatkozatában. „Ha vannak olyan versenyek, amelyekbe mindenki belép, és ezek képezik a siker mércéjét, akkor erre összpontosítunk. Tehát bölcs dolog megváltoztatni a tesztet, hogy azt csak a jelenlegi látórendszer elérhetetlenségére tegyük. ”