A Massachusetts Institute of Technology kutatói által kifejlesztett új neurális hálózat képes az egyén arcának durva megközelítésére építeni, kizárólag beszédrészletük alapján.
A csapat képzett mesterséges intelligencia eszközt - egy gépi tanulási algoritmust, amely úgy programozott, hogy "gondolkodjon" hasonlóan az emberi agyhoz - milliónyi online klipek segítségével, több mint 100 000 különféle hangszórót rögzítve. A Dubbed Speech2Face néven az ideghálózat ezt az adatkészletet használta a hangjelek és az arc arcvonásainak közötti kapcsolatok meghatározására; amint a tudósok a tanulmányban írják, a beszéd mechanikájához minden tényező befolyásolja az életkorot, a nemét, a száj alakját, az ajkak méretét, a csontszerkezetet, a nyelvet, az élességet, a sebességet és a kiejtést.
Gizmodo Melanie Ehrenkranz szerint a Speech2Face a megjelenés és a beszéd közötti asszociációkra támaszkodik, hogy az elülső oldalról néző egyének semleges kifejezésű fotorealisztikus megjelenítést generáljon. Bár ezek a képek túl általánosak ahhoz, hogy egy adott személyként azonosuljanak, többségük pontosan megmutatja a beszélõk nemét, faját és életkorát.
Érdekes módon Jackie Snow elmagyarázza a Fast Company számára, hogy az új kutatás nemcsak a korábbi és nemi előrejelzésekre támaszkodik a beszéd alapján, hanem kiemeli a hang és a „craniofacialis jellemzők”, például az orrszerkezet közötti kapcsolatokat is.
A szerzők hozzáfűzik: "Ez előzetes információk nélkül vagy pontos osztályozók meglétével érhető el az ilyen finom geometriai jellemzőkkel kapcsolatban."
Ennek ellenére az algoritmusnak vannak hibái. A Live Science Mindy Weisberger megjegyzése szerint a modellnek nehézségekbe ütközik a nyelvi változatok elemzése. Amikor például egy ázsiai kínaiul beszélő ember audioklipjét játsszák, a Speech2Face a megfelelő nemzetiségű arcot produkálta, de amikor ugyanazt a személyt angolul beszélték, az AI fehér ember képét készítette.
Más esetekben a magas hangú férfiakat, köztük a gyermekeket, tévesen azonosították nőkkel, feltárva a modell nemi elfogultságát az alacsony hangú férfiak és a magas hangú férfiak asszociálásakor a nőkkel. Mivel a képzési adatok nagyrészt a YouTube-on közzétett oktatási videókból származtak, a kutatók rámutatnak arra is, hogy az algoritmus nem reprezentálja „az egész világ népességét egyenlően”.
Pala, Jane C. Hu szerint a YouTube-videók tudományos kutatáshoz való felhasználásának jogszerűsége meglehetősen világos. Az ilyen klipek nyilvánosan elérhető információknak tekintendők; még akkor is, ha a felhasználó szerzői joggal védi videóit, a tudósok bevonhatják az anyagokat kísérleteikbe egy „fair use” kikötés alapján.
De a gyakorlat etikája kevésbé egyértelmű. Nick Sullivan, a Cloudflare kriptográfia vezetője beszélgetésével elmondta, hogy meglepte, amikor egy fényképet látott, amelyet szerepeltettek az MIT-csoport tanulmányában, mivel soha nem írt alá lemondást, vagy közvetlenül nem hallotta a kutatóktól. Noha Sullivan azt mondja Hu-nak, hogy „kedves lett volna”, ha értesítést kaptak az adatbázisba való felvételéről, elismeri, hogy az adatkészlet puszta mérete miatt a tudósok számára nehéz lenne elérni minden ábrázolt képet.
Ugyanakkor Sullivan azt a következtetést vonja le: „Mivel a képemet és a hangomat példaként választottuk ki a Speech2Face dokumentumban, ahelyett, hogy csak statisztikai tanulmányban használnánk adatpontot, udvarias lett volna elérkezni, hogy tájékoztasson engem vagy kérdezem az engedélyem. ”
A Speech2Face egyik lehetséges valós alkalmazása a modell használata a képviselő arcának hozzárendelésére a telefonhívásokhoz a beszélő hangja alapján. Snow hozzáteszi, hogy a hangfelismerési technológiát már számos területen alkalmazzák - gyakran az egyének kifejezett tudása vagy hozzájárulása nélkül. Tavaly a Chase elindította a „Hang-azonosító” programot, amely megtanulja felismerni a bankot hívó hitelkártya-ügyfeleket, míg az ország egész területén a korrekciós intézmények adatbázisokat építenek a fogvatartott személyek „hangnyomatairól”.