Technológia a szelektív hangfelismerésre

A több egyidejű beszélő által keltett hangzavarból az egyének szelektív megértése – az úgynevezett „koktélparti probléma” megoldása – rendkívül kihívást jelentett a számítógépek számára, az egyes beszélők elkülönítése ilyen szituációban több mint 50 éven keresztül a beszédfeldolgozás Szent Grálja volt. A beszéd utasításos rendszerben újonnan használt smart eszközök és applikációik, mint amilyen az Amazon Echo és a Google Home, rendszerint egy egyedülálló személy kéréseivel foglalkoznak, de képtelenek helytállni olyan helyzetekben, ahol több ember egyszerre beszél.

„mély klaszterezés” (deep clustering)

A „mély klaszterezés” egy nemrégiben bevezetett mélytanulási ( AI ) struktúra, amely előzőleg soha nem látott csatornánkénti, valós idejű szétválasztási teljesítményt eredményez több egyidejű hangforrás esetében. A mesterséges intelligencia ilyen alkalmazása várhatóan új lendületet ad az automatikus beszédfelismerés és a kapcsolódó alkalmazások világában. A Mitsubishi Electric Research Laboratory (Cambridge, Massachusetts) kutatói által kifejlesztett technológiát ebben a hónapban  mutatták be először a nyilvánosság előtt a Tokióban, a Speciális Technológiák Kombinált Kiállításán.

A módszer

A “mély klaszterezésnek” nevezett módszer gépi tanulási  technikát használ, hogy felismerje több hangforrás “hanglenyomatának” egyedi funkcióit. Ezután a hangzavarban beazonosítja az egyes beszélők jellegzetességét, majd csatornánként rekonstruálja az elhangzottakat.
” A tesztet 100 angol nyelvű hanganyag segítségével végezték, de még akkor is sikeres lenne a szétválasztás, ha egy beszélő japán volna” – állította Niels Meinke, a Mitsubishi Electric szóvivője. Meinke szerint, a rendszer akár 90 százalékos pontossággal képes elkülöníteni és rekonstruálni két ember beszédét, akkor is, ha a felvételhez csak egyetlen mikrofont használnak. Három hangforrás esetén, ugyan a pontosság csökken, de még mindig több mint 80 százalék. Mindkét esetben olyan hangforrásokat használtak, amelyekkel a rendszer korábban soha nem találkozott. Az előzetes tesztek során a rendszer egyszerre legfeljebb öt ember beszédét volt képes elkülöníteni.”

Biztonsági alkalmazás lehetősége

A probléma korábbi megközelítéseivel – mint például két mikrofon használata a hallgató füleinek megfelelő pozícióban – a pontosság nem haladta meg az 51%-ot.

Az AI kutatást évtizedek óta inspiráló “cocktail party effektus” legyőzésével új távlatok nyíltak meg pl. az intelligens asszisztencia ki és továbbfejlesztésében. “A rendszert különféle termékek, például felvonók, klímaberendezések és háztartási termékek verbális utasítására használhatják” – mondja Meinke. A pontosabb beszédfelismerés javíthatja pl. az automatikus beszéd átírást és komoly segítség lehet a bűnüldöző szervek számára, hogy rekonstruálják a felvételeken háttérzajba fulladt beszélgetéseket.

Jelenleg a Mitsubishi a hangfelismerési technológia alkalmazását felvonók és légkondicionálók vezérlésére tervezi.

Forrás: newscientist.com

Fordította: Ecsedi Ákos