A több egyidejű beszélő által keltett hangzavarból az egyének szelektív megértése – az úgynevezett „koktélparti probléma” megoldása – rendkívül kihívást jelentett a számítógépek számára, az egyes beszélők elkülönítése ilyen szituációban több mint 50 éven keresztül a beszédfeldolgozás Szent Grálja volt. A beszéd utasításos rendszerben újonnan használt smart eszközök és applikációik, mint amilyen az Amazon Echo és a Google Home, rendszerint egy egyedülálló személy kéréseivel foglalkoznak, de képtelenek helytállni olyan helyzetekben, ahol több ember egyszerre beszél.
„mély klaszterezés” (deep clustering)
A „mély klaszterezés” egy nemrégiben bevezetett mélytanulási ( AI ) struktúra, amely előzőleg soha nem látott csatornánkénti, valós idejű szétválasztási teljesítményt eredményez több egyidejű hangforrás esetében. A mesterséges intelligencia ilyen alkalmazása várhatóan új lendületet ad az automatikus beszédfelismerés és a kapcsolódó alkalmazások világában. A Mitsubishi Electric Research Laboratory (Cambridge, Massachusetts) kutatói által kifejlesztett technológiát ebben a hónapban mutatták be először a nyilvánosság előtt a Tokióban, a Speciális Technológiák Kombinált Kiállításán.
A módszer
A “mély klaszterezésnek” nevezett módszer gépi tanulási technikát használ, hogy felismerje több hangforrás “hanglenyomatának” egyedi funkcióit. Ezután a hangzavarban beazonosítja az egyes beszélők jellegzetességét, majd csatornánként rekonstruálja az elhangzottakat.
” A tesztet 100 angol nyelvű hanganyag segítségével végezték, de még akkor is sikeres lenne a szétválasztás, ha egy beszélő japán volna” – állította Niels Meinke, a Mitsubishi Electric szóvivője. Meinke szerint, a rendszer akár 90 százalékos pontossággal képes elkülöníteni és rekonstruálni két ember beszédét, akkor is, ha a felvételhez csak egyetlen mikrofont használnak. Három hangforrás esetén, ugyan a pontosság csökken, de még mindig több mint 80 százalék. Mindkét esetben olyan hangforrásokat használtak, amelyekkel a rendszer korábban soha nem találkozott. Az előzetes tesztek során a rendszer egyszerre legfeljebb öt ember beszédét volt képes elkülöníteni.”
Biztonsági alkalmazás lehetősége
A probléma korábbi megközelítéseivel – mint például két mikrofon használata a hallgató füleinek megfelelő pozícióban – a pontosság nem haladta meg az 51%-ot.










