SECURINFO.hu | Technológia a szelektív hangfelismerésre

Technológia a szelektív hangfelismerésre

2018. 01. 09.
Hírek

A több egyidejű beszélő által keltett hangzavarból az egyének szelektív megértése – az úgynevezett „koktélparti probléma” megoldása – rendkívül kihívást jelentett a számítógépek számára, az egyes beszélők elkülönítése ilyen szituációban több mint 50 éven keresztül a beszédfeldolgozás Szent Grálja volt. A beszéd utasításos rendszerben újonnan használt smart eszközök és applikációik, mint amilyen az Amazon Echo és a Google Home, rendszerint egy egyedülálló személy kéréseivel foglalkoznak, de képtelenek helytállni olyan helyzetekben, ahol több ember egyszerre beszél.

„mély klaszterezés” (deep clustering)

A „mély klaszterezés” egy nemrégiben bevezetett mélytanulási ( AI ) struktúra, amely előzőleg soha nem látott csatornánkénti, valós idejű szétválasztási teljesítményt eredményez több egyidejű hangforrás esetében. A mesterséges intelligencia ilyen alkalmazása várhatóan új lendületet ad az automatikus beszédfelismerés és a kapcsolódó alkalmazások világában. A Mitsubishi Electric Research Laboratory (Cambridge, Massachusetts) kutatói által kifejlesztett technológiát ebben a hónapban mutatták be először a nyilvánosság előtt a Tokióban, a Speciális Technológiák Kombinált Kiállításán.

A módszer

A “mély klaszterezésnek” nevezett módszer gépi tanulási technikát használ, hogy felismerje több hangforrás “hanglenyomatának” egyedi funkcióit. Ezután a hangzavarban beazonosítja az egyes beszélők jellegzetességét, majd csatornánként rekonstruálja az elhangzottakat.
” A tesztet 100 angol nyelvű hanganyag segítségével végezték, de még akkor is sikeres lenne a szétválasztás, ha egy beszélő japán volna” – állította Niels Meinke, a Mitsubishi Electric szóvivője. Meinke szerint, a rendszer akár 90 százalékos pontossággal képes elkülöníteni és rekonstruálni két ember beszédét, akkor is, ha a felvételhez csak egyetlen mikrofont használnak. Három hangforrás esetén, ugyan a pontosság csökken, de még mindig több mint 80 százalék. Mindkét esetben olyan hangforrásokat használtak, amelyekkel a rendszer korábban soha nem találkozott. Az előzetes tesztek során a rendszer egyszerre legfeljebb öt ember beszédét volt képes elkülöníteni.”

Biztonsági alkalmazás lehetősége

A probléma korábbi megközelítéseivel – mint például két mikrofon használata a hallgató füleinek megfelelő pozícióban – a pontosság nem haladta meg az 51%-ot.

Az AI kutatást évtizedek óta inspiráló “cocktail party effektus” legyőzésével új távlatok nyíltak meg pl. az intelligens asszisztencia ki és továbbfejlesztésében. “A rendszert különféle termékek, például felvonók, klímaberendezések és háztartási termékek verbális utasítására használhatják” – mondja Meinke. A pontosabb beszédfelismerés javíthatja pl. az automatikus beszéd átírást és komoly segítség lehet a bűnüldöző szervek számára, hogy rekonstruálják a felvételeken háttérzajba fulladt beszélgetéseket.

Jelenleg a Mitsubishi a hangfelismerési technológia alkalmazását felvonók és légkondicionálók vezérlésére tervezi.

Forrás: newscientist.com

Fordította: Ecsedi Ákos

Kiberbiztonsági szabályok 2025-ben: mire kell figyelni Magyarországon?

Az elmúlt években Magyarországon is látványosan terjedtek a digitális biztonsági megoldások: hálózatba kötött beléptetőrendszerek, intercomok és különféle okoseszközök. Bővebben »

A Motorola felvásárolja a Blue Eye vállalatot az RVM piaci térnyerését elősegítve

A Motorola Solutions felvásárolta a Blue Eye-t, a mesterséges intelligencia alapú vállalati távoli videomegfigyelési (RVM) szolgáltatások vezető szolgáltatóját, amelynek székhelye Salt Lake Cityben, Utah államban található.

A Hanwha Techwin új útja: Hanwha Vision

A Hanwha Vision az AI és a felhő technológia integrálásával vezető szerepet kíván betölteni a videós megfigyelés, és az üzleti analitikai folyamatok monitorozása terén. Ezzel egyidejűleg nagyobb üzleti lehetőségeket és személyre szabott megoldásokat kínál az ügyfelek igényeinek kielégítésére.

A személyazonosítás és arcfelismerés új szintje ( amikor a kapucni sem segít…)

Az NEC Corporation kifejlesztett egy olyan személyazonosító technológiát, amelyről azt állítják, hogy akkor is képes beazonosítani az emberek képeit, ha az alakjuk részben el van takarva a kamera elől, vagy a kép hátulról, esetleg oldalról készült.

Az elhárító dróntechnika lemaradva! Legyőzhetetlenek az intelligens harci drónok?

A Pentagon vezető kutatója szerint a támadó dróntechnika messze meghaladja a védelmit. Az Egyesült Államok Védelmi Minisztériumának egyik vezető kutatómérnöke, Mike Griffin szerint a mesterséges intelligencia vezérelte drónok fenyegetését nagyon komolyan kell venni.

A mesterséges intelligencia a videó kiértékelésében

A legnagyobb lehetőség az új technológiák adaptálása lenne a video kiértékelésének és feldolgozásának gyakorlatában, különösen a tárgyak Internete (IoT), a felhő alapú tárolás, a gépi tanulás és a mesterséges intelligencia (AI) technológiák esetében.

Minden hatodik számítógépen még mindig Windows 10 fut

A Windows 10-et futtató eszközök egy jelentős része nem tud vagy nem akar áttérni a Windows 11-re, ami egyre nagyobb biztonsági problémát jelent a vállalatok számára, miközben fokozatosan megszűnnek a támogatási lehetőségek.

A Hanwha Vision 2. generációs X sorozatú AI kompakt kamerái

Az elismert X sorozat első kompakt AI fejlesztett termékcsaládjaként ezek a modellek újraértelmezik az elvárásokat azáltal, hogy „kompakt, mégis teljes” teljesítményt nyújtanak a modern biztonsági igények kielégítésére.

A Hikvision új fejlesztése a TalkVu videós kaputelefon-sorozat

A „Beszélj tisztán, nézd okosan” márka vízióját megtestesítő TalkVu sorozat kristálytiszta 4 MP-es képalkotást, mesterséges intelligenciával vezérelt hangoptimalizálást és intuitív vezérlést ötvöz, hogy kivételes tisztaságot biztosítson az ajtó előtt zajló tevékenységek monitorozásában, torzításmentes beszélgetésekben és a csatlakoztatott környezetek zökkenőmentes kezelésében.

A Hikvision mesterséges intelligenciát visz a videotömörítésbe a Guanlan Encoding segítségével

A Hikvision bejelentette a Guanlan Encoding, egy mesterséges intelligencián alapuló videotömörítési technológia bevezetését, amely átlagosan 30–50%-os tárhelymegtakarítást biztosít a kritikus felvételek minőségének feláldozása nélkül.