Hír

Az Apple M2 által vezérelt AI fejhallgató egyszerre több hangszórót képes lefordítani

Tartalomjegyzék tartalomjegyzék Hogyan működik a multi-hangszóró fordítás? Hogyan életre kel az egész?

A Google Pixel Buds vezeték nélküli fülhallgatói már egy ideje fantasztikus valós idejű fordítóhelyet kínálnak. Az elmúlt években az olyan márkák, mint a Timattle, hasonló fülhallgatóval kínáltak az üzleti ügyfelek számára. Mindezek a megoldások azonban csak egy audio stream -et képesek kezelni a fordításhoz.

A Washingtoni Egyetemen (UW) az emberek valami igazán figyelemre méltó dolgot fejlesztettek ki AI-vezérelt fejhallgató formájában, amely egyszerre képes lefordítani a több hangszóró hangját. Gondolj rá, mint egy zsúfolt bárban lévő poliglotra, amely képes megérteni a körülötte lévő emberek beszédét, különböző nyelveken, egyszerre beszélve.

A csapat az innovációjukra utal, mint egy térbeli beszédfordítást, és a Binaurális Headphones jóvoltából az életre vonatkozik. A tudatlanul a binaurális audio megpróbálja szimulálni a hanghatásokat, ahogy az emberi fülek természetesen érzékelik őket. A rögzítéshez a mikrofonokat egy dummy fejre helyezik, egymástól ugyanolyan távolságon, mint az emberi fülek mindkét oldalán.

A megközelítés döntő fontosságú, mivel a fülünk nem csak hangot hall, hanem segít nekünk az eredet irányának felmérésében. Az átfogó cél az, hogy olyan természetes hangzással hozzon létre, amelynek sztereóhatása van, amely élő koncertszerű érzetet nyújthat. Vagy a modern kontextusban a térbeli hallgatás.

A munka egy olyan csapat jóvoltából, amelyet Shyam Gollakota professzor vezet, akinek a termékeny repertoárja olyan alkalmazásokat tartalmaz, amelyek a víz alatti GPS -t az intelligens órákra helyezhetik, a bogarak fotósokká alakulnak, agyimplantátumok, amelyek kölcsönhatásba léphetnek az elektronikával, egy mobilalkalmazással, amely hallja a fertőzést és még sok más.

Hogyan működik a többszalagos fordítás?

„Első alkalommal megőriztük az egyes személyek hangjának hangját és az irányt, ahonnan jön” – magyarázza Gollakota, az intézet Paul G. Allen Számítástechnikai és Műszaki Iskolájának professzora.

Reprezentatív kép. A24

A csapat összehasonlítja a halmát egy radarhoz, mivel cselekvésbe ütközik azáltal, hogy meghatározza a környezetben lévő hangszórók számát, és valós időben frissíti ezt a számot, amikor az emberek beköltöznek a hallgatási tartományba. Az egész megközelítés az eszközön működik, és nem foglalja magában a felhasználói hangstamok küldését egy felhő szerverre fordítás céljából. Ja, magánélet!

A beszéd fordításán kívül a készlet „fenntartja az egyes hangszórók hangjának kifejező tulajdonságait és hangerejét”. A tovább, az irányított és az audiointenzitás beállításait úgy végezzük, amikor a hangszóró átmozdul a helyiségben. Érdekes, hogy az Apple azt is állítja, hogy olyan rendszert fejleszt, amely lehetővé teszi az AirPods számára, hogy audio valós időben lefordítsa.

Hogyan életre kel az egész?

Az UW -csoport közel tucat kültéri és beltéri beállítással tesztelte az AI fejhallgató fordítási képességeit. Ami a teljesítményt illeti, a rendszer 2-4 másodpercen belül eljuthat, feldolgozhat és előállíthatja a lefordított audio-t. Úgy tűnt, hogy a teszt résztvevői 3-4 másodperces késleltetést részesítenek előnyben, de a csapat a fordítási csővezeték felgyorsításán dolgozik.

Phil Nickinson / digitális trendek

Eddig a csapat csak spanyol, német és francia nyelvű fordításokat tesztelt, de remélik, hogy többet adnak a medencéhez. Technikai szempontból a vak forrás elválasztását, a lokalizációt, a valós idejű kifejező transzlációt és a binaurális megjelenítést egyetlen áramlásra mutatják, ami nagyon lenyűgöző feat.

Ami a rendszert illeti, a csapat kifejlesztett egy beszédfordítási modellt, amely képes valós időben futni egy Apple M2 szilíciumon, valós idejű következtetéseket eredményezve. Az audio feladatokat egy pár Sony zajszűrő WH-1000xm4 fejhallgatója és egy Sonic jelenléte SP15C binaurális USB mikrofon kezeli.

És itt van a legjobb rész. „A koncepció-igazgató eszköz kódja elérhető mások számára”-mondja az intézmény sajtóközleménye. Ez azt jelenti, hogy a tudományos és nyílt forráskódú közösség megtanulhatja és fejlettebb projekteket alapíthat az UW-csapat által meghatározott alapokra.

Back to top button