BME Neural ProfiVox

A BME Neural ProfiVox, a jövő technológiája: gépi tanulás mély neurális hálózatokkal. A BME Neural ProfiVox magyar beszédszintetizátor család fejlesztése 2017-től kezdődött. A Google DeepMind csapata 2016-ban mutatta be a WaveNet architektúrát, amely a hang digitális mintavételezésből származó mintáit használta a gépi mélytanulás tanító adathalmazának. A beszéd esetében a tanítás során a beszédhangoknak és a hangátmeneteknek megfeleltetett hullámformák mintáiból tanult a rendszer. A korábbi DNN megoldásokhoz képest ez a megoldás minőségi ugrást jelent, ugyanis pontosan leutánozza a beszélő hangját (nem robotos a szintetizált hang, hanem személyhez köthető). A BME VIK TMIT SmartLab is adaptálta a WaveNet módszert magyar nyelvre és elkészítette az első ilyen magyar nyelvű beszédszintetizáló megoldást, amelyet BME Neural ProfiVox beszédszintetizátor családnak neveztek el.

A deep learning modellek folyamatosan fejlődnek azóta is (Tacotron, WaveGlow, FastSpeech, HiFi-GAN, FastPitch stb.). A BME VIK TMIT SmatLab csoportja is elkészítette a magyar nyelvre adaptált Tacotron2 modellt, amely mel spektrogramot hoz létre a bemeneti szövegből, majd ezt alakítja át hullámformává. A Tacotron2 alapú megoldás GPU rendelkezésre állása esetén elfogadható sebességű, de köznapi CPU-s rendszerben nem alkalmas valós idejű beszédszintézisre. 2022-re a SmartLab csapata a BME Neural ProfiVox családon belül többféle modellt is kidolgozott, amelyek nagyon jó minőségű szintetizált beszédet szolgáltatnak. A fejlesztés vezetője Dr. Zainkó Csaba.

A BME Neural ProfiVox magyar megoldásokat 2022-be már az iparban is használják. A modelleket FastPitch és HiFi-GAN megoldások adaptálásával fejlesztették. Ezek már CPU-s környezetben is gyors szintézist tesznek lehetővé. A modellek jellemzője, hogy szöveg vagy hangsorozat bemenetet várnak, amelyet egy köztes mel-spektrogram reprezentációra alakítanak, majd ebből egy másik modell állítja elő a végleges hangsorozat hullámformáját, vagyis a szintetizált beszédet. A legújabb modellek lehetőséget biztosítanak az alapfrekvencia és a sebesség állítására is, így teljes értékű beszédszintetizátorok motorjaként szolgálhatnak. A modellek az adott beszélő hangját élethűen visszaadják, de a modellparaméterek kombinálásával új beszélők hangjai is előállíthatók. Mindezen felül személyhez nem köthető (semleges) hangok is létre hozhatók, ami bizonyos esetekben jogi problémák elkerülésében lehet fontos.

image