PROFIVOX-gépi szövegfelolvasó család

Ez a gépi szövegfelolvasási technológia nem fonetikai adatokból, hanem az ember által ejtett beszédelemekből építkezik. Az eljárás egyrészről több évtizedes nyelvészeti-fonetikai kutatások eredménye, valamint professzionális műszaki teljesítmény. A ProfiVox beszédszintetizátor családot a BME Távközlési és Médiainformatikai Tanszék Beszédtechnológiai Laboratóriuma fejlesztette (1995-2020). A megoldás szoftver alapú minden esetben. A család három tagja háromféle alaptechnológiához kapcsolódik, amelyek a fejlődésből is következtek. A technológiát 2020 után is folyamatosan fejlesztik.

A ProfiVox-diad rendszer (1999) emberi beszédből kivágott diádok (két félhangnyi hullámforma részlet) hullámformáit kapcsolja össze és a mondat prozódiáját szabályok alapján, jelfeldolgozással ülteti rá a hangsorra. Hangja emberi, kérdezni is tud. A Google Play áruházban megvásárolható. Ingyenes szolgáltatásban is működik (robobraille.org). A magyar vakok és gyengén látók többsége ezt a szoftvert használja képernyő olvasóként, amikor számítógépen dolgozik. A ProfiVox-triád rendszer egy fejlettebb változat, ami triádok (mássalhangzó-magánhangzó-mássalhangzó) és diádok összekapcsolásával hozza létre a beszédet. Mindkét rendszert számos ipari alkalmazásban is használják/ták.

A ProfiVox-korpusz eljárás (2005) élő beszédből készített nagy adatbázisokból (korpusz) válogat hosszabb hanghullám részeket (szó, szófüzér, mondat) speciális válogató függvények segítségével. Nem tud kérdezni. Utólagos jelfeldolgozás nincs az eljárásban. A szintézis nagyon jó minőségű szintetizált beszédet szolgáltat, ha kötött tématerületre korlátozzuk. Magyarországi alkalmazásai: név és cím felolvasása (tudakozó), árlista felolvasása (telefonos információs rendszer), szám-, időpont-, dátum felolvasás, időjárás jelentés, pályaudvari utas tájékoztató.

A ProfiVox-HMM (2010) statisztikai alapokon tanul nagy beszédadatbázisból. Fekete dobozként működik. A beszéd spektrális adatait gyűjti össze és osztályozza. A tanulás eredménye az általános paraméter adatbázis a hangra és a prozódiára jellemző információkkal. A szintézis során a szövegnek megfelelő beszédhang sorozat paramétereit a legoptimálisabb módon válogatja össze a paraméter adatbázisából. Az adatsort beszéd kódoló alakítja át hullámformává. Kérdezni is tud. Ideális megoldás általános szövegfelolvasásra. Könnyen tanítható meg más emberek hangjára. Közigazgatási automatikus chatbot rendszerben használják.

Mindhárom rendszer jó minőségű beszédet szolgáltat. Komoly ipari, informatikai rendszerekben használják őket, lásd az ‘Alkalmazások’ menüpontban.