Logatom alapú adatbázisok

Logatomokból készített diád-triád adatbázis beszédszintézishez

A diád alapú beszédépítés komoly hátránya, hogy a hangok közepén történik az egymáshoz illesztés. Ez magánhangzók esetében torzítást okoz. Ezt küszöböli ki az a gondolat, hogy a magánhangzókat ne vágjuk szét a hang közepén, hanem hagyjuk meg őket természetes voltukban a CVC kapcsolatokban. A triád elemekből álló CVC tartalmú beszédadatbázis elkészítéséhez másféle logatomokat (értelmetlen hangsorokat) kell felolvasni, mint a diádok esetében. Az egyes triádok hullámformái a saját logatomjukból kerültek kivágásra és eltárolásra. Így egy diádos és egy triádos elemeket tartalmazó beszédadatbázisuk lesz. A Profivox-triád beszédszintetizátorokhoz használták, 2005-től.

A magyar beszéd lefedhető max. 1600 féle diád hangkapcsolódási formával, továbbá a CVC kapcsolatok pedig közel 9000 triáddal. A CVC triádok hullámformáját is címkékkel láttuk el: a három kapcsolódó hang kódszámai; zöngés/zöngétlen hullámforma rész; periódus határ a zöngés hangoknál; hanghatár a triád belsejében.

Az “Esni fog az eső.” mondat előállításakor egymáshoz kapcsolt 1 diád (Sn) és 6 triád.

alter-text

A diád-triád adatbázis mérete: 80 Mbyte egy hangra. A ProfiVox-triád rendszer hangja szólt a Gyógyszervonal információs rendszerben.

További részletek: A MAGYAR BESZÉD c. könyv 8.2.2.2. Triád a hangelembázisban fejezetében