Logatom alapú adatbázisok

Logatomokból készített diádok hullámforma adatbázisa beszédszintézishez

A diád definíciója: két fél beszédhang hullámformája. A Profivox-diád beszédszintetizátorokhoz használták, 1995-től.

A diádos adatbázis elkészítéséhez logatomokat (értelmetlen hangsorokat) kell felolvasni és rögzíteni. Az egyes diádok hullámformái a saját logatomjukból kerülnek kivágásra és eltárolásra.

A magyar beszéd lefedhető max. 1600 féle diád hangkapcsolódási formával. A diád adatbázis mátrixos elrendezésű. Annyi sora és oszlopa van, ahány beszédhangot használunk a beszédszintézishez. A ProfiVox-diád rendszer 39 beszédhangot használ (a szünet is hangnak számít). A diádok hullámformáját címkékkel láttuk el: a két kapcsolódó hang kódszámai; zöngés/zöngétlen hullámforma rész; rezgési periódusok határa a zöngés hangoknál; hanghatár a diád belsejében.

A példában az “alma” szó előállításakor egymáshoz kapcsolt 5 diádot látjuk.

alter-text

A diádos adatbázis mérete: 6 Mbyte egy hangra. A ProfiVox-diád férfi és női hangon tud beszélni.

A diádos adatbázis elkészítéséhez 3 szótagos értelmetlen hangsorokat terveztünk, minden beszédhang kapcsolatra egyet-egyet, azaz 39 féle beszédhangra összesen 1521 féle logatomot . Példaként lássuk a bá, pá, dá, tá, gá, ká, gyá, tyá hangkapcsolatokat hordozó logatomokat szöveges formában: abáka, apáka, adáka, atáka, agáka, akáka, agyáka, atyáka. A felolvasást monoton hangon kellett végezni egyforma hangerővel. Lásd a hangpéldában.

További részletek: A MAGYAR BESZÉD c. könyv 8.2.2.1. Diád hangelembázis fejezetében