Magyar szavak elektronikus kiejtési szótára - 2010 (1,5 millió szóalak)
Ez az első nyilvános, elektronikus kiejtési szótár a magyar nyelvre.
Referenciaként használható, mivel pontossága 99% feletti.
Alapgondolat: Olaszy Gábor
Copyright: Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék (BME TMIT), Beszédtechnológiai Laboratórium (2010).
Megvalósítás: A szótár négy évig készült, tudományos igényességgel megvalósított adattár. Nyelvi anyaga 1,5 millió lexikai egységből áll. Megadja a szóalak ortografikus formáját, mellette pedig a kiejtést hangjelek sorozatával.
Az alapgondolatot megvalósító csapat és tevékenysége: a lexikai egységek számítógépes gyűjtése (Zainkó Csaba), a kiejtési szabályok algoritmizálása (Kiss Géza, Olaszy Gábor), a szótár manuális tesztelése (Olaszy Gábor, Laczkó Klára, Kosztyu László, Béres András), a manuális tesztelés segítésére programfejlesztés (Bartalis Mátyás), helyesírás-ellenőrzés (Tihanyi László*), az internetes megvalósítás tervezése, programozása (Abari Kálmán**), a szótár hangosítása (Kiss Géza, Olaszy Gábor, Zainkó Csaba, Bartalis Mátyás).
* Morphologic, ** Debreceni Egyetem
Lektor és tudományos tanácsadó: Siptár Péter (MTA Nyelvtudományi Intézet)
Támogatás: A szótár a fenti munkatársak áldozatos munkájának eredménye. A fejlesztéshez pénztámogatást nem kaptunk. A műszaki hátteret a BME TMIT szolgáltatta. A szakmai tanácsokat köszönjük a Nyelv- és Beszédtechnológiai Platformnak (MTA Nyelvtudományi Intézet).
A szótár felépítése, használata
A kiejtési szótárak jól használhatók a kutatásban, az oktatásban, a nyelvtanításban, számos gyakorlati alkalmazásban és még sok más területen. Az ilyen elektronikus szótárak Interneten való közreadása tovább tágítja a használat terét. Tudomásunk szerint magyar nyelvre, ilyen nyilvánosan hozzáférhető nyelvtechnológiai adattár eddig nem állt rendelkezésre az Interneten. Az igény viszont világszerte nagy. Ezt a hiányt kívánjuk pótolni a jelen szótár közreadásával.
A szótár 1,5 millió magyar szóalakot tartalmaz (szavak toldalékolatlan és toldalékolt formáit egyaránt). A szóalak pontos definíciója a következő: olyan lexikai egység egy szövegben, amely két szóköz közötti betűkarakterek sorozata. Ilyen tekintetben ez a szótár más szerkezetű, mint a hagyományos szótárak. Ebből a szerkezeti felépítésből adódik, hogy szinte bármilyen magyar szó (akár toldalékolt, ragozott formában is) kereshető, és a kiejtése megkapható írott formában (választható hangreprezentációkkal), illetve hangos formában meg is hallgatható. A szótár alapvető célja a magyar szavak kiejtésének megadása (nem idegen szavaké). Idegen szó csak elvétve található a szótárban.
A magyar családnevek kiejtését tartalmazó blokk tovább szélesíti a szótár használati lehetőségeit .
A magyar települések neveinek kiejtését tartalmazó blokk tartalmazza az összes magyar települést.
A kiejtés írott formában történő megadására három forma választható:
- hagyományos magyar átírás (magyar betűkkel adja meg a kiejtést, például: küldte=külte, megkap=mekkap)
- nemzetközi fonetikai (IPA) szimbólumok, például: küldte=
, megkap=
,
- belső számítógépes hangkód jelölés, például: küldte= kUlte, megkap = mek:ap)
- SAMPA jelölés.
Az IPA hangszimbólumok segítségével a szótár használata bármely anyanyelvű személy részére egyértelmű kiejtést ad meg, tehát nyelvfüggetlen. A kiejtés időszerkezeti adatait (hangidőtartamok) is megkapja a használó mind az 1,5 millió szóalakra. A megmutatott hangidőtartamok ms-ban szerepelnek. A hosszú hangokat kettőspont melléírásával jelöljük. Az értelmezést segíti a hangtáblázat, amelyben a betűképnek megfelelő hangok megtekinthetők (hang szerinti keresésnél). A szótár hangos részének példáiból a kiejtés akusztikai formáját lehet meghallgatni.
A hangos szótár részt beszédtechnológiai eszközökkel valósítottuk meg, szintetizált beszéddel adjuk meg a jellemző kiejtést. A szóalakok kiejtési ritmusa megfelel a magyar köznyelvi kiejtés kritériumainak. A szótárból 55 000 elem meghallgatható, ha a hangszóróra kattintunk.
Keresés a szótárban
Kétféle módon kereshetünk a szótárban: hang alapján vagy betű alapján.
- beszédhang alapú lekérdezésnél arra vagyunk kíváncsiak, hogy a megadott hang(csoport) milyen szóban fordul elő és annak milyen a helyesírás szerinti képe. A hangmegadáshoz segít a hangtáblázat. Rákattintással megjelennek a használható hangjelek, amelyek közül kattintással kiválaszthatjuk a kívánt hangokat.
- betű alapú lekérdezésnél arra vagyunk kíváncsiak, hogy a helyesírás szerint megadott szónak milyen a kiejtése, milyen hangokat ejtünk a kimondásakor. Ilyenkor szót (esetleg betűkapcsolatot) célszerű megadni.
Speciális karakterek használata tágítja (szűkíti) a keresés terét. A * karakter egyfajta dzsókerszerepet tölt be a keresés megadásában. Például az „úszóedző*” megadásakor a szótár minden olyan szót megmutat, amely a * előtti karaktersorozattal íródik (úszóedzővel, -nek, -ről, -mnek, -iket stb.). A # karakter szókezdetet, illetve befejezést jelöl. Például a #rak betűsorozat megadására csak az ilyen kezdetű szavak jelennek meg a listában (raktároz, rakodik, stb), a rak# betűsorozatra csak az ilyen végűek (abrak, felrak, bátrak stb.).
A lekérdezés eredménye
A program a találatok szöveges és hangátírásos formáját a kiválasztott hangábrázolási forma szerint (például IPA jelekkel) listázza ki egymás alatt.
A lekérdezés eredményét elmenthetjük tabulátorral tagolt szöveges állományba is. A találati lista első 1000 elemét tölthetjük le. A tabulátorral tagolt állomány létrehozását a
ikonra kattintva kérhetjük. A letölthető szöveges állomány szerkezete a következő:
| Oszlopnév |
Magyarázat |
| betűsor |
a szó írott alakja a magyar ábécé betűivel |
| hangsor |
a szó ejtett alakja számítógépes hangjelöléssel |
A négy átírási forma kapcsolatát a következő táblázat mutatja:
| Magánhangzók |
| Betű |
Hangkód |
IPA-jel |
SAMPA |
| a |
a |
 |
O |
| á |
A: |
 |
a: |
| e |
e |
 |
E |
| é |
E: |
 |
e: |
| i |
i |
 |
i |
| í |
i: |
 |
i: |
| o |
o |
 |
o |
| ó |
O |
 |
o: |
| ö |
o: |
 |
2 |
| ő |
O: |
 |
2: |
| u |
u |
 |
u |
| ú |
U |
 |
u: |
| ü |
u: |
 |
y |
| ű |
U: |
 |
y: |
|
| Mássalhangzók |
| Betű |
Hangkód |
IPA-jel |
SAMPA |
| b |
b |
 |
b |
| p |
p |
 |
p |
| d |
d |
 |
d |
| t |
t |
 |
t |
| gy |
G |
 |
d' |
| ty |
T |
 |
t' |
| g |
g |
 |
g |
| k |
k |
 |
k |
| m |
m |
 |
m |
| n |
n |
 |
n |
| ny |
N |
 |
J |
| j, ly |
j |
 |
j |
| h |
h |
 |
h |
| v |
v |
 |
v |
| f |
f |
 |
f |
| z |
z |
 |
z |
| sz |
s |
 |
s |
| dz |
dz |
 |
dz |
| c |
c |
 |
ts |
| zs |
Z |
 |
Z |
| s |
S |
 |
S |
| dzs |
dZ |
 |
dZ |
| cs |
C |
 |
tS |
| l |
l |
 |
l |
| r |
r |
 |
r |
|
| Allofónok |
| Hangkód |
IPA-jel |
SAMPA |
Példa |
| j+ |
 |
j |
fia |
| J |
 |
x' |
lépj |
| H |
 |
x |
doh |
| CH |
 |
x |
pech |
| n+ |
 |
N |
ing |
| n' |
 |
n |
unsz |
|
Magyarázat:
| · |
j+ |
hiátustöltő, rövid [j]-szerű hang két magánhangzó között |
| · |
J |
zöngétlen palatális réshang, például a lépj szó végén |
| · |
H |
zöngétlen veláris réshang, például a doh szó végén |
| · |
CH |
zöngétlen preveláris réshang, például a pech szó végén |
| · |
n+ |
veláris nazális, az [n] variánsa a [k], [g] hangok előtt |
| · |
n’ |
nazalizációt jelent: nem valósul meg az [n] dentialveoláris artikulációja, a megelőző magánhangzó viszont nazalizálódik. |