Magyar szavak elektronikus kiejtési szótára - 2010 (1,5 millió szóalak)

Ez az első nyilvános, elektronikus kiejtési szótár a magyar nyelvre.
Referenciaként használható, mivel pontossága 99% feletti.

Alapgondolat: Olaszy Gábor

Copyright: Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék (BME TMIT), Beszédtechnológiai Laboratórium (2010).

Megvalósítás: A szótár négy évig készült, tudományos igényességgel megvalósított adattár. Nyelvi anyaga 1,5 millió lexikai egységből áll. Megadja a szóalak ortografikus formáját, mellette pedig a kiejtést hangjelek sorozatával.

Az alapgondolatot megvalósító csapat és tevékenysége: a lexikai egységek számítógépes gyűjtése (Zainkó Csaba), a kiejtési szabályok algoritmizálása (Kiss Géza, Olaszy Gábor), a szótár manuális tesztelése (Olaszy Gábor, Laczkó Klára, Kosztyu László, Béres András), a manuális tesztelés segítésére programfejlesztés (Bartalis Mátyás), helyesírás-ellenőrzés (Tihanyi László*), az internetes megvalósítás tervezése, programozása (Abari Kálmán**), a szótár hangosítása (Kiss Géza, Olaszy Gábor, Zainkó Csaba, Bartalis Mátyás).
* Morphologic, ** Debreceni Egyetem

Lektor és tudományos tanácsadó: Siptár Péter (MTA Nyelvtudományi Intézet)

Támogatás: A szótár a fenti munkatársak áldozatos munkájának eredménye. A fejlesztéshez pénztámogatást nem kaptunk. A műszaki hátteret a BME TMIT szolgáltatta. A szakmai tanácsokat köszönjük a Nyelv- és Beszédtechnológiai Platformnak (MTA Nyelvtudományi Intézet).

A szótár felépítése, használata

A kiejtési szótárak jól használhatók a kutatásban, az oktatásban, a nyelvtanításban, számos gyakorlati alkalmazásban és még sok más területen. Az ilyen elektronikus szótárak Interneten való közreadása tovább tágítja a használat terét. Tudomásunk szerint magyar nyelvre, ilyen nyilvánosan hozzáférhető nyelvtechnológiai adattár eddig nem állt rendelkezésre az Interneten. Az igény viszont világszerte nagy. Ezt a hiányt kívánjuk pótolni a jelen szótár közreadásával.

A szótár 1,5 millió magyar szóalakot tartalmaz (szavak toldalékolatlan és toldalékolt formáit egyaránt). A szóalak pontos definíciója a következő: olyan lexikai egység egy szövegben, amely két szóköz közötti betűkarakterek sorozata. Ilyen tekintetben ez a szótár más szerkezetű, mint a hagyományos szótárak. Ebből a szerkezeti felépítésből adódik, hogy szinte bármilyen magyar szó (akár toldalékolt, ragozott formában is) kereshető, és a kiejtése megkapható írott formában (választható hangreprezentációkkal), illetve hangos formában meg is hallgatható. A szótár alapvető célja a magyar szavak kiejtésének megadása (nem idegen szavaké). Idegen szó csak elvétve található a szótárban.

A magyar családnevek kiejtését tartalmazó blokk tovább szélesíti a szótár használati lehetőségeit .

A magyar települések neveinek kiejtését tartalmazó blokk tartalmazza az összes magyar települést.

A kiejtés írott formában történő megadására három forma választható:

hagyományos magyar átírás (magyar betűkkel adja meg a kiejtést, például: küldte=külte, megkap=mekkap)
nemzetközi fonetikai (IPA) szimbólumok, például: küldte=, megkap=,
belső számítógépes hangkód jelölés, például: küldte= kUlte, megkap = mek:ap)
SAMPA jelölés.

Az IPA hangszimbólumok segítségével a szótár használata bármely anyanyelvű személy részére egyértelmű kiejtést ad meg, tehát nyelvfüggetlen. A kiejtés időszerkezeti adatait (hangidőtartamok) is megkapja a használó mind az 1,5 millió szóalakra. A megmutatott hangidőtartamok ms-ban szerepelnek. A hosszú hangokat kettőspont melléírásával jelöljük. Az értelmezést segíti a hangtáblázat, amelyben a betűképnek megfelelő hangok megtekinthetők (hang szerinti keresésnél). A szótár hangos részének példáiból a kiejtés akusztikai formáját lehet meghallgatni.

A hangos szótár részt beszédtechnológiai eszközökkel valósítottuk meg, szintetizált beszéddel adjuk meg a jellemző kiejtést. A szóalakok kiejtési ritmusa megfelel a magyar köznyelvi kiejtés kritériumainak. A szótárból 55 000 elem meghallgatható, ha a hangszóróra kattintunk.

Keresés a szótárban

Kétféle módon kereshetünk a szótárban: hang alapján vagy betű alapján.

beszédhang alapú lekérdezésnél arra vagyunk kíváncsiak, hogy a megadott hang(csoport) milyen szóban fordul elő és annak milyen a helyesírás szerinti képe. A hangmegadáshoz segít a hangtáblázat. Rákattintással megjelennek a használható hangjelek, amelyek közül kattintással kiválaszthatjuk a kívánt hangokat.
betű alapú lekérdezésnél arra vagyunk kíváncsiak, hogy a helyesírás szerint megadott szónak milyen a kiejtése, milyen hangokat ejtünk a kimondásakor. Ilyenkor szót (esetleg betűkapcsolatot) célszerű megadni.

Speciális karakterek használata tágítja (szűkíti) a keresés terét. A * karakter egyfajta dzsókerszerepet tölt be a keresés megadásában. Például az „úszóedző*” megadásakor a szótár minden olyan szót megmutat, amely a * előtti karaktersorozattal íródik (úszóedzővel, -nek, -ről, -mnek, -iket stb.). A # karakter szókezdetet, illetve befejezést jelöl. Például a #rak betűsorozat megadására csak az ilyen kezdetű szavak jelennek meg a listában (raktároz, rakodik, stb), a rak# betűsorozatra csak az ilyen végűek (abrak, felrak, bátrak stb.).

A lekérdezés eredménye

A program a találatok szöveges és hangátírásos formáját a kiválasztott hangábrázolási forma szerint (például IPA jelekkel) listázza ki egymás alatt.

A lekérdezés eredményét elmenthetjük tabulátorral tagolt szöveges állományba is. A találati lista első 1000 elemét tölthetjük le. A tabulátorral tagolt állomány létrehozását a ikonra kattintva kérhetjük. A letölthető szöveges állomány szerkezete a következő:

Oszlopnév Magyarázat

betűsor a szó írott alakja a magyar ábécé betűivel

hangsor a szó ejtett alakja számítógépes hangjelöléssel

A négy átírási forma kapcsolatát a következő táblázat mutatja:

Magánhangzók
Betű	Hangkód	IPA-jel	SAMPA
a	a		O
á	A:		a:
e	e		E
é	E:		e:
i	i		i
í	i:		i:
o	o		o
ó	O		o:
ö	o:		2
ő	O:		2:
u	u		u
ú	U		u:
ü	u:		y
ű	U:		y:

Mássalhangzók
Betű	Hangkód	IPA-jel	SAMPA
b	b		b
p	p		p
d	d		d
t	t		t
gy	G		d'
ty	T		t'
g	g		g
k	k		k
m	m		m
n	n		n
ny	N		J
j, ly	j		j
h	h		h
v	v		v
f	f		f
z	z		z
sz	s		s
dz	dz		dz
c	c		ts
zs	Z		Z
s	S		S
dzs	dZ		dZ
cs	C		tS
l	l		l
r	r		r

Allofónok
Hangkód	IPA-jel	SAMPA	Példa
j+		j	fia
J		x'	lépj
H		x	doh
CH		x	pech
n+		N	ing
n'		n	unsz

Magyarázat:

· j+ hiátustöltő, rövid [j]-szerű hang két magánhangzó között

· J zöngétlen palatális réshang, például a lépj szó végén

· H zöngétlen veláris réshang, például a doh szó végén

· CH zöngétlen preveláris réshang, például a pech szó végén

· n+ veláris nazális, az [n] variánsa a [k], [g] hangok előtt

· n’ nazalizációt jelent: nem valósul meg az [n] dentialveoláris artikulációja, a megelőző magánhangzó viszont nazalizálódik.