Nyelvi statisztikák

Szó statisztikák

A magyar ragozó nyelv, egy-egy szótőhöz számos rag, jel, toldalék kapcsolható. Ennek következtében az egy szótagú szavaktól egészen az igen hosszú szóalakokig terjed a szavak hosszúsági skálája. A statisztikák nyomtatott szövegből készültek. Szóalaknak tekintünk minden szövegszót, ami szóközök között szerepel az ortografikus szövegben.

Szó statisztika a szótagszám függvényében

A mérés nyelvi anyaga egy 80 millió szóból álló szövegkorpusz volt, amiből kiválogattuk a szóalakokat (betűkép szerinti válogatással). Különbözőnek tekintettünk két szóalakot, ha két szóköz közötti betűsor egyetlen karakterben eltért. Eredményként kaptunk egy 1,5 millió szóalakból álló korpuszt, amelyben minden szóalak különbözött, és mindegyik csak egyszer fordult elő. Minden szóalaknak meghatároztuk a szótagszámát. Ebből készült a magyar szóalakok statisztikája a szótagszám függvényében.

A szótagok száma szerinti eloszlás képe azt mutatja, hogy nyelvünkben a 4 és 5 szótagú szóalakokból van a legtöbb, majd a 6 és 3 szótagúak következnek. Legkevesebb az 1 és 2 szótagú, valamint a 8 és 9 szótagú szavak száma.

A magyar szavak szótagszám szerinti gyakorisága szövegekben.

A mérés anyaga: Magyar Nemzeti Szövegtár (150 millió szó). A mérésbe nem számoltuk bele az a és az névelőket.

A gyakorisági adatok szerint a leggyakrabban két szótagú szavakat használunk a szövegekben.

További részletek a MAGYAR BESZÉD c. könyv 4.6.2. fejezetében olvashatók.

Betű statisztika

A vizsgálat nyelvi anyaga a Magyar Nemzeti Szövegtár 2005-ös verziójának teljes szöveganyaga volt. Ez a szövegtár 187,6 millió szövegszót tartalmaz, 5 nagyobb szövegtípust dolgoz fel: sajtószövegeket, szépirodalmi műveket, tudományos, hivatalos és személyes szövegeket. A mérésekhez gépi gyűjtő és szortírozó algoritmusok készültek. Az összes vizsgált betűre vonatkozó gyakorisági sorrendet a táblázat mutatja.

További részletek a MAGYAR BESZÉD c. könyv 4.6. fejezetében olvashatók.