BME Távközlési és Médiainformatikai Tanszék, Beszédfelismerés Labor (LSR)

Laborvezető: Dr. Mihajlik Péter

A labor 1990 óta foglalkozik a gépi beszédfelismerés kutatásával, fejlesztésével és oktatásával. A gyakorlati alkalmazhatóság kezdettől fogva kiemelt cél volt, a parancsszavak felismerésétől kezdve a két évtized múlva megvalósult folyamatos beszéd a valós idejű (illetve akár nagyságrendekkel gyorsabb!) szöveges leiratozásáig. A gépi beszédfelismerés szépsége és nehézsége egyben, hogy számos témakör mélyreható ismerete szükséges a világszínvonalú műveléséhez, úgymint gépi tanulás (machine learning), véges állapotú gépek, statisztika, fizikai akusztika, fonetika, nyelvészet, természetes és programozási nyelvek, script-nyelvek, illetve a GPU számítás alkalmazása.

Fontos kiemelni, hogy noha a gépi beszédfelismerési technológia alapja mindig a statisztikai adatok által vezérelt gépi tanulás volt, a 2010-es évek elejétől a “deep learning” berobbanásával a fejlődés ugrásszerűvé vált és azóta sem állt meg. Mondhatjuk, hogy a gépi mélytanulás és a gépi beszédfelismerés “kéz a kézben járnak”, s hogy nagy mennyiségű adat révén a gépi beszédfelismerés hatékonysága esetenként összevethetővé válik az emberivel. Mindez azonban messze nem jelenti azt, hogy nem maradtak volna fontos és érdekes megoldandó feladatok, problémák, sőt az új eszközök újabb lehetőségeket tárnak fel. Számos izgalmas lehetőség áll tehát rendelkezésre az érdeklődő hallgatók, kutatójelöltek számára, hogy bekapcsolódjanak a téma művelésébe. https://www.tmit.bme.hu/lsr

Neumann János Számítógép-tudományi Társaság, Informatikatörténeti fórum (2018). A beszéd számítógépes feldolgozása Magyarországon tudományos ülés: Mihajlik Péter: A folyamatos beszéd gépi felismerésének kísérleti fejlesztései a BME-n.

Video: https://www.youtube.com/watch?v=zOJTrnP5M04

Összefoglaló: https://slideplayer.hu/slide/15906651/