Rozpoznávanie reči

Rozpoznávanie a analýza reči

Kľúčové slová:

Interakcia človek-počítač, Rozpoznávanie reči, Syntéza reči, Dolovanie dát, Mikrofónové pole, Mobilné zariadenia, Java,

Popis:

Na katedre sme si za viac ako 7 rokov vybudovali dobré teoretické a praktické zázemie o všetkých technikách DTW, HMM a NN a Systémy HTK a SPHINX. Podarilo sa nám prejsť od jednoduchých úloh, ako je rozpoznávanie pomocou slovných modelov s veľkosťou slovníka niekoľkých desiatok, až po aktuálne podporovaných niekoľko tisíc slov modelovaných viazanými kontextovo závislými, od hovoriaceho nezávislými fonémovými modelmi. V našich experimentoch a praktických realizáciách sme použili trénovacie procedúry MASPER alebo REFREC 0.96 (s využitím zariadenia HTK), ktoré produkovali rôzne druhy modelov buď rečových jednotiek, alebo nerečových udalostí. Ako rečové databázy sme použili slovenské databázy SPEECHDAT a MOBILDAT, trénované a vyhodnocované samostatne alebo dokonca spoločne, čím sme vytvorili hybridné modely (modely pevných liniek a mobilných telefónov). Boli vykonané úpravy štandardných trénovacích postupov, ktoré viedli k zlepšeniu celkových výsledkov. V systéme SPHPINX boli kontextovo závislé aj nezávislé fonémové modely odvodené pomocou procedúry SphixTrain upravenej pre slovenský jazyk a databázy MOBILDAT. V oboch systémoch sa dosiahli podobné výsledky, čo sa týka presnosti, v porovnaní so správami iných výskumníkov na renomovaných univerzitách. Pre praktické aplikácie sme použili softvérový balík ATK a verzie SPHINX 3.5 alebo 4. Hlavným úspechom nášho niekoľkoročného úsilia bolo úspešné vybudovanie rozpoznávacieho systému schopného rozpoznať približne 1300 slov v reálnom čase. Táto aplikácia bola ďalej začlenená do komplexnejšieho systému, ktorý môže slúžiť ako informačný kiosk; v súčasnosti sú plne funkčné 2 služby: informácie o odchodoch vlakov a predpoveď počasia. Okrem toho boli vykonané experimenty s medzijazyčným rozpoznávaním, konkrétne s talianskym jazykom. Okrem rozpoznávania reči sme úspešne riešili aj ďalšie kľúčové analytické problémy, najmä: detekciu reči (vytvorili sme niekoľko algoritmov VAD, ktoré prekonali niekoľko známych alebo experimentálnych) a identifikáciu hovoriaceho. V blízkej budúcnosti uvažujeme zamerať našu pozornosť na problém spojitého rozpoznávania reči, ktorý spočíva prevažne v aplikačnej časti problému rozpoznávania. To by zahŕňalo štatistické modelovanie jazyka, zlepšenie výpočtovej efektívnosti; rozpoznávanie na dvoch vrstvách založené na fonémach atď. Ďalej by sme chceli zvýšiť robustnosť a presnosť HMM modelov najmä úpravami trénovania HMM modelov, začlenením iných modelov a úpravami procesu extrakcie rečových znakov. Hybridný prístup HMM-NN je tiež veľmi lákavý.