ProfiVox HMM
A Profivox HMM megoldás statisztikai elvű gépi tanuláson alapul és rejtett Markov-modelleket használ a szintetizálandó beszédjelet reprezentáló paraméterek létrehozására. Ezt a számítástechnika fejlődése tette lehetővé. Nem közvetlenül a hullámformával dolgozik, hanem a hullámformából spektrális és prozódiai jellemzők sokaságát nyeri ki. Komoly fonetikai, nyelvészeti tudásra nincs szükség. Az eljárás a gépi beszédelőállítás új iránya. Utólagos jelfeldolgozásra nincs szükség, mivel a dallam és a ritmus jellegzetességeit is megtanulja. A szintetizált hullámformát egy beszédkódoló (hangvisszaállító) kimenete szolgáltatja. A tanulás alapját több beszélővel elkészített sok-sok órányi tanító beszédadatbázis szolgáltatja. Az algoritmus 5 beszédhangnyi elemsorozat középső hangjára határozza meg a paramétereket. Környezet függő címkék és döntési fák segítségével figyelembe veszi a vizsgált beszédhangot, annak időszerkezeti helyét szó- és mondat szinten, valamint felhasználja a szóhatárokat, a szó hosszúságát is a tanulás során. A tanulás eredményeként létrehoz egy optimális paraméter adatbázist, ami sokkal kisebb, mint a tanító beszéd adatbázis volt. A HMM alapú tanítás idő- és tudás igényes folyamat. A tanítást csak egyszer kell elvégezni. A szintézis során a Profivox-HMM a bemeneti mondat betűsorozata alapján válogat a paraméter adatbázisából. Így állítja össze a mondat szintézisét reprezentáló komplex adatsorozatot. Kijelentő és kérdő mondatokat helyesen tud ejteni. A szintézis gyors, különösebben nagy erőforrást nem igényel. A hangkimenet jó minőségű és kötetlen tartalom felolvasására alkalmas. Lehet lassítani és gyorsítani a beszédet. Előnye az eljárásnak, hogy kis munkával más személy hangjából is lehet paraméter adatbázist készíteni, vagyis az alaprendszert adaptálni lehet többféle hangra is. Az adaptáláshoz elég 10-20 percnyi beszéd az új célszemélytől. További részletek a rendszert fejlesztő Tóth Bálit Pál PhD disszertációjában olvashatók itt.