Text, řeč a dialog 2018

V Brně se druhý zářijový týden konala 21. mezinárodní konference o textu, řeči a dialogu TSD 2018. Tam jsme nemohli chybět.

Konference se soustředila především na zpracování přirozeného jazyka (NLP), komputační ligvistiku a řečové technologie – a také na to, jak tohle všechno dohromady může fungovat.

Hlavní roli v současné době hrají algoritmy strojového učení (machine learning), proto byla velká část příspěvků věnována jejich vylepšování a inovování. Jsou ale i méně tradiční způsoby, jak tyto technologie zlepšovat. Jeden z plenárních řečníků, Kenneth W. Church z čínského gigantu Baidu, třeba připomněl známý citát „vždycky, když vyhodím lingvistu, úspěšnost našeho rozpoznávače se zlepší“. Autorem výroku je nestor strojového rozpoznávání řeči Fred Jelinek a údajně ho pronesl pouze v žertu. Nicméně v poslední době jsou hodně rozvíjené tzv. end-to-end systémy, které již opravdu lingvisty nepotřebují. Uvidíme, co budoucnost přinese, ale zatím se o svou práci nebojím.

Zajímavé novinky o syntéze řeči přivezli kolegové ze ZČU v Plzni. Například vyzkoušeli na češtině nejnovější systém WaveNet, nebo – což bylo zajímavé pro mě jako fonetičku – začali do své syntézy zahrnovat pravidla upravující prozodii řeči (melodii, rytmus či hlasitost) tak, aby syntetizované promluvy zněly přirozeněji.

Viděli jsme i několik konkrétních aplikací technologií v reálném světě. Robůtek Watson od IBM zvládá diagnostikovat rakovinu lépe než lidští doktoři, a mohli jsme pozorovat robotku Leolani, která když jí byly poskytnuty informace navzájem v konfliktu, frustrovaně prohlásila „Humans are so confusing!“

Protože rozpoznávání řeči bylo jedním z preferovaných témat, prezentovali jsme účastníkům konference dva postery, které jsme připravili spolu s kolegy z Technické univerzity v Liberci. První se týkal robustního rozpoznávání řeči v zašuměném prostředí a druhý odolnosti trénování akustických modelů na lidské chyby ve fonetické anotaci.

Lenka Weingartová, lingvistka v NEWTON Technologies