Nejčastější otázky a odpovědi

FAQ

Hlasové technologie

Vaše nejčastější dotazy týkající se obecně hlasových technologií.

Co jsou neuronové sítě a jak pomáhají v hlasových technologiích?

Umělá neuronová síť je výpočetní model používaný v oblasti strojového učení (umělé inteligence). Tento výpočetní model dává v současné době nejlepší výsledky v celé řadě aplikací umělé inteligence (rozpoznávání objektů v obraze, rozpoznávání řeči, překlad z jazyka do jazyka …). Struktura tohoto výpočetního modelu je inspirovaná strukturou biologické neuronové sítě, tj. například mozku. Umělá neuronová síť se tak skládá z množství malých výpočetních jednotek (neuronů), které jsou vzájemně sériově a paralelně pospojovány. Podobně jako mozek se i tato síť dokáže učit – v rámci procesu učení se u umělé neuronové sítě nastavují váhy vzájemných spojů mezi jednotlivými neurony. Daný neuron v rámci sítě pak vyšle na výstup signál směřující do dalších vrstev, jen pokud součet jeho vstupních signálů přenásobený naučenými váhovými koeficienty přesáhne určitou hraniční prahovou hodnotu (podobně funguje neuron v lidském mozku).

Jaké jsou výhody neuronových sítí v rozpoznávání oproti předešlému systému?

Systém strojového učení pomocí neuronové sítě přinesl výrazně vyšší přesnost rozpoznávání. Projevuje se zejména při rušivých podmínkách, např. při přepisu komprimované nahrávky, při výraznějším hluku na pozadí, byl-li záznam pořízen z větší vzdálenosti, apod. V těchto případech neuronová síť funguje robustněji a kvalita rozpoznávání proti předchozí verzi klesá daleko méně.

Dokáže se váš systém rozpoznávání učit sám od sebe?

Z hlediska teorie strojového učení je benefit neuronových sítí v tom, že pokud jsou dostatečně hluboké, vytvoří si síť během trénování mezi jednotlivými vrstvami v podstatě jakési vlastní vnitřní abstraktní příznaky, které jsou mnohem lepší, než dokáže vytvořit člověk ze zpracovávaného signálu pomocí různých důmyslných transformací a algoritmů. I předchozí algoritmy se ale učily. V tom neuronové sítě nové nejsou. Ale je nutné si uvědomit, že nic se neučí samo od sebe. K učení je vždy potřeba učitel 🙂

Jak velké přinášejí neurosítě zlepšení pro výsledek a v čem?

Při ideálních podmínkách, kde dobře fungoval i předchozí systém, lze očekávat snížení chybovosti o 10 % – 20 % relativně. Přesnost se tak může zvýšit z 90 % například na 91 % či 92 %. V rušivých podmínkách, kdy předchozí systém fungoval například s přesností pouze 40 % – 60 %, lze nyní očekávat výsledky výrazně lepší, tj. například na úrovni 80 %.

Jak vypadá a jak dlouho trvá proces „učení“ neuronových sítí?

Učení na několika stovkách hodin hlasových záznamů trvá na jedné grafické kartě zhruba 24 hodin.

FAQ

NEWTON Dictate

Vše o programu pro automatické rozpoznávání diktovaného textu.

Jaký je rozdíl mezi programem NEWTON Dictate a službou přepisu nahrávek?

Využití programu NEWTON Dictate nejvíce ocení ti, kteří si chtějí vytvořit poznámky, zápis nebo přediktovat již sepsaný dokument. Oproti tomu, služba přepisu nahrávek je vhodná pro rozpoznávání již pořízených audio souborů (například nahrávek rozhovorů, jednání a podobně). Pro přepis nahrávek použijte náš systém NEWTON SpeechGrid.

Co vše mohu s programem NEWTON Dictate diktovat?

NEWTON Dictate slouží k přepisu obecných textů ve spisovném jazyce. Dostupný je v jazyce českém, slovenském, polském a chorvatském. Pro přepis spontánní řeči nebo diktování odborných textů je zapotřebí používat odpovídající obecný nebo oborový slovník.

Jaká je minimální doporučená konfigurace počítače, aby program správně fungoval?

Procesor min. Intel Core i5 (1,7 GHz a více), 4GB RAM.

Podporované OS: Microsoft Windows 10, 8 a 7 32-bit nebo 64-bit. Instalace Microsoft .NET 4 (je součástí balení nebo ke stažení na http://www.microsoft.com/net/). Dostatečné volné místo na pevném disku (až 600 MB pro všeobecný slovník). Běžná zvuková karta podporující vzorkovací frekvenci 16kHz, 16-ti bitové rozlišení. Program funguje i na počítačích s nižším výkonem, ale v takovém případě dochází v rozpoznávání ke zpoždění.

Mohu k diktování použít libovolný mikrofon?

K diktování je vhodné používat tzv. směrové mikrofony, které, např. oproti interním mikrofonům v počítači, zachycují zvuk pouze z nejbližšího okolí. Kvalitní mikrofon je součástí balení NEWTON Dictate.

Co program napíše, když nadiktuji slovo, které nemá ve slovníku?

Aplikace se vždy snaží rozpoznat celý diktát. Proto neznámá slova nahrazuje místo prázdného místa foneticky nejpodobnější variantou. V případě, že některé neznámé slovo potřebujete diktovat častěji, přidejte si jej do slovníku. Aplikace se tak dané slovo naučí a při dalším diktátu jej již rozpozná.

V jakém formátu si můžu nadiktovaný text uložit?

Rozpoznaný text můžete ukládat ve standardních formátech RTF nebo TXT. Aplikace k Vašemu diktátu uchovává také zvukový záznam. Ten si můžete vyexportovat ve formátech MP3, WAV nebo SPX. Chcete-li s textem a zvukovou stopou nadále pracovat v prostředí programu NEWTON Dictate, pak dokumenty ukládejte ve formátu této aplikace, TTAX.

Co když potřebuji mít nadiktovaný text přepsaný v jiném programu?

Pokud chcete text přepisovat do jiného programu, použijte funkci „MINI“, která je součástí NEWTON Dictate. Ta umožňuje, aby se diktovaný text přepisoval na místo, kde máte aktuálně umístěný kurzor myši. Můžete tak diktovat do libovolných aplikací, informačních systémů nebo třeba internetového prohlížeče.

Co mám dělat, když mi program nerozumí?

V případě, že Vám program dobře nerozumí, zkontrolujte, zda máte správně nastavený a umístěný mikrofon. Úvodní tutoriál programu Vás jeho nastavením provede. Jedná se o nejčastější příčinu potíží s funkčností programu.

Můžu diktovat, i když mám mírnou vadu řeči?

Ano, program automaticky provádí hlasovou adaptaci na každého nového uživatele, a mírnou vadu řeči, jako je např. ráčkování, sám eliminuje.

FAQ

Beey

Často kladené otázky o nahrávání souborů do programu Beey.

Jak pořídím kvalitní nahrávku pro zpracování v Beey?

Nahrávku pořizujte v prostředí, ve kterém je co nejméně rušivých zvuků a mluvte do nahrávacího zařízení nebo mikrofonu zblízka. Pokud budete pořizovat nahrávku například na mobilní telefon, nestačí, když bude ležet na stole před vámi. Je potřeba mluvit do něj, jako například při telefonování.

Jaký mikrofon mám pro nahrávání použít?

Doporučujeme používat při nahrávání klopové mikrofony nebo speciální zařízení pro přípravu podcastů. Pro nahrávání v prostředí zasedacích síní používejte kvalitní konferenční systémy.

Pokud chcete poradit s výběrem techniky, obraťte se na náš zákaznický servis.

V jakém formátu mám nahrávku uložit?

Pokud si můžete vybrat, v jakém formátu nebo kvalitě bude nahrávka uložena, vyberte si formát MP3 nebo WAV. Bez problémů můžete použít i formáty AAC (tzv. mp4 audio), VORBIS nebo OPUS.

Jaké mám nastavit technické parametry při nahrávání?

Vzorkovací frekvence při nahrávání by měla být optimálně 16 kHz. Pokud nastavíte vyšší frekvenci, výsledek rozpoznání se už příliš nezlepší, ale vaše nahrávka bude zbytečně velká. Druhý klíčový parametr je tzv. bitrate. Ten nastavte na co nejvyšší, ale minimálně na 128 kb/s.

Mono nebo stereo mód?

Vaše nahrávka bude většinou pořízená ve stereo módu – jedna stopa pro levý a druhá pro pravý zvukový kanál. Je ale třeba si uvědomit, že rozpoznávání probíhá vždy v mono – tedy oba kanály se před rozpoznáním hlasu sloučí do jednoho. Pokud tedy můžete zvolit mód nahrávky, vyberte si mono.

Poznámka: MP3 soubory mohou obsahovat řadu specifických vlastností (například vložené obrázky a podobně). Ty nijak neovlivní kvalitu přepisu, ale mohou způsobovat problémy při zpracování. Nedoporučujeme proto ukládat do souboru žádné dodatečné informace.

Umí Beey pracovat s různými formáty?

Formátů video souborů je celá řada. S většinou z nich Beey pracuje bez problémů. U některých nestandardních formátů ale může docházet k chybám při zpracování a například při exportu titulků.

Poznámka: U video a audio souboru se bohužel nelze spolehnout jen na příponu souboru, jak jsme zvyklí například u textových dokumentů nebo obrázků.

Jaký je doporučený formát videa?

Doporučujeme používat soubory MP4. Ve většině případů budete s výsledkem spokojeni. V některých případech ale bude nutné video soubor před použitím v Beey uložit do správného formátu.

Podrobnější popis správného formátu videa: MP4 kontejner (soubor), audio stopa MP3 nebo AAC, video kodek H264, fastformat – neboli fragmentovaná MP4. Video i audio by mělo mít tzv. konstantní FRAMErate i BITrate.

Pokud narazíte na problémy s některým souborem, obraťte se na naši zákaznickou podporu. Pomůžeme vám analyzovat váš problém a doporučit řešení.

Jak ověřím, že je moje video ve správném formátu?

Pokud chcete jednoduše a rychle ověřit, že je vaše video ve správném formátu, zkuste, jestli ho dokáže přehrát prohlížeč Chrome. Stačí, když váš soubor „přetáhnete“ do okna prohlížeče nebo na jeho ikonu na ploše. Pokud se soubor začne přehrávat, Beey ho nejspíš bez problémů zpracuje.

Jaká je doporučená délka nahrávky?

V Beey editoru garantujeme bezproblémovou a pohodlnou práci s maximálně dvouhodinovými nahrávkami. Pokud potřebujete, můžete použít i delší nahrávky, ale počítejte s tím, že při jejich editaci se mohou objevit problémy nebo pomalejší odezvy aplikace.

Pokud potřebujete zpracovat delší nahrávku, doporučujeme ji rozdělit na menší části.

Nenašli jste odpověď na vaši otázku? Potřebujete poradit s výběrem nebo nastavením našich produktu? Napište nám nebo zavolejte na 225 540 120.

Kateřina Morozová

zákaznická podpora

Vyplňte a odešlete kontaktní formulář. Ozveme se vám co nejdříve.

Na Pankráci 1683/127,
140 00 Praha 4
Czech Republic

E: [email protected]