Časopis Slovo a slovesnost
en cz

K otázce spektrální analýzy mluvené řeči

Blanka Borovičková

[Rozhledy]

(pdf)

К вопросу о спектральном анализе устной речи / Analyse spectrale du langage parlé

Dosavadní výsledky experimentální fonetiky ukazují, že artikulační stránka řeči je propracována podstatně podrobněji než stránka akustická. Tato skutečnost vyplývá z přístupu ke studiu jazyka v oblasti zvukové stavby. Výzkum řeči se nejprve zaměřil k její artikulační stránce, která se dá po mnohých stránkách poměrně snadno sledovat. Studium akustické stránky řeči je ztěžováno především neprůhledností percepční funkce sluchového analyzátoru a nedostatečným vybavením vhodnými přístroji. Ani artikulační pochody nejsou ovšem definitivně vyřešeny, jak o tom svědčí celá řada výzkumných prací, konaných v poslední době u nás i v zahraničí.

Zvýšený důraz na akustickou podstatu řeči ve fonetickém výzkumu z posledních let je vyvoláván naléhavými potřebami danými vývojem techniky. Překotný rozvoj telekomunikace vyžaduje kromě velkého množství různých komunikačních zařízení, uskutečňujících přenos informace mluvenou řečí, i jejich maximální účinnost. Zájem sdělovací techniky na vyřešení problematiky akustické stránky řeči znamená značný pokrok v měřicí technice složených zvukových dějů. Ukázalo se však, že ani podrobná znalost fyzikální podstaty řeči, tj. časový průběh jejího frekvenčního spektra zdaleka nevystihuje běžnou skutečnost, jakou je sdělování informací mezi lidskými jedinci. Složitost daného úkolu vyžaduje těsnou spolupráci mezi elektroakustiky a fonetiky. Fonetika svou větší zkušeností v subjektivním hodnocení relevantních rysů akustické realizace řeči přispěla ke správné orientaci techniků při řešení jejich problémů v teorii i praxi sdělování uskutečňovaného slovem a splatila tak dluh technické praxi tím, že vypracovala novou metodiku přesné akustické analýzy řeči, založené na nejmodernějších výsledcích elektroakustické měřicí techniky. Avšak ani fonetika s elektroakustikou nemohou daný úkol beze zbytků rozřešit. Rozvíjející se automatizace v průmyslu klade totiž nové a přísnější požadavky na řídící prvky výrobních procesů, které se dají namnoze řešit použitím velkých moderních samočinných počítačů, ale stále častěji se objevuje požadavek řídit tato složitá automatická zařízení mluveným slovem. Zvýšení náročnosti na znalost problematiky řeči spočívá v tom, že již nestačí přenést akustický signál ze vstupu telekomunikačního zařízení na jeho výstup s určitým stupněm přesnosti, ale je nutno postihnout i způsob zpracování informace, nesené slovem, sluchovým analyzátorem lidského jedince. Ten je u automatizačních zařízení zastoupen samočinným počítačem. Nejde samozřejmě o nahrazení tvůrčí činnosti člověka, ale o to, aby zařízení reagovalo na pokyny udílené člověkem. Řešení tohoto problému vyžádá si rozšíření pracovních kolektivů o odborníky z fyziologie vyšší nervové činnosti a z logiky. Podrobné sledování zvukových obrazů řeči v jejích časových proměnách je také cenným příspěvkem pro lingvistiku všude tam, kde hodnotí ty akustické prvky řeči, které nelze jednoznačně subjektivně odlišit, např. přízvuk, kvantitu apod. Jak jsme již naznačili, bude možno všechny problémy beze zbytku řešit až po vypracování modelu způsobu vnímání komplexních akustických podnětů z hlediska apercepčního. Zatím jsme ovšem v samých začátcích výzkumu vzhledem k nepatrným výsledkům, které jsou k dispozici z oboru vnímání a fyziologie vyšší nervové činnosti u člověka.

Starší metody fonetické hodnotí ustálené jevy, jako jsou např. izolované hlásky, převážně staticky, tj. s vyloučením času. Problematika ztráty časového měřítka a z toho plynoucí nejistota při klasifikaci jednotlivých základních elementů řeči nám lépe vynikne, srovnáme-li dvě základní formy řeči, tj. projev psaný s projevem mluveným. Rozdíl mezi hodnocením řeči realizované těmito dvěma formami tkví ve způsobu sledování časové posloupnosti jejich jednotlivých znaků při vnímání. Při čtení textu nerozlišujeme běžně jednotlivá písmena, ale vnímáme celé skupiny písmen, čteme globálně. Vyskytuje-li se v textu málo známé slovo, pak automaticky zvolňujeme tempo čtení. Nastane-li případ, že jsme neporozuměli textu nesprávným hodnocením určité sku[264]piny písmen a sdělení nám nedává smysl, máme možnost vrátit se zpět a pozorněji přečíst příslušné slovo. Avšak toto libovolné disponování plynoucím časem není možné při poslechu řeči. To, co jsme nezachytili správně v průběhu řeči, je pro nás již ztraceno. Dnešní elektroakustická praxe nám sice umožňuje kvalitní záznam zvuku a jeho opakování, zaručující naprostou totožnost opakovaných signálů, ale nemá možnost plynutí času zvolnit. I když dnes existují zařízení, která mohou měnit rychlost promluvy beze změny frekvence, je to vždy na úkor kvality signálu, takže se tento způsob sotva hodí pro fonetický výzkum akustické podstaty řeči.

Ať již fonetika pracovala jakýmikoli metodami, vždy získávala pouze frekvenční spektra v závislosti na intenzitě jejich jednotlivých složek. Čas byl vždy vyloučen, i když byly zpracovávány děje probíhající v čase. Pro uskutečnění analýzy bylo totiž třeba předpokládat, že měřený děj je v čase neproměnný a lze jej tedy nahradit jediným časovým okamžikem. Jako příklad můžeme uvést analýzu izolovaných samohlásek. Když postupem doby se vzrůstající přesností záznamu časového průběhu akustických dějů bylo možno provádět jejich velmi přesnou analýzu pomocí Fourierových řad, byla časová závislost opět vyloučena. Ziskem bylo přesnější frekvenční spektrum v závislosti na intenzitě jeho složek a zkrácení pozorovaného časového úseku na rozsah jediné periody. Časový úsek měřené periody byl opět nahrazen jediným diskrétním bodem. Abychom zachytili dynamickou podstatu řeči, tj. rychlé změny frekvenčně amplitudových spekter v čase, museli bychom provést Fourierovu analýzu všech za sebou následujících period. Teoreticky je to sice možné, ale prakticky neuskutečnitelné pro značnou náročnost časovou. Jedna vteřina akustického děje vyžaduje 300—400 hodin analýzy.

I když možnost využít samočinných počítačů by v budoucnosti podstatně snížila tuto časovou náročnost na několik málo hodin, zůstává stálým problémem vhodné zaregistrování výsledků této analýzy tak, aby byla názorná a přehledná ve všech třech dimenzích. Proto použila moderní fonetika, sledující přechodové jevy řeči, jiného způsobu záznamu, v němž jsou zachyceny všechny tři dimenze, čas, frekvence a intenzita zároveň. Nově propracovaná měřicí metodika analýzy komplexních akustických signálů v telekomunikační praxi uspíšila vývoj nového způsobu záznamu i analýzy zvuku,[1] která splňuje požadavky moderní experimentální fonetiky. Ale ani zde otázka času není bez problémů. Vyplývá to ze způsobu našeho vnímání skutečnosti, který nám neumožňuje zachytit děj v jeho přítomnosti. Vnímáme-li jakýkoli děj, uvědomujeme si jej v okamžiku, kdy již neexistuje, protože doba potřebná k proběhnutí odezvy na podnět od vstupu, např. sluchového analyzátoru k jeho výstupu, tj. k jeho kortikální části, má hodnotu konečnou. Vedle toho existuje pevný vztah mezi délkou časového úseku Δ t a frekvenční přesností Δ f, s níž můžeme určit výšku tónu f. Tento vztah je dán výrazem[2] Δ f . Δ t = 1.

Zní-li např. tón o frekvenci 1 kHz v časovém úseku Δ t = 1 sec, pak jsme schopni jeho výšku určit sluchem s přesností ± Δ f = 1 Hz. Naopak při časovém úseku 1 msec jsme schopni určit výšku téhož tónu s přesností ± 1000 Hz, tj. slyšíme zvuk ve frekvenčním rozmezí 0—2000 Hz, nebo jinými slovy řečeno, nejsme schopni určit jeho výšku vůbec. Proto např. hlásku t slyšíme jako tiknutí před následující hláskou. Tento jev se dá dokázat i matematicky. Je známo, že čím je počet period určujících jistý tón menší, tím více se uplatňuje frekvenční spektrum charakterizující přechodový jev daný změnou klidového stavu do stavu maximálního kmitání a opačně. Fyzikální analýza takového jevu nám poskytuje velmi bohaté spojité spektrum s maximem u frekvence odpovídající periodicitě jevu.

Obdobou výrazu (1) je vztah mezi šířkou analyzačního pásma analyzátorů a jeho zakmitávací dobou, tj. dobou, za kterou intenzita kmitání, přivedená na vstup filtru, dosáhne maximální hodnoty. I zde platí, že je možno stanovit vysoký stupeň rozlišení buď v čase, anebo ve frekvenci, ale ne současně v obou dimenzích. K určení kompromisu pro praktickou analýzu zde sloužila obdoba poměrů v sluchovém analyzátoru, u něhož je známa tzv. kritická šířka frekvenčního pásma [265](srov. K. Sedláček, op. cit., 140). Z toho ovšem nutně plyne, že spojité časové funkce, popisující akustické děje při mluvení, je nutno v každém případě kvantovat, tj. rozložit časovou osu na řadu diskrétních bodů, v nichž sledujeme změny frekvenčně amplitudových akustických spekter.

Záznam trojrozměrného spektra s uvedeným vymezením přesnosti je stěžejním přínosem pro studium akustické podstaty řeči tím, že se ve skutečnosti podařilo zastavit čas akustického děje. Tím je umožněno izolované pozorování průběhu jedné ze tří dimenzí v závislosti na kterékoli z dvou zbývajících. Tento komplexní způsob analýzy nemá žádná jiná fonetická metoda.

Hodnocení spektrogramu fyzikálně pořízeného není možno provádět s vymezením platnosti jednotlivých funkčních charakteristických akustických rysů pouze cestou objektivní. Spektrální analýza nám umožní stanovit pouze akustická spektra, ať již individuální nebo průměrná, ale nejpodstatnější část analýzy je třeba i v moderní experimentální fonetice provádět subjektivně. Nespoléháme se při tom jen na individuální subjektivní posudek jednotlivce, ale provádíme rozsáhlé subjektivní testy, které zpracováváme statisticky.

Tyto systematické subjektivní testy, kterých užíváme ke klasifikaci a identifikaci hlásek a jejich kombinací, jsou novým způsobem práce, ve fonetice dosud neužívaným. Spočívají v možnosti libovolně deformovat signál způsobem, který si předem určíme a který pak identifikuje skupina speciálně zacvičených posluchačů. Běžný způsob ověřování výsledků podrobné akustické analýzy je syntetické vytvoření elementů řeči, v nichž jsou záměrně deformovány určité části spektra.

Náš výzkum se soustřeďuje v první etapě více na akustickou stránku řeči a jejích jednotlivých elementů. Pro stanovení akustických veličin fyzikální cestou používáme nového zvukového spektrometru značky Tesla, jehož funkční model byl zkonstruován na výzkumném pracovišti Tesla, Valašské Meziříčí, v Praze na Jenerálce.

Toto zařízení má některé výhody proti dosud u nás užívanému spektrometru „Sonagraph“. Hlavní výhodou je rotační magnetofonová hlava; umožňuje analýzu signálu intervalu 2,5 sec, zaznamenaného na magnetofonový pás bez lepení smyčky nebo jeho sestřihu, takže je možno po provedení analýzy zvukový záznam uložit pro případnou konfrontaci s pozdějšími měřeními a úseky delší než 2,5 sec analyzovat s libovolným přesahem. Další podstatnou výhodou je registrace spektrogramu na negativní filmový materiál, kterého se jednak používá pro zhotovování frekvenčních amplitudových spekter v místech relevantních změn spektrogramu denzitometricky, jednak je možno určité partie spektrogramu zvětšit pro snazší rozlišení jednotlivých jevů vizuálně. Vzhledem k fyziologii vnímání je logaritmická frekvenční stupnice spektrogramu rovněž výhodnější než lineární stupnice sonagrafu.

Pokud se týče akustického spektra, snažíme se pro každou hlásku zjistit její průměrné spektrum. Nebudeme postupovat mechanicky, tj. slučovat spektra všech mluvčích ve všech kombinacích s ostatními hláskami, ale pouze ta, která svým rozptylem nestírají hranice mezi jednotlivými formanty. Z podobnosti, resp. shodnosti jednotlivých spekter nebo na druhé straně z jejich rozdílnosti soudíme pak na význam jednotlivých parametrů. Ukazuje se, že ve spektrech nejde ani tak o absolutní místo jednotlivých formantů na frekvenční ose jako spíš o konstantní vzájemný poměr charakteristických formantových frekvencí. Na takto získané výsledky akustických spekter aplikujeme výsledky subjektivních testů, které jsme získali při měření poznatelnosti češtiny.[3] Protože jsme při těchto měřeních nehodnotili zapsané slabiky jen jako celek, ale všímali jsme si i správnosti zápisu jednotlivých hlásek, můžeme užít výsledků zkoušek i pro naši podrobnou identifikaci jednotlivých hlásek. Výsledky zkoušek poznatelnosti jsme převedli na děrné štítky, abychom byli schopni provést velmi složité mnohonásobné třídění zápisů jednotlivých hlásek. Naším cílem je získat soubor hodnot poznatelnosti v procentech pro jednotlivé hlásky v závislosti na mezné frekvenci dolní nebo horní propusti, jíž jsme omezovali frekvenční pásmo zkušebního přenosového kanálu. Tím získáme pro každou hlásku dvojici křivek, jak je naznačeno na obr. 1, která nám vymezí na frekvenční ose dva body vytínající frekvenční pásmo, které je

 

[266]

 

Obr. 1. Závislost procenta poznatelnosti samohlásky o na mezné frekvenci dolní propusti (křivka I) a na mezné frekvenci horní propusti (křivka II). Relevantní frekvenční pásmo (šrafovaná část) je určeno body, v nichž obě křivky dosahují hodnoty 95 %.

 

 

Obr. 2. Frekvenční amplitudové spektrum samohlásky o. Svislé čáry určují amplitudu jednotlivých harmonických frekvencí spektra. Relevantní frekvenční pásmo, určené pro poznání samohlásky o (obr. 1), je přeneseno do tohoto spektra. Vyšrafované frekvenční pásmo ukazuje známou skutečnost, že jsou důležité dva formanty samohlásky. Uvedený způsob určování relevantních oblastí je zvlášť cenný při hodnocení souhlásek.

 

[267]nezbytné pro poznatelnost sledované hlásky. Body mezných frekvencí jsou dány tou částí křivek, kde začíná klesat maximální hodnota procenta poznatelnosti. Až do tohoto bodu je možno odřezávat frekvenční pásmo, aniž se ztrácejí z frekvenčního spektra oblasti důležité pro subjektivní identifikaci hlásky. Přiložíme-li takto zjištěné frekvenční pásmo na graf znázorňující frekvenční amplitudové spektrum (obr. 2), můžeme rozdělit spektrum na jeho relevantní a irelevantní část. Je samozřejmé, že musíme být velmi opatrni při posuzování výsledků hlavně z hlediska postavení sledované hlásky ve fonetickém kontextu zapsané slabiky nebo slova. Je známo, že člověk na základě zkušenosti bude při deformaci přenosového kanálu dávat přednost hláskovým kombinacím s častějším výskytem než kombinacím málo častým. I když v našem případě nejde o silně ztížené podmínky poslechu, musíme mít neustále tyto zákonitosti na zřeteli, abychom nedošli k mylným závěrům. Pro kontrolu našich výsledků zpracujeme ještě výsledky doplňkového měření, které jsme provedli při měření indexu poznatelnosti češtiny.

Toto měření záleželo v tom, že jsme elektroakustický kanál při přenosu slabik upravovali pásmovými propustmi tak, že bylo propouštěno vždy jen pásmo o šířce poloviny oktávy. Těchto pásem jsme v rozsahu přenášených frekvencí 80—12 000 Hz použili celkem 13. Provedeme podobně jako u ostatních měření podrobný rozbor výsledků a budeme sledovat průměrné procento poznatelnosti jednotlivých hlásek na různých frekvencích v rozsahu poloviny oktávy.

Celá práce, jak byla ve stručnosti popsána, je pouze začátkem rozsáhlého výzkumu klasifikace a identifikace českých hlásek a jejich kombinací. Po dokončení tohoto prvního kroku nám bude známa problematika celého výzkumu a budeme mít prověřenu metodu. Situace však zdaleka není tak jednoduchá, jak by se na první pohled zdálo. Je např. velký problém, kde určit hranici poznatelnosti hlásky. Ze subjektivních testů víme, že není možné dosáhnout průměrné hodnoty plných 100 %, a to vlivem tzv. zárazů v pozornosti posluchačů. Maximální hodnota běžně dosažitelná při těchto zkouškách bývá 95—98 %. V našich testech užíváme hodnoty 95 %, i když se ve fyziologických testech často počítá s hranicí 50 %.

Kromě uvedených subjektivních metod počítáme v budoucnosti ještě s kontrolou relevantních oblastí hlásek pomocí syntézy. Chceme vytvořit umělé hlásky a jejich kombinace, které budeme deformovat, a pak opět poslechem zjišťovat jejich poznatelnost. U syntézy máme mnohem více možností záměrných deformací, než je tomu v běžných testech. Jde hlavně o přechodové jevy akustického signálu, které můžeme velmi snadno a definovatelně při syntéze měnit. Protože tyto přechodové jevy jsou podstatnou složkou tvořící souhlásky, přinese tento výzkum rozšíření znalostí v oblasti nejméně probádané. Pokusíme se využít transparence našich spektrogramů k jejich zpětné reprodukci, abychom si ověřili opět poslechem, zda základní předpoklady a z nich získané výsledky jsou skutečně ekvivalentní při jejich vnímání.

Jestliže jsme se zaměřili v první etapě výzkumu převážně na akustickou stránku řeči, neznamená to, že popíráme význam stránky artikulační. Jako nám u akustické stránky nejde pouze o fyzikální podstatu signálu, nýbrž o její význam pro sluchový analyzátor, tak si také u artikulační stránky řeči budeme více všímat struktury stereotypů vybavujících vlastní produkci řeči. Dynamičnost moderní fonetiky spočívá právě v tom, že svou problematiku záměrně zkoumá z dialektického hlediska. Tento pohled však předpokládá tak velikou šíři odborných vědomostí, že je nemyslitelné, aby je zvládl kolektiv pracovníků jediného oboru nebo dokonce jediný pracovník. Nová situace vyžaduje naprosto odlišný způsob práce, než na jaký jsme byli až dosud zvyklí. Jde o nový druh mezioborové spolupráce, která není kolektivní prací v běžném slova smyslu. Jednotlivé obory si vzájemně doplňují a prohlubují svoje pracovní metody, i když není úkolem spolupracovníků sjednotit navzájem stanoviska a přístup k věci, ale naopak každý člen kolektivu se musí snažit o poznání ze svého hlediska. Je-li dění ve světě kolem nás uskutečňováno v čtyřrozměrném prostoru a naše myšlení je schopno vnímat pouze trojrozměrně, je tato mnohoznačnost různých hledisek téhož jevu vítaná. Přiblíží nám skutečnost podobně jako soustava dvojrozměrných obrazů, znázorňující pohledy z různých směrů, přiblíží nám trojrozměrný prostorový útvar. Ta[268]ková spolupráce ovšem vyžaduje, aby pracovníci věnovali velkou část svého úsilí vedle svého vlastního oboru i oborům spřízněným, aby pochopili metodiku jejich práce. Jedině tak je možno, aby společná práce přinášela užitek pro všechny zúčastněné obory.

Sloučením subjektivního a objektivního pohledu v akustické analýze řeči docházíme k zpřesnění klasifikace a identifikace hlásek. Výsledky této práce však neznamenají pouze přínos pro lingvistiku, ale i pro technickou aplikaci sdělování a pro přípravu akustických vstupů samočinných počítačů. Nám však jde nejen o tuto problematiku, už po léta zkoumanou, ale především o zachycení zákonitosti vnímané informace živým subjektem. Hlubším poznáním analýzy i syntézy řeči se nám posunuje těžiště z objektivně zjištěných prvků ve fyziologické akustice přes subjektivně vnímané relevantní skutečnosti v jazyce až k otázce zpracování těchto jazykových informací centrem vyšší nervové činnosti a k otázce modelování této činnosti. A zde stojíme před novou situací, v níž nestačí už zpracovávat běžně koordinované poznatky zúčastněných vědních oborů, ale odvažujeme se říci, že vzhledem k jejich specifičnosti i rozsáhlosti vyvstává potřeba nového speciálního samostatného vědeckého odvětví.


[1] R. K. Potter, G. A. Kopp, H. C. Green, Visible Speech, New York 1947.

[2] K. Sedláček, Základy audiologie, Praha 1956, 126.

[3] B. Borovičková, V. Maláč, Fonetická problematika měření indexu poznatelnosti, SaS 22, 1961, 41—48.

Slovo a slovesnost, ročník 22 (1961), číslo 4, s. 263-268

Předchozí Jan Chloupek: K parataktickému spojování vět v nářečí

Následující Dana Konečná: Ukázka použití statistického zkoumání při přípravě strojové syntézy českého jednoduchého slovesného tvaru indikativního