en cz

Teorie a modely percepce řeči

Jiřina Hůrková

[Rozhledy]

Теории и модели перцепции речи / The theories and models of speech perception

V každodenním procesu komunikace prostřednictvím mluvené formy jazyka předpokládáme systém, v němž jak na straně vysilatele, tak i příjemce zprávy je člověk. V souvislosti s rozvojem automatizačních zařízení orientovaných na automatické rozpoznávání řeči a s řešením problematiky syntézy řeči se však počítá s využitím řečového signálu v jednosměrně nebo vzájemně fungujícím systému člověk — stroj. Výzkumy v oblasti automatického rozpoznávání řeči zatím neuvažují o tak všestranném využití jazykové informace, jak k němu nutně dochází v mezilidské komunikaci mluvenou formou jazyka. Dosud poměrně omezené využívání výsledků výzkumu automatického rozpoznávání řeči vede mnohdy k tomu, že některá automatizační zařízení fungují na základě spíše technického rázu a mají velmi málo společného s procesy percepce a rozpoznávání řeči, jak k nim dochází v biologickém systému u člověka. Nicméně další řešení problematiky automatického rozpoznávání řeči i rozšíření jejích aplikačních možností bude vyžadovat nejen prohloubenější akustickou analýzu složitého, kontinuálního řečového signálu (zejména v oblasti výzkumu akustických korelátů signálů členění souvislé promluvy), ale i komplexní výzkum procesu percepce řeči.

Problematika percepce řeči bezprostředně souvisí také s objektivním zjišťováním poznatelnosti a srozumitelnosti řeči při jejím přenosu jakýmkoliv kanálem (přirozeným nebo elektroakustickým) a s hodnocením kvality syntetického řečového signálu. Není náhodou, že většina výzkumných prací z oboru percepce řeči se uskutečňuje zejména na telekomunikačních pracovištích, která se zabývají přenosem přirozeného řečového signálu v různých technických podmínkách, popř. přenosem a produkcí řečového signálu syntetického a automatickým rozpoznáváním řeči.

[40]1. Pojetí percepce řečového signálu

Pod pojmem percepce řeči rozumíme obvykle proces nebo sled procesů, které vedou k vnímání akustického řečového signálu pomocí sluchového analyzátoru a k uvědomování si významu jeho jednotlivých složek (Mluvnice češtiny 1, 1986). Dosavadní psychologické a psycholingvistické teorie percepce řeči vycházejí z předpokladu, že mechanismus percepce řečového signálu je jiný než mechanismus percepce tónů a ostatních zvuků. Např. Fant (1973) pojímá percepci řeči jako proces postupných a zároveň současných identifikací v řetězci stále vyšších úrovní jazykového systému. Chápe je jako sled procesů, které postupují k stále vyšší abstrakci. Rovněž podle Massara (1972) je proces percepce řeči časovým průběhem identifikace a rozpoznávání. Podobnou definici uvádí v jedné ze svých starších prací Fujimura (1968), pro něhož je percepce řeči identifikací formy signálu jakožto reprezentace jednotky (nebo jednotek) dané informace, kterou přenáší. Studdert-Kennedy (1973) tvrdí, že podstatou percepce je extrakce zprávy z akustického signálu, zakódované podle pravidel daného přirozeného jazyka. Podle Pisoniho (1975) jde o hierarchicky uspořádanou sekvenci jevů spojených s ukládáním a transformací informace. Podobné pojetí navrhují také Foss a Swinney (1973); percepci řeči chápou jako transformaci vstupního signálu na zprávu definovanou podle jednotlivých etap analýzy (1.) auditivní, (2.) fonetické, (3.) fonologické, (4.) lexikální, syntaktické a sémantické. Někteří badatelé omezují jevy spojené s percepcí řeči přednostně na fungování senzorického systému. Např. Čistovičová (1971) uvádí, že v procesu percepce řeči jde o senzorické zpracování a analýzu stimulu získaného jako výsledek tohoto zpracování. Na základě výsledků vlastního výzkumu i odborné literatury z 60. a 70. let formulovali Cutting a Pisoni (1976) čtyři hypotézy týkající se percepce řeči takto: a) Zpracování řečového signálu je složitý proces. — b) Transformace signálu probíhá v etapách. — c) Percepce řeči předpokládá ukládání do paměti. — d) Paměť má určitou omezenou kapacitu a rozsah.

Z uvedených pojetí percepce řeči vyplývá, že jde o velmi složitý proces, jehož důkladný výzkum vyžaduje mezioborovou spolupráci několika vědních disciplín, např. psychologie, neurologie, elektroakustiky, fyziologické akustiky, matematiky aj., ale také lingvistiky. V posledních dvaceti letech vyšla o percepci řeči velmi rozsáhlá (a často jen těžko dostupná) odborná literatura. Ve většině prací, ať již je jejich autorem fyziolog, neurolog, technik nebo představitel jiného oboru, se jako samozřejmost berou v úvahu (kromě fungování paměti) také kritéria lingvistická.

Výzkumné práce z oblasti percepce řeči využívají převážně tyto metody:

(1.) Umělé vydělování jednotlivých etap procesu zpracovávání řečového signálu, tj. experimentální ověřování, jež se omezuje na výzkum percepce některých segmentálních i suprasegmentálních fonetických jednotek. Např. jako stimulů se využívá jednoslabičných logatomů, což znamená, že se současně eliminuje etapa percepce lexikální a syntaktické.

(2.) Umělá produkce odpovídajících přirozených segmentů řečového signálu syntetizéry, které generují signály s předem stanovenými akustickými parametry. Tato metoda umožňuje důkladný výzkum vlivu apriorně zvoleného jevu na percepci signálu v určité etapě jeho zpracování (např. předem se zvolí průběh některého formantu hlásky nebo hláskového spojení). Musí se ovšem počítat s jistou ztrátou přirozenosti u řečového signálu.

(3.) Využívání různých forem rušení a deformací řečového signálu, a to jak jeho funkce časové, tak i charakteristiky frekvenční (využívá se mj. maskování signálu různými druhy šumu, vysekávání určitých fragmentů signálu, střídavý poslech signálu levým a pravým uchem aj.).

(4.) Metody výzkumu patologických případů, např. afatiků, popř. nedoslýchavých osob (zkoumá se mj. lateralita mozku při vnímání řeči).

[41](5.) Psychologické metody výzkumu zapamatovávání a vybavování předem určených jednotek na úrovni slabik nebo slov.

V řadě prací tohoto typu musíme ovšem počítat také s osobou experimentátora, se zadáním testu, popř. s jeho pokyny během výzkumu. Experimentátor totiž vstupuje do percepčního procesu zkoumané osoby, automaticky se vyvolává silnější koncentrace na příslušný jev, který by v přirozeném procesu percepce řeči zkoumaná osoba vědomě nevnímala. Tento důležitý moment umělé koncentrace na zkoumaný jev (známý také ze zkoušek a testů poznatelnosti a srozumitelnosti řeči při jejím přenosu) se však při interpretaci výsledků výzkumu v mnoha pracích pomíjí.[1]

2. Modely percepce řeči

Výsledky různých dílčích i komplexněji pojatých výzkumů percepce segmentálních i suprasegmentálních jevů z oblasti zvukové stránky jazyka se staly podkladem pro formulování některých obecně platných teorií percepce řeči i pro vypracovávání modelů vnímání řečového signálu. Většina těchto modelů vznikala v souvislosti s výzkumem automatického rozpoznávání řeči počítačem, jehož cílem byla konstrukce zařízení reagujícího na mluvené povely.[2]

Obecně lze říci, že každý model vnímání řeči obsahuje vstup a výstup systému a mezi nimi řadu bloků, které představují jednotlivé úrovně zpracování řečového signálu. Vstup a výstup se určují rovněž pro každou úroveň zpracování signálu; převod mezi nimi se formuluje prostřednictvím transformačních pravidel. Proces transformace se ve většině modelů stanovuje hypoteticky nebo na základě zobecnění výsledků výzkumů dílčích. Je to celkem pochopitelné, uvážíme-li, že percepční procesy a jejich fungování se zkoumají v mnoha ohledech jen velmi obtížně.

Modely percepce řeči mají obvykle formu heuristických blokových schémat. Konstruované systémy se běžně označují jako tzv. modely funkční. Funkčnost však není u všech autorů chápána stejně. Např. Stevens a House (1972) uvádějí, že jejich model lze považovat za funkční, přestože nemají dostatečné údaje o neurofyziologických procesech. Podle Mortona (1971) funkční model vyděluje takové mozkové procesy, které lze odlišit podle jednoho z těchto kritérií: podle druhu kódu využívaného při zpracovávání informace, podle druhu informací, které se mohou vzájemně ovlivňovat, a podle logického tvaru operací zpracovávání signálu. Tzv. logogenový model Mortonův je v tom smyslu funkční, že se v něm hlavní důraz klade na rozdíly mezi formami kódování v jednotlivých blocích.

Při vytváření funkčních blokových schémat celého percepčního procesu se obvykle vychází z neprotikladných předpokladů, a to jednoho nebo dvou:

(1.) Systém zpracování signálu řeči je vcelku hierarchický i lineární. — (2.) Některé operace (dokonce je jich většina) probíhají paralelně. — (3.) Systém je pasívní; analýza v něm tedy závisí na srovnávání vstupního řečového signálu (původního nebo transformovaného) se vzorci uloženými v systému. — (4.) Systém je aktivní (dynamický), tj. v průběhu zpracovávání řečového signálu se generují hypotetická rozpoznávání, která se porovnávají se signálem na vstupu.

[42]a) Tzv. pasívní modely

Příkladem pasívního modelu, který se opírá o tradiční jazykovědnou analýzu, může být schematické znázornění procesu percepce řeči navržené L. V. Bondarkovou a kolektivem (1968) a prohloubené dále L. Čistovičovou a kolektivem (1976). Hierarchicky uspořádaný model platí pro procesy jak sluchové, tak i nervové. K zpracování v každém jednotlivém bloku dochází teprve po získání informace o výstupním signálu bloku předcházejícího. Každý následující blok je charakterizován menším počtem parametrů. První etapa rozpoznávání, tj. auditivní analýza, je (podobně jako ve většině jiných modelů) periferní vstupní analýzou řečového signálu v kategoriích psychoakustických.[3] Psychoakustických vlastností je podstatně více než abstraktních vlastností fonetických, které jsou východiskem pro fonetickou analýzu v podobě fonologických distinktivních rysů.[4] Při rozpoznávání řeči v mezilidské komunikaci prostřednictvím mluvené podoby jazyka se využívá jen části z celkové informace (tuto část označují sovětští badatelé jako „informaci užitečnou“). Zdánlivě zjednodušený model percepce řeči je pro sovětské autory procesem několikastupňové reprezentace vnějšího působení pomocí řeči. Představují jej jako řetěz:

ω_i → x_i → y₁ → ξ_i⁽¹⁾ → … ξ_i^(k) Ω_i
v němž
ω₁	patří do souboru zvukových signálů,
x_i	je elementem souboru {x₁} reprezentujícího první etapu rozpoznávání (soubor sluchových dojmů),
y_i	patří k souboru reprezentací v modulu řeči {y_i} — (element souboru „užitečných“ rysů pro řečový signál),
Ω_i	je elementem souboru poslední etapy. V řetězci x_i → y_i → Ω_i dochází k silné redukci informace.

Hierarchický systém zpracování řeči navrhl také A. M. Liberman a kol. (1967), Jistou předností Libermanova modelu je jeho univerzálnost. Týká se všech etap procesu zpracovávání informace spojených jak s generováním (směr shora dolů), tak i s vnímáním řeči (směr zdola nahoru). Konstrukce tohoto modelu se přibližuje pojetí Bondarkové i jiných badatelů, protože každá úroveň analýzy slouží k transformaci a překódování akustického vstupu na reprezentace stále abstraktnější (při percepci) a naopak: pojem se mění na fyzikální signál (při produkci řeči). Libermanův model s vydělenými úrovněmi analýzy, transformačními pravidly a také formami signálu na každé úrovni se ovšem opírá o jiná lingvistická kritéria. Východiskem byla autorovi gramatika generativní, nikoli tradiční.

Postupné zpracovávání informace chápané jako sled analýz v řadě bloků postupujících za sebou však vzbuzuje některé pochybnosti. I když jednotlivé etapy zpracování vytvářejí systém hierarchický, přece jen je třeba počítat s tím, že zpracování v modelu by mělo být jak postupné, tak i synchronní; rozhodnutí vyššího řádu musí ovlivňovat rozhodnutí na nižších úrovních zpracování řečového signálu (tuto skutečnost potvrzují např. i výsledky poslechových testů na ověření kvality syntetické řeči, a to pomocí logatomových tabulek, jejichž součástí jsou mj. i sla[43]biky na úrovni morfů kořenných, popř. i prefixových). Se sovětským systémem rozpoznávání je z hlediska využívání bloků analýzy srovnatelný model transformací postupujících od akustického signálu na výstup zprávy od Studderta-Kennedyho (1973). Tento badatel však propojuje etapu analýzy fonologické a morfonologické a navíc pak spojuje etapy sémantické a syntaktické analýzy s analýzou lexikální.

Jako lineární se velmi často pojímají ty procesy, které se týkají periferní analýzy signálu a vstupního rozpoznávání. Existují také hypotézy, že procesy, k nimž dochází v blocích lingvistického zpracování, mohou působit jisté modifikace při vnímání signálu, a to již při periferní analýze. Např. Cutting a Pisoni (1976) tvrdí, že jakkoli sluchový proces prakticky předchází každé zpracování fonetické, ve většině situací probíhají oba procesy při fungování systému současně. Také podle Libermana a kol. (1967) a řady jiných pracovníků probíhá sluchová a fonetická analýza současně, protože v každém časovém úseku podává akustický signál informaci o více než jednom fonému. Z uvedených důvodů vytvářejí někteří badatelé modely, v nichž se na úrovni akusticko-fonetické uplatňují tři systémy zpracování, částečně integrované a částečně nezávislé. Takové systémy předpokládají současnou identifikaci tří kvalitativně různých typů fonetické informace. Z řady dílčích výzkumů percepce řeči vyplývá, že k identifikaci signálu na vyšších úrovních jeho zpracování dochází mnohem rychleji než na úrovních nižších (např. Darwin, 1976; Rubin a kol., 1976 aj.).

Ještě v 70. letech zůstávalo zcela otevřenou otázkou, zda posluchač využívá svých znalostí o sémantice, syntaxi a fonologických pravidlech mateřského jazyka při dekódování auditivních vzorců a do jaké míry jich využívá paralelně nebo postupně. Na základě řady experimentálních prací (uskutečněných např. v Institutu fyziologie řeči I. P. Pavlova v Leningradě; výsledky většiny z nich jsou publikovány v pracích Čistovičové, Koževnikova aj. pracovníků tohoto ústavu) lze v současné době se stále větší jistotou počítat s tím, že zpracování lingvistických informací je s percepcí řeči do značné míry paralelní.

Modely vycházející z teze o synchronním průběhu některých procedur v percepci řeči využívají při vytváření systému několika souběžných transformací v jednom bloku, popř. zavádějí synchronní zpracování v několika blocích. Využívá se v nich zpětných vazeb (kdy transformace na výstupu určité etapy se projeví jako chybná a je vrácena zpět do nižších etap, aby se zpracovala znovu) i postupných zpracování (kdy informace v každém bloku se dekóduje jen částečně nebo nepřesně a v podobě neúplné informace se posílá do bloku následujícího).

Zpětných vazeb užívá ve svém modelu také Fant (1967) ve své sluchové teorii percepce řeči. Vychází z pojmu sluchových distinktivních rysů, které chápe jako subfonematické auditivní vzorce. Ty se navzájem spojují a vytvářejí fonémy, slabiky, slova i prozodémy. Na tomto základě konstruuje model, který obsahuje dvě zpětné vazby: jednu v oblasti periferní analýzy mezi zpracováním sluchovým (v centrálním nervovém systému člověka) a jeho sluchovým receptorem; druhá zpětná vazba je mezi posledním blokem přijaté zprávy a etapou lingvistické analýzy jednotek vyššího řádu. Poslední Fantův model (1973) představuje zobecněné schéma rozpoznávání. Model se skládá z pěti etap zpracování, které zahrnují: extrakci akustických parametrů, detekci mikrosegmentů, identifikaci fonetických elementů (fonetickou transkripci), identifikaci větné stavby (včetně identifikace slov), interpretaci sémantickou. V systému zavádí také komparátory, které umisťuje mezi jednotlivé etapy zpracování. V modelu se připouští i možnost bezprostředního spojení úrovní nejnižších a nejvyšších. Protože hlavním cílem Fantova modelu bylo vypracovat hypotetickou strategii automatického rozpoznávání řeči (které by mělo ve vztahu k přirozené percepci řeči jen pomocný charakter), byl model dále podrobně rozpracováván tak, aby co nejpřesněji určoval všechna přípustná spojení mezi všemi složkami systému.

[44]Všechny dosud uvedené modely vycházejí z předpokladu, že systém je pasívní. Nejčastěji se v nich pracuje s dvěma procedurami. Jednou z nich je srovnávání se vzorci, tj. standardizovanými reprezentacemi určité kategorie signálů uložených v paměti. Druhá procedura je tzv. filtrování, jehož podstatou je selekce informace postupující v blocích podle kritérií pravděpodobnosti výskytu určitých signálů. K pasívním systémům patří i některé modely, které berou v úvahu také paměťové procesy (paměť krátkodobou a dlouhodobou).

Jistým nedostatkem modelů opírajících se o porovnávání se vzorci je skutečnost, že se postupující segmenty zprávy definují převážně pomocí fyzikálních vlastností signálu. Akustická podoba fonetických segmentů je však značně proměnlivá, protože ji ovlivňuje kontext, rychlost mluvního tempa, přízvuk slovní i větný, individuální vlastnosti hlasu apod.

b) Tzv. aktivní modely

Východiskem konstrukce aktivních modelů percepce řeči je předpoklad, že se posluchač aktivně účastní komunikace z hlediska jak příjmu informace, tak i její produkce. Vychází se vesměs z tzv. motorické teorie percepce řeči, podle níž se při vnímání řeči kromě sluchového centra využívá i centrum motorické. Posluchač porovnává přijatý signál s třídami zvuků, které zná z vlastní artikulační zkušenosti (to ovšem neznamená, že se v procesu percepce řeči aktivizují vnější artikulační orgány). Sluchový analyzátor pro řečové podněty předává akustickou podobu řeči analyzátoru pohybovému, v němž jsou vyvolávány odpovídající artikulační struktury. Tím vzniká podstatná redukce informace obsažené v akustickém signálu a to pak umožňuje hodnotit rychlé sledy jednotlivých elementů řeči. Redukce informačního toku se tak uskutečňuje využitím povelových struktur produkce řečových jednotek, které je nutno dekódovat.[5]

Na základě výsledků dílčích i rozsáhlejších výzkumů se také zjistilo, že neproměnnost fonetických jednotek je mnohem větší na úrovni motorické než akustické (Čistovičová, 1979, ale už v starších pracích, srov. také Novotná, 1967).

Motorická teorie řeči byla v 60. a 70. l. předmětem živé diskuse. Např. Fant (1973) tvrdil, že nevidí žádný užitek v tom, bude-li se výzkum vyhýbat hledání charakteristických auditivních vlastností signálu a bude-li místo toho navrhovat artikulační rekonstrukci přijímaného signálu. Podle jeho mínění jsou motoricko-senzorické spoje potřebné hlavně na úrovni neperiferního zpracování signálu (v etapě analýzy zvukových vzorců slov).

Jedním z oponentů motorické teorie percepce řeči byl mj. Lane (zejména v práci z r. 1970). Několikrát polemizoval s tvrzením o zprostředkující úloze motorického činitele při percepci řeči a formuloval tři podmínky, které by měly být splněny, má-li tato teorie platit na všech úrovních signálu:

a) Podobné akustické signály vyvolávají různá percepční rozhodnutí, jsou-li vytvořeny různými artikulačními konfiguracemi.

b) Různé akustické signály vyvolávají podobné percepční dojmy, jsou-li vytvořeny podobnou konfigurací hláskového traktu.

c) Existují nepřetržité změny jak artikulačních, tak i akustických parametrů signálu; tyto změny v poměrech percepčních odpovídají změnám artikulačním.

V souvislosti s motorickou teorií percepce řeči se uskutečnilo velmi mnoho různě pojatých experimentálních prací, jejichž cílem bylo ověřit její platnost. Shrneme-li [45]je dnes s odstupem času, je třeba říci, že motorickou teorii percepce řeči v plné míře ani nepotvrdily ani ji zcela nevyvrátily. Např. v pracích badatelů Institutu fyziologie řeči v Leningradu některé výsledky motorickou teorii potvrzují, např. člověk rozpoznává řečový signál, rozlišuje samohlásky a souhlásky a tím, že určuje souřadnice zvuku na úrovni motorických povelů, může s minimálním časovým zpožděním imitovat uslyšený signál; to znamená, že existuje velmi rychlý přechod od povelů auditivních k motorickým apod. Jiné práce však tuto teorii vyvracejí, např. děti dříve rozumějí řeči než samy mluví, osoby od narození němé rozumějí řeči. Nehledě k některým argumentům však motorická teorie percepce řeči zatím neztratila zcela svou platnost. V její prospěch mluví řada aktuálních výzkumů neurofyziologických i z oblasti psychiatrie (týkající se hlavně zkoumání motoriky hláskovacího traktu při vytváření vnitřní řeči).

Tvůrcem jiné teorie percepce řeči, aplikované zejména v oblasti automatického rozpoznávání řečového signálu, je K. N. Stevens a A. S. House (1972). Jde o teorii analýzy syntézou, podle níž nervové povely nejsou natolik invariantní, aby mohly být východiskem fonematického dekódování signálů. V modelech vypracovaných na základě této metody se pracuje tak, že se porovnávají signály na úrovni časových změn akustického spektra řeči. Vzorce se generují analyzátorem v závislosti na sledu instrukcí až do momentu, kdy se získává optimální shoda se vstupním signálem. Jde o model rozpoznávání řeči dnes už klasický (i když v průběhu posledních let různě modifikovaný); pracuje s centrálním blokem, kterým je systém řízení obvykle spojen s blokem vstupní analýzy, s blokem generativních pravidel, s komparátorem, který porovnává výsledky zpracování s periferní analýzou, se slovníkem a s pamětí (skladem) výsledků předcházejících analýz. Periferní proces začíná spektrální analýzou v periferním bloku. Generativní pravidla fungují podle abstraktní matrice rysů společných pro produkci i percepci řeči.[6]

Z aktivních modelů je pozoruhodný také systém tzv. bezprostředního lexikálního přístupu, který klade hlavní důraz na rozpoznávání slov. Jeho autoři Marslen-Wilson a Welsh (1978) se opírají o výsledky série výzkumů (zabývali se mj. i zjišťováním slovní a větné srozumitelnosti řečového signálu při přenosu) a vycházejí z hypotézy, že existuje možnost bezprostředního řízení lexikální interpretace fonetického vstupu. Po periferní analýze následuje zpracování akusticko-fonetické. První dva nebo tři fonémy daného slova jsou dekódovány a potom následuje paralelní aktivizace celé třídy slovních hypotéz, přičemž akusticko-fonetická informace je zároveň ukládána do paměti lexikálních elementů. Každý prvek lexikální paměti je aktivní jednotkou přetvářející a generující potenciální vzorová slova. Systém je tedy decentralizovaný. Potenciální lexikální elementy (se zřetelem na počáteční informace) se aktivizují v momentu, kdy se v signálu objeví element vhodný ke sloučení s reprezentacemi vnitřními. Lexikální elementy paměti obsahují informace o odpovídajících kontextových podmínkách (procedura sestupná), což dovoluje určit, zda se slovo hodí do daného úseku promluvy. Není-li tomu tak, aktivizace odpovídající části paměti okamžitě zaniká. Počet aktivizovaných slov se v modelu redukuje postupně, až do momentu správného rozhodnutí. Zásada výběru prostřednictvím selektivní aktivizace paměti ve spojení s procedurou sestupnou je poměrně efektivnější než např. pasívní model Mortonův (1971), který funguje méně restriktivním způsobem.

Orientace v značném počtu dosavadních modelů percepce řeči a jejich formální rozlišení na tzv. modely pasívní a modely aktivní není vždy jednoduchá.[7] Některé [46]z nich představují řešení kompromisní: procedury filtrování se v nich doplňují s aktivním vyrovnáváním se vzorci uloženými v paměti.[8] Záleží také na tom, zda cílem navrhovaného modelu percepce řeči je řešení problematiky jejího automatického rozpoznávání nebo přenosu a ověřování srozumitelnosti syntetického řečového signálu (na úrovni různých jednotek segmentálních i suprasegmentálních) apod. Důležité však je, že se téměř ve všech modelech percepce řeči, a to bez zřetele na jejich teoretická východiska a praktické zaměření, počítá s lingvistickou analýzou informací. Vychází se v nich obvykle z předpokladu, že v procesu percepce řeči člověk extrahuje z akustického signálu všechny lingvistické jednotky (nebo alespoň většinu jich), a to od alofónu až po větu (ve smyslu dané syntaktické struktury). Jde tedy o jednotky vydělené a definované jazykovědou. Počítá se s tím, že člověk reaguje na zvukové sledy percipovaných komunikátů na základě vlastní znalosti jazyka, kterou získal v průběhu jeho osvojování.

Výzkumy přirozeného procesu percepce řeči a jeho modelování dávají stále přesnější přehled o tom, jak člověk získává a osvojuje si znalosti o jazyce. Zatím však není ještě možné s jistotou odpovědět na otázku, zda se subjektivní zkušenosti uživatelů jazyka shodují s objektivním popisem jazykových jevů (i když se v některých pracích můžeme setkat s tvrzením, že lingvistický systém je prostě popisem toho, co člověk vnímá, např. Liberman a kol., 1967; Marslen-Wilson, 1980).

V oblasti psycholingvistiky se dosud uskutečnilo jen poměrně málo důkladnějších, komplexněji pojatých výzkumů. Kromě toho existují také některé kontroverzní definice takových základních lingvistických jednotek, jakými jsou např. foném, slabika, popř. i slovo. A protože jednotlivé etapy zpracování jazykových informací v procesu percepce řeči mají ve většině modelů názvy, které přímo vycházejí z jednotek lingvistické analýzy (analýzy morfologické, lexikální apod.), odrážejí se tu různé lingvistické přístupy také v různém pojetí percepce řeči.

LITERATURA

BONDARKO, L. V.: Zvukovoj stroj sovremennogo russkogo jazyka. Moskva 1977.

BONDARKO, L. V. - ZAGORUJKO, N. G. - KOŽEVNIKOV, V. A. - MOLČANOV, A. P.: Modeľ vosprijatija reči čelovekom. Novosibirsk 1968.

BOROVIČKOVÁ, B. - MALÁČ, V.: K automatické identifikaci řeči počítačem. Slaboproudý obzor, 26, 1965, s. 385—390.

BOROVIČKOVÁ, B. - MALÁČ, V.: Nové směry ve výzkumu explozív. SaS, 35, 1974, s. 307—315.

CUTTING, J. - PISONI, D.: An information-processing approach to speech perception. Report of speech research. Haskins laboratories, 48, 1976, s. 287—326.

ČISTOVIČ, L. A.: Problems of speech perception. In: Form and substance. Eds. L. Hammerich - R. Jakobson - E. Zwirner. Copenhagen 1971, s. 83—93.

ČISTOVIČ, L. A.: Auditory processing of speech. Proceed. of IXth congr. of phonetic sciences, vol. 1. Copenhagen 1979, s. 41—48.

ČISTOVIČ, L. A. - VENCOV, A. V. - GRANSTREN, P.: Vosprijatije reči čelovekom. Leningrad 1976.

DARWIN, C. J.: The perception of speech. Handbook of perception, vol. 7. New York 1976, s. 175—226.

[47]FANT, G.: Auditory patterns of speech. In: Proceed. of the sympos. on models for perceptoni of speech. Cambridge, Mass. 1967, s. 111—125.

FANT, G.: Speech sounds and features. Cambridge, Mass. 1973.

FOSS, D. J. - SWINNEY, D. A.: On the psychological reality of the phonemics perception, identification an dconsciousness. Journal of verbal learning and verbal behaviour, 12, 1973, s. 246—255.

FUJIMURA, O.: Some remarks on the analysis-by-synthesis as a model of speech perception. Zeitschrift f. Phonetik, Sprachwissenschaft und Kommunikationsforschung, 21, 1968, s. 48—52.

HŮRKOVÁ, J.: Zvuková stránka řeči a její analýza. In: Analýza, syntéza a rozpoznávání řeči. Vědeckotechnická společnost. Praha 1985, s. 1—17.

LANE, H.: Production et perception de la parole: rapports et différences. In: Nouvelles perspectives en phonétique. Université libre de Bruxelles, Conférences et Travaux 1, 1970, s. 87—114.

LIBERMAN, A. M. - COOPER, F. S. - HARRIS, K. S. - STUDDERT-KENNEDY, M.: Some observations on a model for speech perception. In: Models for perception of speech and visual form. Ed. W. Wathen-Dunn. New York 1967, s. 68—87.

LURIJA, A. N.: Problemy i fakty nevrolingvistiki. Moskva 1968, s. 198—218.

MARSLEN-WILSON, W. D.: Speech understanding as a psychological process. In: Spoken language generation. Ed. J. C. Simon. Dordrecht 1980, s. 39—67.

MARSLEN-WILSON, W. D. - WELSH, A.: Processing interactions and lexical access during word recognition in continuous speech. Cognitive psychology, 10, 1978, s. 29—63.

MASSARO, D. W.: Perceptual images, processing time, and percentual units in auditory percpetion. Psychologics review, 79, 1972, s. 124—145.

MLUVNICE ČEŠTINY 1. Fonetika. Praha 1986.

MORTON, J.: A functional model for memory. In: Models of human memory. Ed. D. A. Norman. New York 1971, s. 203—252.

NOVOTNÁ, J.: Leningradské výzkumy percepce řeči a její rozpoznávání. SaS, 28, 1967, s. 291—295.

PISONI, D. B.: Stages of processing in speech perception. VIIIth congr. of phonetic sciences. Abstracts of papers. Montreal 1975, s. 231.

PISONI, D. B.: Speech perception. Handbook of learning and cognitive processes. Ed. W. K. Estes. Vol. 6. Hillsdale 1978, s. 167—233.

PROCEEDINGS OF XIth CONGRES OF PHONETIC SCIENCES. Tallin 1987. (Dále: Proceedings of XIth Congr., 1987.)

RUBIN, P. - TURWEY, K. - GELDER, P.: Initial phonemes are detected faster in spoken words than in spoken non-words. Perception and psychophysics, 19, 1976, s. 394—398.

STEVENS, K. N. - HOUSE, A. S.: Speech perception. In: Foundations of modern auditory theory. Ed. J. Tobias. New York 1972, s. 3—61.

STUDDERT KENNEDY, M.: The perception of speech. Current trends in linguistics, 12, 1973, s. 2349—2385.

UHLÍŘ, J.: Problematika rozpoznávání a rozumění řeči. In: Analýza, syntéza a rozpoznávání řeči. Vědeckotechnická společnost. Praha 1985, s. 65—79.

[1] Na důležitost brát v úvahu při percepci řeči také procesuální charakteristiku motivace pokusných osob (zvláště motivační selhání) a jejich postojovou orientaci upozorňovali ve svých pracích Borovičková - Maláč (např. 1974).

[2] První modely nepostihly proces vnímání řeči v jeho celistvosti. Technická realizace nepočítala s rovinou sémantickou. V první fázi výzkumu automatického rozpoznávání řeči šlo většinou o poznatelnost povelů na úrovni izolovaných slov a jednoduchých vět. — O aktuálním stavu automatického rozpoznávání řeči zaměřeného zejména na číslicové systémy srov. u Uhlíře, 1985.

[3] Pod pojmem periferní analýza se obvykle chápe fungování vnějšího sluchového orgánu i etapa zpracování signálu v hlemýždi. Tento proces se považuje za automatický a neuvědomělý. Někteří badatelé liší dvě etapy periferní analýzy: akustický vstup do kanálu a mechanický vstup do vnitřního ucha.

[4] Sovětští autoři nedefinují distinktivní rysy v pojmech akustických (srov. např. i Bondarková, 1977). Jednotlivé parametry ve fonetickém bloku zpracování signálu jsou podle nich bližší klasickému popisu distinktivních rysů v jeho motorickém pojetí.

[5] Psychologicky je tato teorie založena na interiorizaci významu, na transformaci vnější řeči do plánu řeči vnitřní. Jde zvláště o práce Lurijovy (např. 1968).

[6] Z podobného pojetí modelu percepce řeči vycházejí i některé práce z oblasti výzkumu percepce řeči prezentované na posledním kongresu fonetických věd v Tallinu (srov. Proceedings of XIth Congr., 1987).

[7] Autorka této studie jich v dostupné literatuře napočítala celkem 29.

[8] V diskusi na sympoziu o percepci řeči, které se uskutečnilo v rámci XI. mezinár. kongr. fonetických věd v Tallinu, se objevovalo konstatování, že model vnímání řeči by měl využívat obou způsobů zpracování řečového signálu. Odpovídalo by to i některým hypotézám o procesu percepce řeči člověkem; např. procedura aktivního porovnávání se vzorci může převažovat v procesu osvojování jazyka, zatímco při percepci řeči dospělou osobou se uplatňuje spíše procedura filtrování.

Slovo a slovesnost, ročník 51 (1990), číslo 1, s. 39-47

Předchozí Petr Sgall: Ke studiu jazykového systému

Následující Milan Malinovský: O tzv. disjunktech

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: