Marie Těšitelová
[Rozhledy]
Немецкая работа по синтаксической статистике / Un ouvrage allemand sur la statistique syntaxique
Syntaktická statistika, která patří k dosud poměrně málo propracovaným oblastem gramatické statistiky, resp. kvantitativní lingvistiky,[1] byla v poslední době obohacena o významnou německou práci Ch. Höhneové-Leskové.[2] Zvlášť je třeba podtrhnout, že se autorka věnovala statistickému studiu syntaktických jevů především současné mluvené němčiny (tzv. Gebrauchssprache), tedy oblasti v rámci syntaktické statistiky velmi málo probádané, a své výsledky pak srovnávala s výsledky statistického studia syntaxe současné němčiny psané. Tento fakt sám je z hlediska věcného i metodologického velmi záslužný.
Autorka vyšla ve své práci z hypotézy, že v syntaktických strukturách mluvené a psané současné němčiny existují rozdíly, které lze potvrdit nebo vyvrátit užitím kvantitativních metod. Pokusila se o to na materiále 10 000 větných úseků (Satzabschnitte); k nim řadí (1) větu jednoduchou, (2) tzv. syntakticky ne plně formované věty (Setzungen) typu Alles in Ordnung! (v našem pojetí věty jednočlenné neslovesné), (3) závislé syntaktické jednotky (věty vedlejší, ale i vazby infinitivní a participiální, srov. dále). Soubor větných úseků autorka získala analýzou 50 textů jazyka mluveného a 50 textů jazyka psaného. Pokud jde o texty jazyka mluveného, byly zvoleny vědomě projevy monologické, nikoli dialogické, aby se vytvořila možnost srovnávat je s projevy psanými, získanými z oblasti tzv. věcné prózy,[3] které jsou rovněž v podstatě projevy monologické. Statistické analýze byly podrobeny souvislé části textů po 100 větných úsecích (celkem o rozsahu 43 292 slov z projevů mluvených, 58 410 slov z projevů psaných). Mluvené projevy byly nahrávány na magnetofonové pásky a přepisovány; vybráni byli mluvčí s různou sociální příslušností, různého stáří i krajové příslušnosti. Psané texty byly získány z odborné literatury, kam jsou zařazeny i učebnice a odborné články z tisku. V obou skupinách textů kladla autorka důraz na zachovávání normy: dodržení této zásady v textech mluvených se však nezdá dost přesvědčivé, jak ostatně ukazují i ukázky uvedené na s. 149n. Na druhé straně je ovšem norma otevřeným problémem v syntaxi mluvených projevů vůbec.[4] Autorka se však touto otázkou hlouběji nezabývá.
Při volbě metody vyšla autorka z hypotézy, že se ne vždy jasně cítěné rozdíly mezi projevy mluvenými a psanými projevují v jistých zákonitostech jejich formální struktury, kterou lze kvantitativně postihnout zejména frekvencí, distribucí a závislostí tvarů slov. Proto se rozhodla užít ve své práci kvantitativních metod, čítání, měření, počtu pravděpodobnosti apod. Velmi dobře tak ukázala, že kvantitativní metody nepředstavují v její práci pouhý pomocný prostředek, nýbrž že jejich užití vyplývá nutně z jazykových zákonitostí. Autorka se snažila i zasadit svůj výzkum mezi práce aplikující statistické metody při studiu jazykových jevů. Omezila se při tom v podstatě jen na práce Herdanovy, Eggersovy, Fucksovy, Yulovy, Lesskisovy, Admoniho a Winterovy. Jiné práce z oblasti syntaktické statistiky neuvádí, ačkoli např. v sovětské lingvistice bylo této problematice věnováno hodně pozornosti.[5] V širším rámci kvantitativní lingvistiky, kam se autorka snažila svou práci zařadit, [166]zmiňuje se navíc celkem jen o M. Cohenovi a P. Guiraudovi. Ačkoli v daném kontextu zařazení není podstatné a není ani nutné, autorčino řešení neuspokojuje, naprosto nevystihuje stav kvantitativní lingvistiky.
Jako syntaktické znaky zvolila autorka pro svůj výzkum tyto jevy: (1) délku věty, (2) strukturu věty (věta jednoduchá, věta jednočlenná neslovesná (Setzung), souvětí), (3) délku větných úseků (kromě věty jednoduché a jednočlenné věty neslovesné sem řadí tzv. závislé větné úseky, srov. dále), (4) délku slov ve slabikách, (5) počet závislých větných úseků (vedlejší věty, zvl. atributivní, konstrukce infinitivní a participiální), (6) rozdělení funkcí závislých větných úseků (zejm. věty subjektové, objektové, predikativní, adverbiální, atributivní a některé zvláštní kategorie vět, tzv. navazující (weiterführende Satzabschnitte typu Mutter mußte immer wieder Märchen erzählen, was sie auch gerne tat) apod.), (7) rozdělení forem závislých větných úseků (postavení slovesa na konci věty (Spannform), na začátku věty (Stirnform), na druhém místě ve světě (Kernform), dále konstrukce infinitivní a participiální, jednočlenné věty typu Achtung!), (8) rozdělení spojovacích výrazů (typu der, die, das, daß apod.), (9) počet substituovaných atributivních částí (substantiva nebo skupina slov ve funkci přívlastku, srov. Gegenstände für den Bedarf der Bevölkerung = Gegenstände, die dem Bedarf dienen, den die Bevölkerung hat), adjektivní atribut (ein neues Haus = ein Haus, das neu ist), adverbiální atritut (das Haus dort = das Haus, das dort steht), determinativní složeniny typu Klebepaste (= Paste zum Kleben), blauäugig (= mit blauen Augen apod.), (10) rozdělení tvarů substituovaných atributivních částí, (11) informační obsah vět. — Uvedené jevy podrobuje jednak analýze (z hlediska aplikace kvantitativních metod se projevuje jako uvádění absolutních a relativních četností, dále středních hodnot, intervalu, směrodatné odchylky a pravděpodobné chyby), jednak syntéze (studují se souvislosti mezi jednotlivými znaky a jejich vzájemné působení s využitím zejména testu χ2, faktorové analýzy, korelací s regresívní analýzou). — Uvedená fakta tvoří náplň prvé části práce.
Druhá část práce se týká stavu a analýzy kvantitativních dat o výše uvedených jevech. Uvádějí se jednak data (zejména střední hodnoty a intervaly) o celých analyzovaných souborech jazyka mluveného a psaného, jednak data o třech skupinách vybraných z jednotlivých souborů po uspořádání zkoumaných jevů podle klesající frekvence; jde o skupinu prvních 10 nejfrekventovanějších jevů, o skupinu střední (s pořadím 21—30), třetí skupinu tvoří 10 nejméně frekventovaných jevů. Výhodou tohoto postupu je i možnost detailně analyzovat jednotlivé texty.
Jako ukázku uvedeme dále několik dat o zkoumaných syntaktických jevech. Byla např. zjištěna střední délka věty v mluvených projevech (13—14 slov), v psaných projevech (19—20 slov). Ve zmíněných 3 skupinách je průměrná délka věty pro mluvené texty (ve skupině I. 9,4 slov, II. 12,1 slov, III. 20. slov), pro psané texty (ve skupině I. 14,1 slov, II. 18,5 slov, III. 27,7 slov). Pokud jde o strukturu věty, ukazuje se v projevech mluvených velký podíl vět jednoduchých (65,23 %, v projevech psaných 53,11 %), na souvětí připadá 32,18 % (v projevech psaných 45,67 %). — Průměrná délka slova ve slabikách je v projevech mluvených 1,55—1,65 slabik, v projevech psaných 1,9—2 slabiky. — Z tzv. závislých větných úseků mají v projevech mluvených i psaných nejvyšší frekvenci (i když v jednotlivých projevech rozdílnou) vedlejší věty (v mluvených textech 18,60 %, v psaných textech 21,40 %), zvl. atributivní (v mluvených textech 11,06 %, v psaných textech 16,34 %). — Pokud jde o funkci závislých větných úseků, převládají v obou druzích projevů vedlejší věty ve funkci subjektu, objektu, predikátu a adverbiálního určení (v projevech mluvených 58 %, v projevech psaných 54 %). Na druhém místě jsou v obou případech atributivní vedlejší věty, opět s rozdílnou frekvencí (v textech mluvených 35 %, v textech psaných 41 %). Co se týče frekvence jednotlivých vedlejších vět jakožto závislých větných úseků, má v obou druzích projevu nejvyšší frekvenci funkce objektu, v mluvených textech nižší (29,1 %) než v psaných textech (35,9 %). — Při sledování forem závislých větných úseků má jasné prvenství forma s postavením určitého slovesa na konci věty (v mluvených [167]textech v 83,3 %, v psaných textech v 77,2 %). — Atribut bývá v mluvených projevech nejčastěji vyjadřován adjektivem (29,7 %), v psaných projevech naopak substantivem, resp. přívlastkem neshodným (88,7 %). — Pro náležité posouzení těchto dat bylo by třeba srovnat je s výsledky analogických prací a to dosud — bohužel — možné většinou není. Autorka se o to pokouší zejména u prací Winterových.[6]
Ve třetí části práce je obsaženo zhodnocení dosažených výsledků z hlediska jednak matematické statistiky, jednak lingvistiky.
Hodnocení matematickostatistické prováděl matematik W. Jahn (z matematické sekce univerzity v Lipsku). Výsledky, k nimž autorka došla zkoumáním jednotlivých syntaktických znaků, zhodnotil hledáním zákonitostí v jejich vztazích. Užil při tom metod výše zmíněných, testu χ2, faktorové analýzy a korelačního počtu spolu s analýzou regresní. Výpočty byly prováděny na samočinném počítači.
Jako nejdůležitější znak byla na základě matematickostatistického šetření vyhodnocena průměrná délka věty, protože ostatní zvolené znaky jsou v ní obsaženy. Je označena jako základní veličina, ostatní jako veličiny n-tého řádu (Einflußgröße), a to primární (průměrný počet tzv. závislých větných úseků a tzv. větných úseků), sekundární (průměrný počet větných úseků jakožto větných členů, atributivních větných úseků a členů nahrazujících atributivní části) a terciární (průměrný počet kompozit ve funkci atributivní, průměrný počet přívlastků substantivních, popř. přívlastků vyjádřených skupinou slov, a přívlastků vyjádřených adjektivem). Užití jednotlivých matematickostatistických postupů je v práci podrobně popsáno, celkem způsobem běžným v příslušné odborné literatuře.
Hodnocení lingvistické bylo prováděno podle jednotlivých jevů, a to vždy odděleně pro texty mluvené a psané a potom ve vzájemném srovnání. Autorka došla při tom k závažným závěrům týkajícím se především současné němčiny mluvené a psané, ale i k závěrům, které mohou mít platnost obecnější. Mimo jiné zjistila, že vzhledem k různé podstatě zvolených syntaktických jazykových jevů existují různé zákonitosti v jejich užívání a ty pak vedou k různým posunům v jazykové struktuře. Na základě aplikace kvantitativních metod se autorce podařilo postihnout frekvenci, rozdělení i korelace syntaktických jevů a vytvořit modely, které objasňují kvalitativní rozdíly mezi strukturou mluveného (monologického) a psaného jazyka. Tak syntaktickou analýzou monologických projevů mluvených došla k stanovení tří vrstev: (I.) vrstva vzdálená od projevů psaných, (II.) vrstva vzniklá jakýmsi křížením syntaktických funkcí mluvených projevů se syntaktickými funkcemi projevů psaných, (III.) vrstva blízká projevům psaným.
Syntaktická struktura všech vrstev monologického mluveného jazyka vykazuje shody, v nichž se zřejmě projevují zákonitosti ústní komunikace. Shodné znaky jsou v tomto případě označovány jako znaky obligatorní. Jsou to např. vysoká frekvence redundantních tvarů (opakování některých slov, dvojí zápor, výrazy afektu, úvodní i závěrečné formule, anakoluty, opisy, tautologie apod.), nízká frekvence atributivních částí (zvl. vyjádřených substantivy) a konečně volné připojování, které vyžaduje postupné rozvíjení myšlenky, a tendence k redundanci. Ostatní znaky jsou označeny jako fakultativní, tj. takové, jejichž volba umožňuje rozlišení jednotlivých vrstev v projevu, např. krátké jednoduché věty v parataktickém řazení, složitá souvětí s atributivními větnými úseky apod. — V psaných textech se však autorce nepodařilo postihnout jednotlivé vrstvy, i když jisté „náběhy“ byly i zde zjištěny. Ukazuje se, že tu jisté zákonitosti plynou z funkce a obsahu textů a že silným prvkem je tu lexikální výběr. To celkem odpovídá i našemu zjištění.[7]
[168]Jako čtvrtá část jsou k práci připojeny tabulky obsahující shrnutí studovaných znaků projevů jednak mluvených, jednak psaných. Kromě toho je tu uveden seznam textů, jejich ukázky, u textů mluvených ukázky jejich přepisu (podotýkám, že nejde — pochopitelně — o přepis fonetický). Dále je tu připojen seznam literatury a ve zvláštním seznamu terminologické vysvětlivky a zkratky. Pokud jde o literaturu kvantitativní lingvistiky, uvedla jsem své připomínky na s. 165. Co se týče lingvistické literatury, zná autorka Pražský lingvistický kroužek z 30. let, a to zejména z prací B. Havránka týkajících se spisovného jazyka a z práce J. Vachka o psaném jazyce. Terminologický seznam, resp. „slovníček“ termínů a zkratek, považuji za velmi užitečný, ba nezbytný pro orientaci v práci; ta by byla jinak velmi nesnadná, jak to ostatně v kvantitativních pracích opírajících se o bohatý materiál velmi často bývá.
Samostatnou přílohu práce pak tvoří 30 grafů, které zvyšují její názornost a informační hodnotu. Zvláštní zmínky zaslouží prostorové modely (obr. č. 27 a 28), které ukazují vztahy syntaktických struktur projevů mluvených a psaných.
Recenzovaná práce znamená významný vklad do oblasti kvantitativní lingvistiky, zejména pak pro syntaktickou statistiku, zvláště vzhledem k studiu syntaxe projevů mluvených. Právem lze souhlasit s oddělením monologu od dialogu porovnáním s výsledky kvantitativní analýzy tzv. věcné literatury. Pokud jde o výběr syntaktických jevů, které byly podrobeny kvantitativnímu studiu, lze ovšem vyslovit pochybnosti týkající se zejména pojmu větného úseku a tzv. závislého větného úseku, který není vždy dost jasně vymezen vzhledem k větě vedlejší (většinou se s ní kryje) a k větnému členu (srov. výše). To ovšem souvisí s nesnadným vymezováním syntaktických jevů, zejména při aplikaci kvantitativních metod. Tím více zaslouží uznání, že se autorka snažila zachytit i případy, kdy může být v určení syntaktického jevu kolísání (např. přísl. určení časové nebo podmínkové, s. 64 aj.). — Dále je otázka, zda mezi syntaktické jevy patří délka slova vyjadřovaná ve slabikách. Autorka ukázala při vymezování vrstev monologického mluveného jazyka, že v první vrstvě je asi 70 % slov krátkých (jednoslabičných), v druhé vrstvě asi 60 % těchto slov (jinak je tu průměrná délka slova 1,6), ve třetí vrstvě je jednoslabičných slov 50 % (průměrná délka slova 1,9). Podle mého mínění týká se délka slova primárně stránky lexikální a morfologické, nikoli syntaktické, i když je s ní přirozeně těsně spjata, zejména tzv. slovy formálními, zvl. předložkami, spojkami a zájmeny,[8] v němčině pak i členem.
Při vymezování pojmu jazyka mluveného a psaného a jejich vzájemného vztahu užívá autorka některých pojmů teorie informace a jimi posuzuje i informaci jazykovou. Tyto pojmy však zůstávají dále celkem na okraji práce, jak se ostatně ukazuje i v závěru, kdy se autorka snaží hodnotit informační obsah věty (Informationsgehalt), nikoli však ve smyslu teorie informace. Nezdá se pak v dané situaci nutné tyto pojmy zavádět.
Na závěr je třeba konstatovat, že kvantitativní syntaktická studie Ch. Höhneové-Leskové by zasloužila následování i v jiných jazycích; pro studium jazyka mluveného může být po mnoha stránkách vzorem.
[1] Srov. M. Těšitelová, Kvantitativní lingvistika, skripta FF UK, v tisku.
[2] Christel Höhne-Leska, Statistische Untersuchungen zur Syntax gesprochener und geschriebener deutscher Gegenwartssprache (Mit 3 Abbildungen im Text und 30 Abbildungen als Beilage), Abhandlungen der Sächsischen Akademie der Wissenschaften zu Leipzig, Philol.-hist. Klasse, Band 59, Heft 1, Akademie-Verlag, Berlin 1975, 164 s. + 30 grafů.
[3] Srov. např. J. Mistrík, Žánre vecnej literatúry, Bratislava 1975; rec. v SaS 38, 1976, 344—345.
[4] K tomu srov. např. sov. sb. Sintaksis i norma (red. G. A. Zolotovová), Moskva 1974, zvl. stať O. A. Laptevové Normativnost’ nekodificirovannoj literaturnoj reči, s. 5—42.
[5] Např. sb. Russkaja razgovornaja reč, Saratov 1970; tam srov. např. stať O. B. Sirotininové Nekotoryje sintaksičeskije osobennosti razgovornoj reči, s. 141—148.
[6] Srov. W. Winter, Relative Häufigkeit syntaktischer Erscheinungen als Mittel zur Abgrenzung der Stilarten, Phonetica 7, 1961, s. 197n.
[7] Srov. M. Těšitelová, Otázky lexikální statistiky, Praha 1974, zvl. s. 48n.
[8] K tomu srov. v mé stati On the Frequency of Function Words, PSML 5, 1976, 9—28.
Slovo a slovesnost, ročník 38 (1977), číslo 2, s. 165-168
Předchozí Jana Jiřičková: Problémy gramatiky textu v německém sborníku
Následující Bohuslav Havránek: Poznámky k padesátiletému jubileu rozhlasu a rozhlasové hry
© 2011 – HTML 4.01 – CSS 2.1