Časopis Slovo a slovesnost
en cz

Polský úvod do kvantitativní lingvistiky

Jiří Kraus, Ludmila Uhlířová

[Rozhledy]

(pdf)

Польское введение в квантитативную лингвистику / Introduction à la linguistique quantitative publiée en Pologne

Populární úvody do kvantitativní lingvistiky, které v posledních letech vycházejí v různých zemích,[1] vznikají většinou jak z potřeb poskytnout posluchačům filologických směrů vhodnou studijní příručku, tak s cíli populárně vědeckými. Současně s popularizací a propagací nových metod dochází ovšem i k jejich systematickému a kritickému zhodnocování a zapojování nových poznatků získaných statistickými metodami do soustavy znalostí o jazyce.

K napsání knihy Słowa i liczby J. Samborové (Wrocław-Warszawa-Kraków-Gdańsk 1972, 306 s.) byly impulsem přednášky o kvantitativní lingvistice, [330]které autorka koná na varšavské universitě od šk. roku 1968/69. Předpoklady, které pro sepsání knihy měla, jsou dány jednak důkladným statistickým školením (absolvovala kromě fakulty filosofické také fakultu ekonomickou), dále mimořádným pedagogickým talentem a schopností jasně uspořádat výklad (jak jsme měli možnost se o tom přesvědčit i při její návštěvě v Praze) a v neposlední řadě i bohatými zkušenostmi z více než desetileté intenzívní badatelské činnosti v oboru. Kromě řady článků napsala knihu Badania statystyczne nad słownictwem[2] a je spoluautorkou nedávno vyšlého prvního dílu polského frekvenčního slovníku (další díly jsou v tisku). Po přečtení její knihy Słowa i liczby je čtenář o mnohostranných vztazích mezi „slovy“ a „čísly“ v jazyce dobře a všestranně poučen; žádná oblast jazykovědného zájmu, v níž někdy došlo k aplikacím statistických metod, nezůstala opomenuta. Zvláštní důraz je položen na obor, který je autorčině vědeckému zájmu nejbližší, který má v lingvistice nejdelší tradice a v němž se v současné době statistické metody uplatňují nejvíce, totiž na lexikální statistiku.

Podobně jako každá učebnice má i tato kniha ráz přehledu. Informuje jak o historii statistické lingvistiky, tak zejména o současném stavu bádání a o nejdůležitějších pracích z oboru (ne vždy dostupných polskému čtenáři). Promyšlená je koncepce výkladu, kritický komentář k problematice i k literatuře, zajímavé jsou i četné příklady, které namnoze vznikly jako výsledek autorčina vlastního výzkumu. Na mnoha místech je právem zdůrazněno, že statistické metody představují jen jeden z možných způsobů bádání, který poskytuje novou interpretaci jazykových jevů a dává potvrzení intuitivním odhadům; analýza kvantitativní je tak vždy podložena přístupem kvalitativním.

Kniha má dvě části. První je zaměřena více teoreticky, zejména na metodiku sestavování frekvenčních slovníků a na statistické modelování jazykových jevů vůbec. Část druhá přináší přehled aplikací statistiky v různých lingvistických oblastech. Protože mezi teoretickou analýzou a praktickou aplikací lze těžko vést přesnou dělící čáru, jsou mezi oběma částmi knihy těsné vazby, formálně vyjádřené již tím, že jednotlivé kapitoly jsou číslovány v obou částech průběžně. Toto řešení však není vždy šťastné, protože některá témata se překrývají, objasňují na různých místech knihy z odlišných hledisek a to u práce učebnicového typu může příležitostnému uživateli vadit.

Nejrozsáhlejší kapitola první části knihy je věnována podrobnému výkladu všeobecných teoretických zásad budování frekvenčních slovníků, neboť právě frekvenční slovníky jsou východiskem dalších lexikálně statistických výzkumů. Tyto zásady se týkají kánonů textů, rozsahu materiálu, výběru jednotky a číselných parametrů slovníku. Např. výběr textů tvořících základ frekvenčního slovníku musí splňovat jednak tzv. podmínku homogennosti z hlediska teritoriálního, chronologického a sociálně kulturního (musí tedy zahrnovat pouze texty původní, nikoli překlady, texty psané a mluvené musí být zpracovány odděleně ap.), jednak podmínku heterogennosti materiálu, spočívající v nutnosti zastoupení různých funkčních stylů a různých oblastí lexika. Rozsah materiálu záleží v první řadě na účelu slovníku; výpočet optimálního rozsahu výběru ve vztahu ke spolehlivosti frekvenčních údajů závisí na řadě parametrů vyjádřitelných matematickými vzorci (je uváděn známý vzorec Frumkinové).[3] Podrobně jsou vyloženy i různé možnosti výpočtů základních číselných charakteristik frekvenčních slovníků, totiž četnosti (absolutní a relativní), disperze (ukazující rozložení frekvencí slova v jednotlivých stylech) a užití (míru [331]všeobecnosti slova, vyplývající ze vztahu frekvence a disperze). Na základě hodnot těchto charakteristik lze klasifikovat slovní zásobu do několika vrstev od výrazů nejfrekventovanějších až po velmi řídké.

Mimo frekvence objektivně zjištěné a statisticky zhodnocené lze zjišťovat také tzv. psychologickou pravděpodobnost slov (kap. 3). Je to pravděpodobnost připisovaná slovu intuicí mluvčího, která je založena na předpokladu, že v lidské paměti je zakódován slovník slov a jejich frekvencí v základě v hierarchickém uspořádání, přičemž slova s vysokými pravděpodobnostmi jsou uložena v jiné sféře paměti než slova řídká. Vztahy mezi psychologickou pravděpodobností a objektivní frekvencí lze studovat pomocí statistických metod hlouběji. Pozoruhodných výsledků v tomto směru dosáhla, jak autorka prokazuje, psycholingvistika sovětská (zejména práce Frumkinové a Vasiljeviče).[4]

V přehledu užití statistiky při řešení různých problémů filologických a lingvistických (kap. 5—9) se autorka snaží o uspořádání kapitol podle chronologie výzkumu. Protože nejstaršími problémy, při jejichž řešení bylo užito kvantitativních metod, jsou problémy filologické, začíná se přehledem prací o sporném autorství textů (Yardi, Guiraud) a o podobnosti textů z hlediska lexikálního (Herdan, Müller). Záslužné je autorčino důkladné a jasné shrnutí hlavních zásad, jichž je třeba dbát při zkoumání filologických problémů, zejm. při zjišťování autorství textů statistickými metodami. K těmto zásadám patří např. předpoklad uváženého výběru individuálních jazykových charakteristik autora, které musí být zvoleny na základě znalosti různých textů daného autora, textů autorů příbuzných a na základě širokých znalostí lingvistických, filologických a literárních. Autorka ve shodě s Ellegårdem[5] ukazuje, že ne vždy jsou nejvhodnější ty charakteristiky, které jsou u zkoumaného díla frekventovanější než u děl jiných (jejich nápadnosti se dá využít při napodobování stylu autora). Důležité jsou často právě takové jevy, které mají u daného autora frekvence nízké nebo jimž se autor vyhýbá. Zvolené charakteristiky individuálního stylu by měly směřovat ke konstantnímu užití v celé tvorbě autora, tedy tak, aby přesahovaly hranice jednoho díla. Takovou charakteristikou není např. délka věty, která podléhá proměnám v čase. Je vhodné vybírat takové kvantitativní konstanty, které nebývají ovlivněny stylistickými záměry autora (takovou charakteristikou jsou např. intervaly mezi užitím stejného, obvykle vysoce frekventovaného slova v textu). Dále je třeba dbát i na dostatečnou reprezentativnost zkoumaných textů a vzhledem k ní i zvolit vhodnou metodu.

Počátky užití statistických postupů k čistě lingvistickému bádání, tj. k popisu jazykového systému, klade autorka do let třicátých a spojuje se vznikem pražské školy, se jmény Mathesius, Trnka, Trubeckoj, kteří „objevili“ statistiku pro potřeby jazykovědy, majíce na mysli především jazykovědu synchronní.

Značnou pozornost věnuje autorka kvantitativní typologii (Milewski, Greenberg, Fuchs, Krámský) a zkoumání genetické příbuznosti jazyků (Évrard, Brozović, Perebejnosová, Swadesh, Mańczak). Zvláštní kapitoly jsou věnovány dešifraci textů, jazykové geografii a dialektologii, opírající se o průkopnické kvantitativní práce W. Doroszewského.

Kapitola o aplikaci statistických modelů v jazykovědě se zcela soustřeďuje na vysvětlení vzorců vyplývajících ze Zipfova zákona. Přestože literatura o tomto předmětu je velmi rozsáhlá a obsahuje četná rozporná tvrzení, autorce se podařil přehledný a poměrně jasný výklad této mnohostranné problematiky vztahů mezi délkou výrazů, jejich pořadím ve frekvenčním seznamu, počtem významů a stářím. Tyto poznatky jsou pak podrobněji rozvedeny v kapitole o uplatnění statistických metod ve stylistice, inspirované hlavně pracemi Guiraudovými a Mistríkovými. Východis[332]kem je zde stylostatistická teze, že styl představuje odchylku, vlastně soubor odchylek od neutrální normy charakterizovanou výskytem, resp. nevýskytem určitých prostředků odlišujících analyzovaný text nebo jeho úsek od širšího kontextu (prací téhož autora, školy, období). Z nejčastějších stylových charakteristik se uvádí koeficient Zipfovy-Mandelbrotovy formule, vyjádřený směrem křivky grafického znázornění vztahu mezi pořadím a frekvencí výrazu, dále údaje o tzv. bohatství slovníku, koeficienty průměrného opakování výrazu, charakteristiky slovníku udávající jeho koncentraci, originálnost a stereotypnost, vztah mezi počtem výrazů tematických a klíčových a konečně délka výrazu v počtu nižších jednotek (slabik, fonémů). Originálněji je pojata druhá část kapitoly o stylistice, v níž se čtenář dozvídá o možnostech stylových charakteristik na různých rovinách jazykového rozboru; zvláště zajímavé jsou syntaktické míry, které jsou výsledkem dlouhodobé analýzy starší polské řečnické a umělecké prózy, prováděné na polských jazykovědných pracovištích.

Za poslední, devátou kapitolu je připojen dodatek o rozsahu 40 stran — abeceda statistických metod, v níž jsou vyloženy a příklady opatřeny základní statistické pojmy a postupy, jako náhodný jev, pravděpodobnost, základní soubor, výběr, statistický odhad pravděpodobnosti, základní statistické parametry ve výběrech, testování hypotéz, koeficient korelace pořadí aj. — V bibliografii (97 položek) jsou vedle dnes již klasických děl autorů Herdana, Guirauda, Zipfa, Yula a dalších zastoupeni ve značné míře autoři domácí, nechybějí však ani práce české a slovenské.

„Úvod“ J. Samborové vychází ve srovnání s mnoha dalšími pracemi tohoto typu úspěšně. Autorka nalezla účinnou rovnováhu mezi uváděním originálních výsledků polských badatelů a výběrem typických příkladů ze světové lingvistické literatury. Užitek práce je tím větší, že není jen učebnicí statistické (a dodejme: v širším pojetí i kvantitativní) lingvistiky jako postupně se vyhraňujícího oboru, ale i vhodnou pomůckou pro badatele, kteří v cestě za uceleným popisem jazyka a jeho fungování chtějí použít statistické metody a techniky jen příležitostně. Je jen škoda, že knize chybí věcný rejstřík, který by umožnil rychlejší orientaci v díle, k němuž se čtenář bude chtít jistě vracet.


[1] Srov. o nich např. SaS 31, 1970, 258—262; mezi nejnovější náleží úvod B. N. Golovina Jazyk i statistika, Moskva 1971.

[2] Varšava 1969; srov. o ní v SaS 31, 1970, 283—285.

[3] R. M. Frumkina, Statističeskije metody izučenija leksiki, Moskva 1965, zvl. s. 87—94. Srov. též M. Königová, K otázce statistického výběru v lingvistice, SaS 26, 1965, 161—168. K problematice viz M. Těšitelová, On the statistical choice of language material for the purposes of lexical analysis, PSML 4, 1972, 9—33; srov. též další bibliografii v citované práci.

[5] A statistical method determining authorship, The Junius Letters, Göteborg 1962.

Slovo a slovesnost, ročník 34 (1973), číslo 4, s. 329-332

Předchozí Josef Štěpán: Úvod do textové lingvistiky

Následující Petr Sgall: Příslovečné určení v generativním popisu slovenštiny