Časopis Slovo a slovesnost
en cz

Druhá sovětská konference o frekvenčních slovnících

Pavel Vašák

[Kronika]

(pdf)

Вторая советская конференция по частотным словарям / Deuxième conférence soviétique consacrée aux dictionnaires de fréquence

V kvantitativní lingvistice bylo dosud věnováno nejvíce práce sestavování frekvenčních slovníků nejrůznějších typů a zaměření. Souvisí to s tím, že kvantitativní údaje o výskytu slov (lexikálních jednotek nebo slovoforem) jsou potřebné jak pro jazykovou pedagogiku, týkající se jazyka mateřského a cizího, tak též pro potřeby „čistě“ lingvistické, tj. získat např. obraz o četnosti jednotlivých jazykových jednotek, o jejich vztazích apod.

Problematice frekvenčních slovníků věnuje se v poslední době velká pozornost zejména v Sovětském svazu. Doposud publikovaným frekvenčním slovníkem ve vlastním slova smyslu vzniklým a sestaveným na půdě SSSR je slovník Štejnfeldtové[1] a Jakubajtisové a kol.[2]

Organizačním počátkem kvantitativní lingvistiky v SSSR byla porada, která se konala v r. 1957 na leningradské universitě; R. G. Piotrovskij poukázal na možnosti, které se otevírají statistickou analýzou lexika.[3] Po několika pracích věnovaných problematice statistické analýzy lexika (zvl. práce R. M. Frumkinové[4]), byla dovršením této etapy první konference věnovaná problematice frekvenčních slovníků a automatizaci lingvistických prací. Konference se konala na leningradské universitě 18.—20. října 1966.[5]

4.—6. dubna 1968 se v Institutu cizích jazyků v Minsku konala druhá konference věnovaná problematice frekvenčních slovníků a automatickému zpracování lingvistických textů.[6] Náplň konference byla však mnohem širší, proto, že do problematiky frekvenčních slovníků patří řada základních problémů kvantitativní lingvistiky vůbec.

Náplň konference tvořilo třináct otázek, kterých se měly jednotlivé referáty a sdělení týkat, např. na kterých jazykových rovinách je nejúčelnější užít statistické metody, které jazykové jednotky nejlépe vyhovují jako jednotky statistického výběru, problematika statistických kritérií [445]při stanovení rozsahu výběru, statistické metody vhodné ke zpracování lingvistických dat, užití neparametrických metod, problematika rozložení (normální, Poissonovo, Charlierovo aj.) lingvistických jednotek, užití statistiky při určování autorství anonymních textů aj.

Práce konference byla rozdělena do šesti sekcí: teorie a metody lingvistické statistiky, lexikální statistika, stylistická a gramatická statistika, fonostatistika a experimentální fonetika, automatizace lingvistických prací, pravděpodobnostní binární překlad a vyhledávání informací.

Většina referátů a sdělení se uvedenými otázkami zabývala, popř. alespoň okrajově. Převážná část referátů a hlavně sdělení však byla zaměřena spíše praktickým směrem, na využití frekvenčních slovníků a seznamů nejrůznějšího typu pro vyučování cizím jazykům, což bylo podmíněno i většinou účastníků konference (učitelů cizích jazyků na pedagogických institutech a universitních pracovištích).

Obecné zaměření měl zahajovací referát R. G. Piotrovského (vedoucího všesvazové skupiny Statistika řeči); zabýval se mimo jiné příčinami rozvoje kvantitativní lingvistiky v posledních letech a využití počítačů v lingvistice označil za experimentální lingvistickou bázi (v této souvislosti mluvil o „inženýrské lingvistice“). P. M. Aleksejev se zamýšlel nad úlohou výběru; připomněl, že pro statistické srovnání dvou lingvistických výběrů (zvl. z hlediska frekvence slov) je nutná jejich rovnost, a ukazoval, jak na základě skupiny malých výběrů je možno dospět k minimálně nutnému výběru. — V referátu matematika K. B. Bektajeva byly předvedeny některé typy statistických rozložení a jejich možnosti využití při odhadu statistických parametrů v lingvistice s odpovídajícími intervaly spolehlivosti. — Pozoruhodný byl referát A. N. Šajkeviče, v němž autor na materiále Puškinova Oněgina ukazoval, jak se mění typ statistického rozložení v závislosti na změně lingvistické jednotky a velikosti výběrového intervalu (verš, sloka aj.). — T. F. Bondarenková se zabývala frekvencí slov i jiných jazykových jevů v různých stylových žánrech a pokusila se rozlišit na jejich základě tzv. podjazyky (ve smyslu Andrejevově). — T. A. Jakubajtisová seznámila s druhým dílem frekvenční analýzy lotyštiny, se statistickým zpracováním gramatických kategorií (o. c. v pozn. 3) — V. I. Perebejnosová uvedla nejdůležitější výsledky publikovaných studií[7] o statistických parametrech autorského stylu. — V. M. Andrjuščenko seznámil se závěrečnými pracemi na frekvenčním slovníku německé společensko-politické publicistiky (vybrané články z Neues Deutschland). — Jednou z často diskutovaných otázek byla na konferenci problematika srovnávání frekvenčních seznamů mezi sebou. Z tohoto hlediska byl zajímavý referát T. A. Mikerinové, která pro srovnávání seznamů mezi sebou použila korelační analýzy (Spearmanův koeficient aj.). — Tři sdělení byla věnována problematice entropie jazyka, a to ázerbájdžánštiny (Ch. Z. Bagirová), kazaštiny (D. L. Bajtanajevová) a uzbečtiny (I. M. Čelobajevová). — O statistickolingvistickém přístupu při zpracovávání informací referoval V. A. Moskovič.

Sekce věnovaná automatizaci lingvistických prací byla uvedena referátem N. D. Andrejeva o automatizaci na základě statistickokombinatorní analýzy. Jednotlivá sdělení v této sekci byla věnována řešení problémů vznikajících při strojovém zpracovávání lingvistického materiálu, např. způsobu abecedního řazení materiálu (S. V. Bazarnová), automatizaci a mechanizaci lexikografických prací (V. P. Petuškov), programu pro sestavení frekvenčního seznamu slovoforem na počítači Minsk 23 (V. A. Vertelová) i problematice vznikající při sestavování retrográdních frekvenčních slovníků na děrnoštítkových soupravách (G. V. Jermolenko) aj. — Závěrečný plenární referát L. N. Zasorinové se pokusil charakterizovat některé rysy velkého frekvenčního slovníku ruštiny, na němž se pracuje v Leningradě.[8]

[446]Na konferenci bylo přítomno 200 účastníků, z toho pět ze zahraničí (4 z ČSSR a 1 z NDR). Všichni zahraniční účastníci přednesli referáty; M. Těšitelová (O tzv. bohatství slovníku autora; poukazovala na nedostatky Guiraudova koeficientu bohatství slovníku a zavedla některé jiné koeficienty), P. Vašák (O problémech sporného autorství; pokusil se statistickými metodami řešit autorství povídky Kříž pod Petřínem), M. Polanský a P. Kulhavý přednesli referáty o statistickém zpracovávání tzv. velitelského jazyka. Dalším zahraničním účastníkem byl L. Hoffmann z NDR, který se zabýval statistickým zpracováním ruských vědeckých textů pro vyučování.

Během konference byla podniknuta exkurze do výpočetního střediska Běloruské akademie věd k počítači Minsk, kde byly předvedeny některé typy strojového zpracování lingvistické informace (např. strojové odstraňování homonymie aj.).

Konference byla rozhodně prospěšná, neboť umožnila setkání lingvistů, matematiků, programátorů a jiných pracovníků zabývajících se statistickým přístupem k jazyku. Zahraničním účastníkům bylo umožněno seznámit se v podstatě s nejnovějšími výsledky sovětské kvantitativní lingvistiky. Po stránce metodologické však konference nepřinesla mnoho nového; některé referáty a sdělení rozpracovávaly již známé skutečnosti, tematicky se překrývaly a nedovolovaly srovnání. Proto též na konferenci zazněl hlas (V. I. Perebejnosová) požadující jistou unifikaci v metodice kvantitativní lingvistiky, která by dovolovala srovnávání výsledků.

V závěrečném usnesení konference předložila mimo jiné ministerstvu vysokých škol SSSR návrh, aby byla vypracována učebnice lingvistické statistiky pro studenty se specializací matematická lingvistika a vydáván časopis Aplikovaná lingvistika (Prikladnoje jazykoznanije).

O tom, že problematice frekvenčních slovníků a automatizaci lingvistických prací je věnována v SSSR velká pozornost svědčí i to, že se již připravuje třetí konference, která se má konat r. 1970 v Kišiněvě.


[1] Srov. rec. M. Těšitelové Na okraj nových frekvenčních slovníků, SaS 26, 1965, 267—275.

[2] T. Jakubaite — D. Kristovska — V. Ozola — R. Prūse — N. Sika, Latviešu valodas biežuma vārdnīca, I sējums: Tehnika un rūpniecība, 1. daļa, Riga 1966; druhý díl tohoto slovníku vydali tíž autoři v r. 1968 v Rize.

[3] R. G. Piotrovskij, Nekotoryje voprosy statističeskogo obsledovanija leksičeskich grupp, Voprosy statistiky reči, Leningrad 1958.

[4] R. M. Frumkina, Statističeskaja struktura leksiki Puškina, VJaz, 1960, č. 3, s. 78—81; táž, Nekotoryje voprosy primenenija statističeskich metodov k izučeniju slovarnogo sostava, sb. Tezisy dokladov mežvuzovskoj konferencii po primeneniju strukturnych i statističeskich metodov issledovanija slovarnogo sostava jazyka, Moskva 1961, s. 24; táž, Statističeskije metody izučenija leksiki, Moskva 1964; táž, Statističeskije metody izučenija slovarnogo sostava, autoreferát, Moskva 1963.

[5] Ke konferenci byl vydán sborník Mežvuzovskaja konferencija po voprosam častotnych slovarej i avtomatizacii lingvostatističeskich rabot, Leningrad 1966, obsahující téze referátů a sdělení. Zprávu o konferenci podala H. Svobodová, Leningradská konference o frekvenčních slovnících, Jazykovědné aktuality 1967, č. 1, s. 37.

[6] Teze referátů a sdělení jsou obsaženy ve sb. Častotnyje slovari i avtomatičeskaja pererabotka lingvističeskich tekstov, Minsk 1968.

[7] Např. Statistični parametri stiliv, Kyjev 1967; srov. zde rec. od J. Krause a P. Vašáka Podnětný sborník kvantitativní stylistiky, s. 425—429.

[8] Viz též přípravnou studii L. N. Zasorinové Avtomatizacija i statistika v leksikografii, Leningrad 1966.

Slovo a slovesnost, ročník 29 (1968), číslo 4, s. 444-446

Předchozí Jan Průcha: Language and Language Behavior Abstracts

Následující Jiří Kraus: Pomoc počítačů při rozboru uměleckého stylu