Časopis Slovo a slovesnost
en cz

O nových sovětských frekvenčních slovnících

Helena Confortiová

[Rozhledy]

(pdf)

О новых советских частотных словарях / Les nouveaux dictionnaires de fréquence soviétiques

V této recenzi si chceme povšimnout tří frekvenčních slovníků ruského jazyka, které vyšly v letech 1977 a 1978. Je to především Frekvenční slovník ruského jazyka (dále jen FSR),[1] který byl zpracován i s použitím moderní výpočetní techniky. Materiál o rozsahu zhruba 1 000 000 slov představuje kolem 40 000 slov různých (hesel). Slovník pořídil kolektiv pracovníků filologické fakulty Leningradské státní univerzity A. A. Ždanova a Laboratoře sémiotiky vědeckovýzkumného ústavu aplikované matematiky a kybernetiky při Gorkovské státní univerzitě N. I. Lobačevského. Účelem sestavení slovníku bylo poskytnout informace o frekvenci slov v slovní zásobě současné ruštiny se zřetelem k stylové diferenciaci jazyka, a tímto způsobem stanovit hranice aktivní slovní zásoby.

Porovnáváme-li FSR s dvěma frekvenčními slovníky ruského jazyka vydanými již dříve, je třeba konstatovat, že Josselsonův slovník[2] je vybudován převážně na materiálu z oblasti uměleckého jazyka, ve slovníku Štejnfeľdtové[3] tvoří velkou část materiálu literatura pro děti. Výběr materiálu, kterého užívá FSR, je rozdělen do čtyř oblastí: jazyk umělecké literatury, hovorový jazyk, jazyk vědecké a publicistické literatury a jazyk administrativní. Jednotlivé oblasti jsou uváděny v těchto relacích: umělecká próza 25,4 %, dramata (jako reprezentant hovorového jazyka) 27,2 %, vědecké texty a publicistika 23,6 % a novinové a časopisecké články 23,8 %. Každá skupina je tedy zastoupena přibližně jednou čtvrtinou textů, tj. kolem 250 000 slov. Přitom v 1. skupině bylo excerpováno 11 autorů, ve 2. skupině 14, ve 3. skupině 12 autorů (ve vědeckých textech 5 a v publicistice 7) a ve 4. skupině 10 výtisků novin a 5 časopisů. Do korpusu slovníku nebyly pojaty básně, satirická díla a texty tzv. exaktních věd. FSR reprezentuje slovní zásobu 20. stol., zahrnuje období od V. I. Lenina a M. Gorkého do 60. let. Do skupiny vědeckých textů a publicistiky jsou zařazeny především texty z některých hlavních vědeckých odvětví, a to z fyziky, chemie, biologie, mineralogie a historie. Z publicistické literatury jsou to díla Lenino[236]va, Kalininova, pak spisovatelů-publicistů Velké vlastenecké války A. N. Tolstého, M. A. Šolochova a L. M. Leonova, z poválečné publicistiky je zastoupen N. M. Gribačev a materiály z XII. a XIII. sjezdu KSSS. V oblasti novinových článků byly vzaty celé výtisky novin z 5. 1. 1968 a byly excerpovány celé (včetně inzerce a reklam). Z časopisů byla excerpována 1—2 čísla z období 1958—1962. V časopisech byly excerpovány v podstatě jen reportáže na vědecká, politická a ekonomická témata, úryvky z beletrie nebyly do excerpce pojaty.

V úvodu slovníku je vysvětleno, co se ve FSR pokládá za různé slovo a co se přiřazuje k podobě základní. Např. komparativ a superlativ adjektiv a adverbií se řadí pod pozitiv příslušných lexémů, ale typ poskoreje (s prefixem a sufixem) se považuje za zvláštní lexém, právě tak jako supletivní formy při stupňování (plocho, chuže). Slovesa zvratná tvoří zvláštní lexém apod.

Pokud jde o techniku zpracování slovníku, původně bylo použito strojů SAM (počítací analytické stroje), na kterých byly zpracovány texty novinářské, časopisecké, vědecké a publicistické. Pro další část slovníku a pro souhrnné a závěrečné práce bylo použito elektronických počítacích strojů.

FSR se skládá ze tří částí: abecední frekvenční slovník, frekvenční slovník a statistická struktura slovníku. Nejrozsáhlejší část tvoří abecední frekvenční slovník, který obsahuje všechny lexémy (různá slova), které se v materiálu vyskytly. Celkem je ve slovníku 39 268 různých slov (od a po jaščičnyj ‚zásuvkový, skříňový‘) z celkového materiálu obsahujícího 1 056 382 všech slov.

Každá lexikální jednotka v abecedním frekvenčním slovníku je provázena těmito charakteristikami: absolutní celková frekvence, frekvence v jednotlivých skupinách textů a frekvence v textech jednotlivých oborů.

Frekvenční slovník obsahuje slova od frekvence nejvyšší až po frekvenci 10, celkem 9044 různých slov. U každého slova je uvedena jen absolutní frekvence. Nejfrekventovanější slova, která byla zařazena do frekvenčního slovníku, tvoří celkem 23,02 % slovníku (V), ale pokrývají 92,4 % všech textů. Zbývajících 30 000 slov pokrývá jen 7,6 % všech textů.

Statistická struktura slovníku obsahuje tabulky rozdělení frekvencí. První dva sloupce informují o souvislosti mezi rankem a absolutní frekvencí, třetí sloupec uvádí počet slov s určitou frekvencí, v dalším sloupci je kumulativní četnost, dále vyjádření v procentech, pak kumulativní relativní četnost atd.

Ke slovníku je připojeno pět příloh: seznam všech homografů (múka ‚muka‘, muká ‚mouka‘; východiť ‚uzdravit‘, vychodíť ‚vycházet‘ apod.), seznam slovníkových a gramatických homonym (např.: a — spojka, citosl., napasť — subst. ‚zlý osud‘, sloveso ‚napadnout‘), seznam některých slov, která nejsou uvedena v žádných slovnících (označena hvězdičkou a vedle slova je uveden autor a text, např.: aku-aku — Vokrug sveta, social — Lavreněv, Razlom). V příloze jsou rovněž uvedeny statistické parametry slovníku. Pro abecední frekvenční slovník se uvádějí koeficienty lexikálního bohatství slovníku, rozložení četností, rozdělení podle druhů slov, slova s frekvencí 1 a slova společná pro texty všech funkčních stylů. Pro frekvenční slovník se uvádějí pásma po 100 slovech (do 500 slov) s údaji, kterých druhů slov a kterých konkrétních slov je v dané zóně užito. Zkoumá se zde také délka slova. V příloze nacházíme seznam materiálů nezařazených do FSR, např. abecední frekvenční slovníky jednotlivých textů z oblasti dramat a prózy, abecední frekvenční slovník obecně užívaných lexémů, které se vyskytly ve všech 4 skupinách, a retrográdní slovník zahrnující všechny lexémy.

FSR je nejnovějším frekvenčním slovníkem ruského jazyka, který je zpracován nejmodernějšími metodami na samočinných počítačích; korpus zahrnuje oblast současné spisovné i hovorové ruštiny, je zaměřen i na odbornou literaturu a na publicistiku. Slovník je určen pro účely a úkoly lexikální statistiky.

 

[237]Studium odborné literatury související s rozmachem vědeckotechnické revoluce si vyžádalo i vytvoření frekvenčního slovníku z oboru vědy a techniky. V r. 1978 vyšel v Sovětském svazu Komplexní frekvenční slovník ruského vědeckého a technického lexika (dále jen KS).[4] Důvodem jeho sestavení byla skutečnost, že výuka studentů-nefilologů je jedním z nejaktuálnějších úkolů při výuce cizinců ruštině jak v SSSR, tak v ostatních zemích (odbornou ruštinu studují vědci a inženýrskotechnické kádry specialistů v zemích nejen socialistických, ale i rozvojových a kapitalistických). Podle úvodu k slovníku slovní zásoba specializovaných vědeckotechnických textů se obvykle skládá: (1.) z „řadových“ slov, z číslovek a z plnovýznamových slov (substantiv, sloves a adjektiv) obecně vědeckého a obecně logického charakteru, např. teorie, hypotéza, vyplývat, důležitý; (2.) z obecně vědecké a obecně technické terminologie, např. řízení, element, diferencovat, analytický; (3.) ze speciální odborné terminologie (kyselina, molekula, fréza); (4.) z úzce odborné terminologie (enzymy); (5.) z různých symbolických prostředků. Četbu odborných textů usnadňuje to, že se každý text skládá z velkého množství složených termínů analytického charakteru (tzv. slovní spojení — „slovosočetanija“). Studentům-nefilologům, jejich učitelům a také autorům odborných učebnic je třeba dát lexikální materiál, který by obsahoval objektivní charakteristiky uvedených prvních čtyř vrstev lexika vědeckotechnických textů (viz bod 1. a 2.).

Strukturu KS navrhl V. V. Morkovkin. Spolu s Ju. A. Saf’janem rozpracoval techniku spojení slovníků, které byly pramenem KS, i gramatické charakteristiky slov. Slovník sám vypracoval Ju. A. Saf’jan. P. N. Denisov se účastnil posuzování některých sporných otázek při sestavování KS a také různých organizačních prací.

KS je vytvořen na materiálu dvou slovníků: frekvenčního slovníku obecně vědeckého lexika (dále FSVL),[5] vydaného v r. 1970, a frekvenčního slovníku ruského technického lexika (dále FSTL),[6] vydaného r. 1971. Oba slovníky byly vybrány proto, že jsou jedinými frekvenčními slovníky ruského obecně vědeckého a obecně technického lexika a jsou sestaveny na základě stejné metodiky organizace výběru, jazykové a statistické analýzy textu apod. Oba frekvenční slovníky byly pořízeny na základě metodiky předložené R. M. Frumkinovou a rozpracované E. A. Štejnfel’dtovou v jejím frekvenčním slovníku (srov. o. c. v pozn. 3).

Jako prameny pro FSVL sloužily učební texty pro vysoké školy, a to ze šesti oborů: (1.) matematiky, (2.) fyziky, (3.) chemie, (4.) biologie, (5.) medicíny a (6.) geologie a geografie. FSTL je sestaven na základě učebnic a teoretických prací z pěti stylisticky rozdílných oblastí technické literatury: (1.) strojírenství a nástrojářství, (2.) lehký průmysl a textilní průmysl, (3.) stavebnictví, (4.) doprava, (5.) geologie, kartografie a geodézie. Celková délka textů zkoumaných při sestavování každého z obou slovníků byla 400 000 slov. Korpus obou slovníků se skládá ze 200 výběrů po 2000 výskytech. Do obou slovníků byla zařazena jen slova s frekvencí nejvyšší a s frekvencí do 10. Takových slov bylo v FSVL 2123, ve FSTL 2393. Oba slovníky nebylo možno mechanicky spojit, nýbrž byla vypracována kritéria jednotného chápání slova.

Slovník (KS) obsahuje tyto seznamy slov: seznam nejfrekventovanějších slov vědecké a technické literatury (1.) podle klesající frekvence, (2.) podle abecedy, (3.) retrográdní seznam těchto nejfrekventovanějších slov, (4.) retrográdní seznam nejfrekventovanějších substantiv, adjektiv a sloves.

V prvním seznamu jsou slova řazena podle klesající frekvence; u každého je uveden rank a frekvence (absolutní frekvence, frekvence v počtu textů a v počtu oborů). Druhý seznam obsahuje táž slova seřazená podle abecedy. V tomto seznamu se uvádí [238]frekvenční interval, odděleně pro FSVL a pro FSTL, a celková frekvence v obou slovnících. Do třetího a čtvrtého seznamu jsou zařazena slova, která mají stejné zakončení, stejný sufix a kořen. Proto tento slovník poskytuje maximální informace o gramatických vlastnostech slov a bude neocenitelnou pomůckou pro zahraniční studenty, pedagogy i autory učebnic, protože KS odpovídá na různé otázky týkající se ruského tvoření slov a slovní zásoby.

Ve druhé, synoptické části slovníku se uvádí 30 tabulek, které představují výsledky statistického výzkumu v zevšeobecňující podobě. Jsou zde např.: všechny druhy slov, samostatná slova i slova pomocná, frekvence slov podle prvního písmena, podle prvních dvou a tří písmen, frekvence gramatických kategorií substantiv, adjektiv, sloves, příslovcí a předložek, rozdělení samohlásek a souhlásek v počátečních dvoupísmenových spojeních, frekvence zakončení slov podle 1 písmena, podle 2 písmen a podle 3 písmen, rozdělení slov podle počtu slabik, frekvence zakončení slovesného kmene apod. V některých tabulkách se uvádí také frekvence relativní. K slovníku je připojen seznam použitých zkratek a značek.

Se všemi uváděnými údaji je KS důležitým mezníkem ve studiu odborné literatury a splní rozhodně svůj účel pomoci při studiu cizincům nefilologického zaměření.

 

Třetí slovník, o kterém se zmíníme, je Slovník asociačních norem ruského jazyka (dále jen SAN).[7] Svým zaměřením se podobá KS. SAN je určen k výuce ruského jazyka u neruských posluchačů, v prvé řadě cizinců. Přináší, podle autorů, subjektivně nejfrekventovanější sémantická a paradigmatická spojení slov, nejdůležitější syntagmatická spojení slov a frazeologismy a obsahuje nejcharakterističtější sémantické spoje; tato spojení se obvykle v jiných slovnících nenajdou a cizinec si je může osvojit až v průběhu dlouholeté jazykové praxe a pobytu v zemi. Již to, ze SAN byl vydán za redakce A. A. Leont’jeva, ukazuje, že svůj odraz zde nachází i psychologie. Slovník nemá jen praktické užití. O slovníku, metodice jeho sestavení a o různých možných aspektech vědeckého i praktického užití SAN se mluví v úvodních kapitolách, jejichž autory jsou: A. A. Leont’jev (obecné informace o asociacích a asociačních normách), A. P. Klimenko a A. E. Suprun (asociační experiment mezi ostatními metodami sémantických výzkumů), Ju. V. Ljubimov (povaha asociací, struktura slovní paměti a pojem asociačního významu), N. V. Ufimcevová (gramatický aspekt asociací), Z. N. Naumovová (asociace a otázka celé „výpovědi“), A. A. Zalevská (mezikulturní aspekt problému asociací) a N. D. Zarubinová spolu s A. A. Leont’jevem (o metodice sestavení asociačního slovníku). Základní význam má článek první, v němž Leont’jev popisuje asociační pokusy, vysvětluje rozdělení na asociace syntagmatické a paradigmatické, uvádí přehled nejdůležitějších slovníků asociačních norem v jiných jazycích a pokusy a sociologické a sociálně psychologické průzkumy.

SAN zahrnuje 500 lexémů a byl sestavován a zpracováván v průběhu let 1969 až 1972. Do první části SAN byly zařazeny údaje o 196 slovech a také články úvodní. Druhá část (která vyjde později) bude zahrnovat ještě údaje o 304 slovech. Rozdělení slovníku do dvou částí bylo podmíněno čistě technickými příčinami (objem knihy, postupnost zpracování seznamů), takže obě části představují jeden celek, i když pro lepší přehlednost byla slova-stimuly seřazena v každé části abecedně. K druhé části mají být ještě připojeny souhrnné ukazatele obou částí (opačný slovník od reakce ke stimulu a ukazatel cizojazyčných ekvivalentů).

Za abecedním seznamem lexémů následují přílohy: článek o některých výsledcích hromadného asociačního pokusu, údaje o některých dříve prováděných (publikovaných i nepublikovaných) asociačních experimentech na materiále ruského jazyka a seznamy slov užívaných při pokusech.

[239]Pokusu se účastnilo v prvé fázi 200 informantů, kteří odpovídali na 66 slov-stimulů, ve druhé fázi 500—700 informantů, kteří odpovídali na 500 slov-stimulů. Informantům bylo přečteno slovo-stimul a ti měli za úkol odpovídat prvním slovem, které je napadlo (v případě hromadného pokusu toto slovo psali). Počítaly se jen odpovědi kladné. Pokusu se účastnily osoby ve věku od 16 do 50 let mající vysokoškolské vzdělání, a to ukončené i neukončené (většinou to byli studenti), jejichž mateřštinou byla ruština. Slovník má tuto strukturu: (1.) slovo-stimul, (2.) frekvence slova-stimulu podle tří slovníků: Josselsonova, Štejnfel’dtové a slovníku Univerzity družby národů,[8] (3.) slova-reakce seřazená od slov nejfrekventovanějších k slovům s frekvencí 1 (jestliže několik slov mělo stejnou frekvenci, slova se řadila abecedně), (4.) paralelní údaje z cizojazyčných asociačních slovníků,[9] které měli autoři k dispozici, pokud se tam daná slova vyskytovala (uvádí se vždy jen první, tj. nejčastější odpověď), (5.) číslo označující počet informantů, kteří odpověděli na daný stimul.

 

Všechny tři recenzované slovníky jsou důležitým přínosem pro studium slovní zásoby vůbec a pak speciálně pro ruštinu, kde dávají možnost hlouběji poznat slovní strukturu jazyka. Zatímco dříve se pozornost věnovala frekvenčním slovníkům jazyka jako celku, v současné době se vytvářejí specializované frekvenční slovníky diferencované podle jednotlivých oborů, které vedou k lepšímu poznání odborného jazyka a přispívají tak k rozvoji nejen lingvistiky, ale i vědy a techniky.


[1] Častotnyj slovar’ russkogo jazyka, red. L. N. Zasorina, Moskva 1977.

[2] H. H. Josselson, The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literatury Russian, Detroit 1953.

[3] E. A. Štejnfel’dt, Častotnyj slovar’ sovremennogo russkogo literaturnogo jazyka, Tallin 1963; srov. rec. v SaS 26, 1965, 270—273.

[4] P. N. Denisov - V. V. Morkovkin - Ju. A. Saf’jan,Kompleksnyj častotnyj slovar’ russkoj naučnoj i techničeskoj leksiki, Moskva 1978.

[5] Častotnyj slovar’ obščenaučnoj leksiki, red. E. M. Stepanova, Moskva 1970.

[6] Ju. A. Saf’jan, Častotnyj slovar’ russkoj techničeskoj leksiki, Jerevan 1971.

[7] Slovar’ associativnych norm russkogo jazyka, za redakce A. A. Leont’jeva, vyd. Institut russkogo jazyka im. A. S. Puškina, Moskva 1977; počítá se, že slovník bude mít dvě části.

[8] Slovar’ Universiteta družby narodov imeni P. Lumumby (2380 naiboleje upotrebitel’nych slov russkoj razgovornoj reči), Moskva 1968.

[9] Anglické, německé a francouzské normy byly vzaty z knihy: Norms in Associations, ed. by L. Postman and G. Keppel, New York 1970 (J. Jenkins, The 1952 Minnesota Word Association Norms; W. A. Russel, The Complete German Language Norms for Responses to 100 Words from Kent-Rosanoff Word Association Test; M. R. Rosenzweig, International Kent-Rosanoff Word Association Norms, Emphasizing those of French Male and Female Students and French Workmen — z této části byly brány jen údaje studentů vzhledem k tomu, že v SAN jejich odpovědi tvořily hlavní část). Holandské normy byly vzaty z knihy T. J. van der Made - van Bekkum, Nederlandse wordassociatie normen, Amsterdam 1973 a polské I. Kurcz, Polskie normy powszechności skojarzeń swobodnych na 100 słów z listy Kent-Rosanof’a, Warszawa 1967.

Slovo a slovesnost, ročník 41 (1980), číslo 3, s. 235-239

Předchozí Miloš Dokulil a kol.: Významné sovětské dílo o teorii pojmenování (I.)

Následující Milan Romportl, Jana Ondráčková, Marie Dohalská, Jiřina Novotná-Hůrková, Zdena Palková, Jaroslava Pačesová, Olga Schulzová: IX. mezinárodní kongres fonetických věd v Kodani