František Hladiš
[Články]
К распределению низкочастотных слов в устных текстах / A propos de la distribution des mots de faible fréquence dans les textes parlés
Při hodnocení výsledků plynoucích z kvantitativní analýzy slovní zásoby v konkrétních projevech, jednotlivých textech různé stylové příslušnosti, stojíme vždy před otázkou, jaké závěry je možno vyvozovat ze zjištěných dat, o čem tyto údaje, v našich podmínkách většinou pracně získané, vypovídají, co všechno vyjadřují. Není sporu o tom, že shromážděné informace o počtu lexikálních jednotek v určitém textu a o jejich četnostech jsou výrazem různých vlastností a vztahů nejen roviny lexikální, ale i gramatické a stylistické. Je však velmi obtížné vyčlenit tyto jednotlivé vlastnosti a vztahy, najít postupy, jimiž by bylo možno je izolovat a uvést do souvislosti s příslušnými jazykovými plány nebo faktory, které mají vliv na jejich výskyt a uspořádání.[1]
Výsledky dosavadního zkoumání distribuce slov v textu vedou k závěru, že při analýze údajů o četnostech slov je vhodné rozlišovat tři oblasti (zóny), a to oblast slov s vysokou četností, se střední četností a s nejnižší četností (srov. např. G. Herdan, o. c. v pozn. 1, s. 77). Hranice těchto zón nelze pochopitelně udat s přesností na jedno slovo a není možno je chápat jako absolutní, platné pro všechny případy, stejně jako nelze jednoznačně určit charakter slov, která se v nich nacházejí. Pro postižení individuálních rysů slovníku jednotlivých textů a jejich slohové příslušnosti má podle dosavadních výsledků zkoumání největší důležitost zejm. zóna třetí, slova s nejnižší četností. Její vymezení bývá různé. Někdy je udáváno frekvencí 1—5, např. u Herdana (l. c.), jindy 1—10, např. u Těšitelové (o. c. v pozn. 1). V této skupině slov má z mnoha aspektů zvláštní postavení třída slov s četností 1.[2] Jejich zajímavé, nikoli však nesporné hodnocení podal v poslední době také J. Mistrík;[3] v části o tzv. horizontálním rozložení slov se zabýval mj. nejen jejich početním zastoupením v dílech jednotlivých autorů a v textech různé stylové povahy, ale vyslovil se i k jejich stránce kvalitativní (s. 64—81, zvl.: 73—76). Podle něho je třeba slova, která se vyskytla jen jednou, pokládat za samostatnou třídu a odlišit je od těch, která se v textu opakují, která tvoří lexikální jádro projevu. Ta, která mají četnost větší než 1, charakterizuje pak blíže jako slova, jichž autor užívá suverénně jako svou aktivní slovní zásobu, s nimiž pracuje jako se základními, jejichž pomocí objasňuje hlouběji problematiku, která je předmětem projevu. Naproti tomu slova, která se vyskytla [335]jen jednou, hodnotí jako okazionální, náhodné, exaltované nebo exkluzívní výrazy. Jsou, jak uvádí na několika místech, především projevem autorova vkusu a schopnosti stylizovat projev a ozvláštnit ho pomocí exkvizitních výrazů. U autora jsou na hranici mezi aktivní a pasívní slovní zásobou. Na základě toho pak formuluje Mistrík i dvě charakteristiky, a to index gravitnosti textu a index exkvizitnosti .
Slova s četností 1 nepochybně představují zvláštní skupinu slov, vždyť v konkrétních textech reprezentují obvykle více než polovinu všech slov různých (hesel).[4] Avšak je otázka, zda lze o nich paušálně tvrdit, že jde ve všech případech o výrazy okazionální atd., jak to činí Mistrík. Je pravda, že i Herdan (o. c. v pozn. 1, s. 77) označuje taková slova jako řídká, vzácná (rare words), ale z uvedených Mistríkových hodnotících výrazů je zřejmé, že mu nejde o vzácnost nebo exkluzivitu kvantitativní, ale především kvalitativní. Jenže z toho, že slovo se vyskytuje v textu zřídka, že je vzácné svou nízkou četností, nelze vždy přímo vyvozovat závěr o jeho zvláštnostech kvalitativních, např. o jeho příslušnosti k lexikálním vrstvám nebo stylovým skupinám, ani o jeho zařazení k aktivní nebo pasívní složce slovní zásoby. Kupř. slova paprika, pilník, pisatel, plást, pleso, pletení, plíživý, pobočník nejsou jistě nikterak zvláštní, a přesto je v českém frekvenčním slovníku nenajdeme, což znamená, že se ve zkoumaných textech vyskytla jednou nebo dvakrát, nebo se v nich nevyskytla vůbec.[5] Na druhé straně nelze ovšem popřít, že mezi četností slova a jeho charakterem je jistá souvislost. Zvláště v těch případech, kdy byl zkoumán větší počet textů tvořících rozsáhlý soubor, jako je tomu v případě frekvenčních slovníků, a kdy tedy měla slova poměrně dobrou možnost „uplatnit se“, dostala se mnohá z nich mezi výrazy s nejnižší četností právě proto, že byla svým způsobem zvláštní, exkluzívní. Tvrdit však totéž o všech slovech s četností 1 zjištěných v textu jediného autora se zdá poněkud zjednodušující. Při podrobnějším zkoumání se také ukazuje, že mezi těmito slovy jsou zastoupena převážně plnovýznamová, autosémantická slova, zvláště pak podstatná jména a přídavná jména, a to uvedené Mistríkovo hodnocení ještě více zpochybňuje (srov. např. u M. Těšitelové On the Role of Nouns …, v pozn. 1).
Celá otázka si zasluhuje důkladnějšího rozboru; potíž je však v tom, že naše frekvenční slovníky, český a slovenský, neuvádějí o slovech s četností 1 kromě jejich celkového zastoupení v textech již žádné další údaje a z úsporných důvodů je nezařazují ani do slovníkové části.[6] Nemáme proto možnost přesvědčit se, o jaká slova jde a jaké jsou jejich vlastnosti. Svůj příspěvek k řešení tohoto problému jsme založili na rozboru materiálu, který nebývá obvykle východiskem takovýchto zkoumání, a to na textech patřících svou [336]slohovou příslušností k mluveným projevům hovorového stylu.[7] Předmětem zkoumání byly dva soubory textů — A o rozsahu 9533 slov (token) a 1751 hesel (type) a B o rozsahu 10 980 slov a 1877 hesel a v dílčí analýze jsme využili i údajů ze souboru C o rozsahu 10 902 slov a 1802 hesel.
Ve shodě se situací v jiných stylových vrstvách měla největší zastoupení skupina slov s nejnižšími četnostmi:
Četnost | Soubor A | Soubor B | ||
| V | % | V | % |
1—5 | 1529 | 87,32 | 1629 | 86,70 |
1—10 | 1628 | 92,98 | 1743 | 92,86 |
V = slova různá (hesla) |
Tab. č. 1
Přitom hlavní plnovýznamové slovní druhy zde měly největší podíl:
Slovní druh | |||||||||
Soubor A | |||||||||
Četnost | I | II | III | IV | V | VI | VII | VIII | IX |
1—5 | 708 | 199 | 19 | 39 | 367 | 173 | 12 | 8 | 4 |
% | 93,2 | 98,1 | 48,7 | 79,6 | 90,2 | 73,0 | 44,4 | 40,8 | 80,0 |
1—10 | 745 | 207 | 25 | 43 | 382 | 196 | 15 | 11 | 4 |
% | 98,0 | 100,0 | 64,1 | 87,8 | 93,9 | 82,7 | 55,6 | 55,0 | 80,0 |
Soubor B | |||||||||
1—5 | 635 | 224 | 16 | 20 | 514 | 191 | 11 | 13 | 5 |
% | 91,9 | 96,2 | 41,1 | 66,7 | 91,1 | 73,7 | 39,3 | 50,0 | 71,4 |
1—10 | 673 | 229 | 21 | 24 | 536 | 222 | 15 | 17 | 6 |
% | 97,4 | 98,3 | 53,9 | 80,0 | 95,0 | 85,7 | 53,6 | 65,4 | 85,7 |
Tab. č. 2
Převaha těchto slovních druhů se projevila zvláště ve skupině slov s četností 1; z celkového počtu 1025 slov s touto četností v souboru A bylo substantiv, adejktiv, číslovek, sloves a příslovcí celkem 1009, tj. 98,4 %, v souboru B pak z počtu 1049 slov celkem 1027, tj. 98,0 %. Podrobnější údaje ukazují následující tabulky:
Slovní druh | |||||||||
Soubor A | |||||||||
| I | II | III | IV | V | VI | VII | VIII | IX |
Počet V | 760 | 207 | 39 | 49 | 407 | 237 | 27 | 20 | 5 |
Počet V1 | 483 | 141 | 7 | 20 | 264 | 101 | 4 | 1 | 4 |
% z V | 63,6 | 68,1 | 17,9 | 40,8 | 64,9 | 42,6 | 14,8 | 5,0 | 80,0 |
% z ƩV1 | 47,1 | 13,8 | 0,7 | 2,0 | 25,8 | 9,9 | 0,4 | 0,1 | 0,4 |
Soubor B | |||||||||
Počet V | 691 | 233 | 39 | 30 | 564 | 259 | 28 | 26 | 7 |
Počet V1 | 401 | 154 | 9 | 11 | 351 | 110 | 3 | 5 | 5 |
% z V | 58,0 | 66,1 | 23,1 | 36,7 | 62,2 | 42,5 | 10,7 | 19,2 | 71,4 |
% z ƩV1 | 38,2 | 14,7 | 0,9 | 1,0 | 33,5 | 10,5 | 0,3 | 0,4 | 0,4 |
V1 = slova s četností 1 |
Tab. č. 3
[337]Naproti tomu měla zájmena, předložky a spojky zastoupení v této skupině minimální, nedosahující ani 1 %.
Postavení slov s četností 1 si můžeme ukázat ještě z jedné stránky. Zkoumáme-li v uvedených souborech A a B, která slova se vyskytují v obou, zjišťujeme, že toto „společné jádro“ tvoří hlavně zájmena, předložky a spojky. Podíl ostatních slovních druhů, zvláště pak substantiv, adjektiv a sloves, je mnohem menší:
Slovní druh | |||||||||
| I | II | III | IV | V | VI | VII | VIII | IX |
Vx | 1253 | 380 | 44 | 56 | 794 | 346 | 30 | 27 | 11 |
Vy | 197 | 61 | 34 | 23 | 177 | 150 | 25 | 19 | 1 |
% z Vx | 15,7 | 16,1 | 77,3 | 41,1 | 22,3 | 43,4 | 83,3 | 70,4 | 9,1 |
Vx = slova vyskytující se v souboru A, nebo B | |||||||||
Vy = slova vyskytující se v souboru A i B |
Tab. č. 4
Podle údajů z tabulky č. 4 můžeme rozdělit všechny slovní druhy do tří skupin:
1. skupina: převážná část hesel se vyskytla v obou souborech; jsou to předložky 83,3 %, zájmena 77,3 % a spojky 70,4 %;
2. skupina: hesla zastoupená ve společné části necelou polovinou; jsou to příslovce 43,4 % a číslovky 41,1 %;
3. skupina: jen menší část hesel se vyskytla v obou souborech; jsou to slovesa 22,3 %, adjektiva 16,1 %, substantiva 15,7 % a citoslovce 9,1 %.
Na základě těchto údajů můžeme říci, pochopitelně s jistým zjednodušením, neboť se porovnávaly jen dva soubory, že přibližně tři čtvrtiny celkového počtu slov třetí skupiny se vyskytnou jen v jednom konkrétním projevu, jimi se budou jistě jednotlivé projevy nejvíce lišit. Nemusí tu jít, přirozeně, jen o slova s četností 1; ta se však, podle našich zjištění, podílejí na počtu slov objevujících se jen v jednom ze srovnávaných souborů největší měrou. Např. v souboru B to bylo 324 substantiv, tj. 65,7 %, dále 134 adjektiv, tj. 77,4 %, 292 sloves, tj. 75,4 % atd. Jde tu však především o slova, jimiž se realizoval vlastní sdělovaný obsah projevů, je proto těžko předpokládat, že budou mít všechna takové vlastnosti, jaké u nich uvádí J. Mistrík.[8]
Abychom se mohli opravdu přesvědčit, jaký je ve skutečnosti charakter slov s četností 1, provedli jsme zkoušku, která je obdobou postupu E. Štejnfeľdtové,[9] a z náhodně vybraného textu C1, z rozsáhlejšího souboru textů C, jsme vypustili všechna slova s četností 1.[10] Výsledkem pokusu byl text značně deformovaný, jak vidět i z následující krátké ukázky:
[338]„No v jednu padesát dva jsem ——— na ———, ———, co vám mám ———. ———, že to bylo ———, ono nakonec nějaké místo by se ———, ale tam jeli ti ———, nebo já nevím, kdo to tam všechno jezdí, a každý ——— v kupé na dvou ——— si ——— a spal a ——— někoho vzbudit, tak vám tak ——— vynadá, že to jste ještě ———. ——— jsem stála v ———, až se mě tam ——— jeden takovej ——— pán, měl asi tak sto ——— ———, ale všechna ———, ——— mi místo v kupé.“
Celkový rozsah takto analyzovaného textu byl 1490 slov a vyskytlo se v něm celkem 460 hesel. To je jistě rozsah příliš malý na to, aby mohly být z takto získaných výsledků činěny obecnější závěry. Proto jsme v další fázi přihlédli i k ostatním textům celkového souboru C a doplnili deformovaný text o slova s četností 1, pokud se vyskytla také v některém z nich. Avšak ani poté se na něm mnoho nezměnilo:
„No v jednu padesát dva jsem ——— na ———, ———, co vám mám vykládat. Nejenom, že to bylo plné, ono nakonec nějaké místo by se našlo, ale tam jeli ti ———, nebo já nevím, kdo to tam všechno jezdí, a každý ——— v kupé na dvou ——— si —— a spal a ——— někoho vzbudit, tak vám tak ——— vynadá, že to jste ještě nezažili. ——— jsem stála v ———, až se mě tam ——— jeden takovej sympatickej pán, měl asi tak sto ——— ———, ale všechna ———, ——— mi místo v kupé.“
I z této kratičké ukázky je vidět, že vypuštění slov s četností 1 značně zatemnilo vlastní sdělovaný obsah a ochudilo sdělení o to základní, co se týká detailní situace v dílčí epizodě vyprávění. Jen ze slova kupé, které se v textu C1 vyskytlo dvakrát, můžeme usoudit, že se uvedená příhoda stala ve vlaku, ale už nevíme, co všechno dělali cestující a kdo to vlastně byl atp. Je jistě otázka, do jaké míry tu jde o specifické vlastnosti mluvených projevů, ale lze předpokládat, že text z jiné stylové roviny nebo obsahující sdělení o méně běžné události, než jakou je jízda vlakem, by při absenci slov s četností 1 byl ještě méně srozumitelný. Vynechaná slova nejsou ovšem pro úplnost sdělení stejně důležitá; některá je jen doplňují o hodnotící detaily apod., mnohá jsou však naprosto nutná, jak to vyplývá i z nedeformovaného textu stejné ukázky:
„No v jednu padesát dva jsem naběhla na rychlíček, košičák, co vám mám vykládat. Nejenom, že to bylo plné, ono nakonec nějaké místo by se našlo, ale tam jeli ti brigádníci, nebo já nevím, kdo to tam všechno jezdí, a každý rozvalený v kupé na dvou sedadlách si ležel a spal a zkuste někoho vzbudit, tak vám tak sprostě vynadá, že to jste ještě nezažili. Smutně jsem stála v chodbičce, až se mě tam ujal jeden takovej sympatickej pán, měl asi tak sto dvacet kilo, ale všechna čest, vybojoval mi místo v kupé.“
Posuzujeme-li nyní slova s četností 1, a to z hlediska jejich uplatnění v textu (situace naznačená v ukázce je v podstatě stejná i v celém textu C1), můžeme říci, že jsou zhruba trojí povahy: (1) uplatňují se jako základní pojmenovávací prostředky věcí, dějů a jiných skutečností nebo vlastností v souvislosti s konkrétní situací projevu podle záměru mluvčího a dalších faktorů [339]ovlivňujících výstavbu sdělení: brigádník, sedadlo, chodbička, najít, ležet, zkusit, plný, smutně, dvacet atd.; (2) vystupují jako pojmenování synonymické povahy, s různými odstíny významovými i s rozmanitým zabarvením expresívním, jakož i s rozdílným poměrem ke spisovnému výrazivu: rychlíček, košičák, naběhnout (‚nastoupit‘), vybojovat (‚najít, získat místo‘), rozvalený (‚nedbale, pohodlně sedící‘) aj.; jejich volba je však více ovlivněna faktory subjektivní povahy, a tedy i stupeň exkvizitnosti a míra nahodilosti je větší; (3) objevují se v textu jen jako součásti slovních spojení různého stupně těsnosti nebo volnosti, a to jak substantivní, tak slovesné povahy: všechna čest, sympatickej pán, to jste ještě nezažili, co vám mám vykládat, tak vám sprostě vynadá aj.; jejich výskyt je vázán na celé víceslovné spojení, s vlastním obsahem sdělení souvisejí tedy jen takto zprostředkovaně, a proto i stupeň nahodilosti výskytu je značný (v tom se dají předpokládat značné diference mezi projevy jednotlivých mluvčích), ne již míra jejich exkluzívnosti nebo exaltovanosti.[11]
Pro podrobnější analýzu slov vyskytujících se v konkrétních textech s četností 1 se jako vhodné diferenciační hledisko jeví také postup přihlížející k tomu, zda se tato slova objevují i v jiných textech stejné slohové platnosti, nebo zda jsou jen v projevu jediném (nebo jen u jednoho autora); první označujeme jako fi1, druhá jako f01. Podle tohoto hlediska bylo v dílčím souboru C1 z 265 slov s touto četností celkem 110 slov, která se vyskytla (s větší nebo menší četností) i v dalších textech celkového souboru C, tj. 41,5 %. U nich se dá předpokládat, že to jsou prostředky běžné, vlastní projevům jednotlivých stylů, a naše zjištění to také potvrzuje. U slov, která se vyskytla jen u jednoho mluvčího nebo jen v jednom textu, však může být situace odlišná. Sledujeme-li, jak jsou slova s četností fi1 a f01 rozložena do skupin, o nichž jsme pojednali v předchozím odstavci, zjišťujeme nejen shody, ale i výrazné rozdíly:
Skupina | Celkem | % | ||||||
Četnost |
| /1/ |
| /2/ |
| /3/ |
|
|
| Počet | % | Počet | % | Počet | % |
|
|
f01 | 74 | 27,8 | 26 | 9,9 | 55 | 20,8 | 155 | 58,5 |
fi1 | 73 | 27,6 | 20 | 7,5 | 17 | 6,4 | 110 | 41,5 |
Celkem | 147 | 55,4 | 46 | 17,4 | 72 | 27,2 | 265 | 100,0 |
Tab. č. 5
Zatímco v první skupině jsou rozdíly zanedbatelné a zastoupení f01 a fi1 dosahuje téměř 28 % a ani ve skupině druhé není mezi nimi velký rozdíl při celkově nižším zastoupení obou četností, jsou ve třetí skupině rozdíly mnohem větší; převahu mají slova f01, zatímco slova fi1 jsou zastoupena výrazně méně. Můžeme proto říci, že skutečně okazionální složku musíme hledat především mezi skupinou slov f01. Přitom se dá předpokládat, že její velikost ve výši jedné čtvrtiny celkového počtu bude asi maximální.
Při zkoumání početního zastoupení slov f01 a fi1 podle jednotlivých slovních druhů se i v tomto dílčím souboru C1 potvrzuje to, co bylo obecně [340]konstatováno již dříve, že totiž zde mají převahu slova plnovýznamová, v pořadí slovesa — 93 slov, tj. 35,1 %, substantiva — 80 slov, tj. 30,2 %, příslovce — 43 slov, tj. 16,2 %, adjektiva — 24 slov, tj. 9,1 % a číslovky — 10 slov, tj. 3,8 %, dohromady 94,4 % slov f1. Na ostatní slovní druhy připadá jen 5,6 % a většinou jsou zastoupeny jen dvěma až sedmi slovy.
Předchozí výklad můžeme uzavřít konstatováním, potvrzujícím dosavadní poznatky, že hranice mezi slovy, která se v textu vyskytla jen jednou, a slovy s vyššími četnostmi — z kvantitativního hlediska velmi výrazná — se nedá považovat za jednoznačnou dělící čáru mezi slovy stejných vlastností. V jednotlivých textech se mohou vyskytovat ta i ona v obou dílčích složkách celkového souboru hesel; své oprávnění by tato hranice mohla mít jen v tom případě, kdyby analyzovaný materiál zahrnoval velké soubory různorodých textů, jako je tomu ve frekvenčních slovnících.
Pro úplnost si všimněme, byť jen stručně, také slov, která se v textu opakují. Zachováme-li dosavadní postup a přihlédneme-li k četnostem slov nejen ve zkoumaném dílčím souboru C1, nýbrž i v celkovém souboru C, můžeme určit tři skupiny slov lišících se svými četnostmi: (1) slova, která mají vyšší četnost než 1, ale která se vyskytla pouze v dílčím zkoumaném souboru C1 (označujeme je jako f0i); (2) slova, která se vyskytla i v jiných textech, ale ve zkoumaném dílčím textu má jejich četnost převahu (představuje více než polovinu celkové četnosti z celého souboru C — označujeme je jako fii'); (3) slova, jejichž četnost je v celkovém souboru textů C vyšší než v dílčím textu C1 (představuje více než polovinu celkové četnosti — označujeme je jako fii'). Nejpočetnější je skupina třetí. Z celkového počtu 195 hesel souboru C1, která měla četnost větší než 1, se v této skupině vyskytlo 125 slov, tj. 64,1 %. Charakter této skupiny je dán již tím, jak jsou v ní zastoupeny jednotlivé slovní druhy:
Slovní druh | Celkem | |||||||||
Soubor C1 | I | II | III | IV | V | VI | VII | VIII | IX |
|
Počet V | 126 | 42 | 26 | 22 | 129 | 81 | 16 | 14 | 4 | 460 |
Počet fii' | 14 | 5 | 19 | 8 | 23 | 31 | 13 | 11 | 1 | 125 |
% z V | 11,1 | 11,9 | 73,1 | 36,4 | 17,8 | 38,3 | 81,2 | 78,6 | 25,0 |
|
% z Ʃfii' | 11,2 | 4,0 | 15,2 | 6,4 | 18,4 | 24,8 | 10,4 | 8,8 | 0,8 | 100,0 |
Tab. č. 6
V této skupině je zastoupeno 81,2 % všech předložek: bez, do, k/e/, na, o, od, po, pro, před, s/e/, v/e/, z/e/, za; 78,6 % všech spojek: a, aby, ale, ani, i, kdyby, když, nebo, protože, takže, že; 73,1 % všech zájmen : co, já, jejich, každý, který, můj, my, náš, nějaký, někdo, on, sám, se, svůj, takový, ten, ty, všechen/všecek, vy; — tyto slovní druhy představují 34,4 % celkového počtu slov fii'. Dále je zde 38,3 % všech příslovcí: asi, až, dost, jak, jako, jenom, ještě, jo, kde, moc, ne, než, ovšem, pak, pochopitelně, potom, právě, proč, přesně, sice, strašně, tady, tak, také, tam, teda, teď, už, velice, vlastně, zase; 36,4 % všech číslovek: čtyři, dva, jeden, osmnáct, první, sto, tři, víc;[12] slovesa jsou zastoupena jen 17,8 %: být, čekat, dát, dostat, dovědět se, chtít, jet, jít, líbit se, mít, muset, myslit, platit, potřebovat, povídat, přijít, říci, říkat, spát, stát, vědět, začít, zjistit; adjektiva jen 11,9 %: celý, další, dobrý, krásný, [341]veliký; substantiva 11,1 %: den, fakt, hodina, místo, nádraží, pán, půl, radost, ráno, rok, spánek, vlak; zbytek 0,8 % představují citoslovce.
Uvedená slova můžeme považovat za nejstálejší složku nejen zkoumaných projevů, ale i jiných projevů příslušné slohové vrstvy. Jde ovšem jen o pokusné vymezení, nečinící si nároky na úplnost a omezené malým rozsahem zkoumaných textů. Kdybychom přihlédli ke slovům s četností fii, dostali bychom úplnější seznam. Zastoupení spojek by dosáhlo 100 %, předložek 93,0 % a zájmen 96,2 %. Počet příslovcí by vzrostl o 32,1 % a číslovek o 27,3 %, ale počet adjektiv by se zvýšil jen o 19,0 % a počet substantiv o 18,3 %.
Zcela odlišnou skupinu představují naproti tomu slova první a zčásti i druhé skupiny. Třebaže netvoří ani polovinu slov s četnostmi vyššími než 1 (f01 — 50 slov, tj. 25,6 % a fii' — 20 slov, tj. 10,3 %), je jejich spojitost s hlavním obsahovým zaměřením dílčího zkoumaného textu i s jeho jednotlivými epizodami evidentní. Zvláště slova s četností f0i představují vlastně ve zkratce celé vyprávění, z menší části se pak v nich zrcadlí i vliv slohotvorných činitelů;[13] tato slova jednoznačně prozrazují, oč šlo jeho autorovi: svatba, oddací, rodný, křestní list, trvalé bydliště, prstýnky, nové šaty, radnice, svědci, národní výbor, maminky, slzy, ženich, svatebčané, datum, hotel, sňatek; oddat (někoho), vdávat se, slzet, zářit, topit se v slzách. Slohotvornými faktory jsou pak zřetelně podmíněna slova blbost, fantastický zmatek, vynadat, mile překvapit, nu, tož aj. Pouze menší část této skupiny představují slova z roviny základního sdělení: ráno, vejít, přímo.
Pro slova druhé skupiny není již tak charakteristická pevná vazba se sdělovaným obsahem a také početně jsou méně zastoupena: štěstí, sestra, oko nezůstalo suché. Zato je zde více slov spjatých s dílčími epizodami a slov prozrazujících stylovou příslušnost textu a individuální rysy jeho autora: rychlík, taxík; táta, milé překvapení, velikánský aj.
Závěr: V podaném výkladu o distribuci slov v projevech hovorového stylu, vycházejícím z dosavadních výsledků kvantitativního zkoumání a omezujícím se pochopitelně jen na některé otázky, jsme chtěli ukázat, jak se jeví tato problematika v mluvené řeči, a tak přispět k jejímu hlubšímu poznání.
R É S U M É
When investigating the distribution of words in actual recorded utterances of colloquial style we can see that the largest group is the one consisting of words of lowest frequency, which is by no means typical only for this register. Most frequent members of this group are words found in one text or a corpus only once (f1). In the analyzed corpus A and corpus B they made more than half of the total of all words (58% and 55%). Characteristic for this group are full words, i. e. nouns, adjectives, numerals, verbs, and adverbs, which in the f1 group made 98% leaving the 2% too other parts of speech. Typical for this group is the fact that [342]a great number of its members occur only in one of the investigated corpora. It would normally suggest that they are peripheral, exclusive, etc., words. But this is not confirmed by detailed analysis. Rare words, too, function primarily as the fundamental, neutral naming units. Only secondarily do they form the occasional component of the text as synonyms with varied expressiveness and different relation to the literary standard, or as components of word groups of varying boudness. This is confirmed by the comparison of minor and more extensive corpora of the same style. The group of more frequent words consists, on the one hand, of most of the so-called function words, i. e. prepositions and conjunctions, and of most of the pronouns, on the other hand. Besides there are, of course, many full words closely tied to the content of the investigated corpus and many other marked words chosen for stylistic reasons, both subjective and objective. It is therefore rather difficult to regard the boundary between the low frequency and the high frequency words as a criterion safely separating words into groups of different qualitative features.
[1] Podrobněji se těmito otázkami zabýval G. Herdan, Quantitative Linguistics, London 1964, zvl. pak v kap. 10 (The General Form of Vocabulary Distribution, s. 77—94); P. Guiraud, Problèmes et méthodes de la statistique linguistique, Dordrecht 1959; Ch. Muller, Initiation à la statistique linguistique, Paris 1968; M. Těšitelová, On the Role of Nouns in Lexical Statistics, sb. Prague Studies in Mathematical Linguistics 2, Praha 1967, s. 121—139; M. Těšitelová - M. Vančatová, Na okraj slovníku Franze Kafky, SaS 28, 1967, s. 421—426; M. Těšitelová, O básnickém jazyce z hlediska statistického, SaS 29, 1968, s. 362—368 aj.
[2] Srov. M. Těšitelová cit. čl. z SaS 29, 1968, zvl. s. 365, 367 aj.
[3] J. Mistrík, Frekvencia slov v slovenčine, Bratislava 1969, zvl. pak s. 73—76.
[4] J. Mistrík, o. c. v pozn. 3, sice tvrdí opak, ale z údajů na s. 73 je zřejmé, že skupina slov s četností 1 je menší než polovina všech hesel jen v textech tematicky značně vyhraněných, jako jsou učebnice, odborné texty apod. K tomu srov. M. Těšitelová - M. Vančatová, o. c. v pozn. 1, s. 423.
[5] Náhodnost není ve slově jako spíše v tom, že se do souboru textů frekvenčního slovníku nedostal text takový, který by příslušné slovo obsahoval.
[6] J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961, na s. 28 se uvádí jejich celkový počet 20 467 slov; J. Mistrík, o. c. v pozn. 3, na s. 36 uvádí 14 333 apelativ, která se vyskytla jen jednou.
[7] Jde o kratší nebo delší souvislá, nepřipravená vypravování 50 posluchačů fil. fak. UP v Olomouci (vždy 25 a 25 v jednom souboru), zaznamenaná v l. 1962—1968 na magnetofonový pás a přepsaná. Obsahují sdělení o běžných denních událostech, příhodách a zážitcích.
[8] Malý rozsah materiálu, z něhož vycházíme, a jeho omezení na monologické projevy jsou ovšem omezení, která si velmi dobře uvědomujeme; jde nám především o to, abychom přispěli k řešení naznačených otázek.
[9] Viz E. Štejnfeľdtová, Častotnyj slovar’ sovremennogo russkogo literaturnogo jazyka, Tallin 1963, s. 73—88, nebo novější vydání Häufigkeitswörterbuch der russischen Sprache, Moskau (nedatováno), s. 53—58.
[10] Souboru C a dílčího souboru C1 bylo užito jako východiska proto, že soubory A a B byly sestaveny z kratších vyprávění (do rozsahu 1000 slov). Rozsah souboru C je 10 902 slov, rozsah dílčího textu C1 1490 slov, počet všech dílčích textů je 10.
[11] V některých případech je ovšem obtížné jednoznačně zařadit slovo do té nebo oné skupiny.
[12] Kromě číslovek 1, 2, 3, 4 je výskyt ostatních číslovek do značné míry náhodný.
[13] Srov. např. M. Těšitelová, K statistickému výzkumu slovní zásoby, SaS 22, 1961, 171—181; P. Sgall a kol. Cesty moderní jazykovědy, Praha 1964, s. 104.
Slovo a slovesnost, ročník 32 (1971), číslo 4, s. 334-342
Předchozí Jaroslava Krasnická: K některým současným vývojovým tendencím v českých nářečích severovýchodních
Následující Pavel Materna: O jednom typu oznamovacích vět (Úvaha z hlediska logické sémantiky)
© 2011 – HTML 4.01 – CSS 2.1