en cz

Příspěvek k objektivizaci sémantických tříd

Martin Friš

[Články]

A contribution to objectifying semantic classes

Pro zkoumání některých aspektů sémantiky přirozeného jazyka jsme zavedli sémantické třídy (Friš, 1983). Naše práce je motivována úsilím přispět k měření sémantické informace souvislého textu. Klasifikaci lexika do sémantických tříd pokládáme za jeden z možných výchozích bodů na této cestě. Možnost měřit sémantickou informaci ukazuje práce R. Carnapa a Bar Hillela (1954), která vychází z díla R. Carnapa (1950). Zmíněná práce poskytuje celkový rámec a základy pro zkoumání sémantické informace na rozdíl od statistického pojetí informace v práci C. Shannona (1948), založeného na pojetí entropie podle vzoru termodynamiky. Posouzení obou přístupů je možné nalézt u Brillouina (1964). Za východisko zavedených sémantických tříd byl vzat Rogetův tezaurus (1968). Protože jeho členění bylo příliš podrobné (obsahovalo 990 sémantických polí), byly z těchto skupin vytvořeny větší třídy. Principy tohoto třídění vycházejí z předpokladu, že klasifikace slovní zásoby předpokládá implicitně či explicitně i jisté filozofické východisko, jistý pohled na realitu.

Vedle seskupení slov do větších tříd (celkem 32) jsme provedli i jisté přeřazení a změnu pořadí v skupinách Rogetových. Klasifikace má vycházet i z jistých přesných kritérií (Voronin, 1985) a umožňovat jistou měřitelnost. Pak nejjednodušší číselné měřítko je prosté lineární uspořádání měřené pořadovými čísly (ordinály), zde čísly přirozenými. Přitom obvykle v případech, kdy se ještě nemůžeme propracovat k exaktnějším číselným měřítkům, uplatňuje se zásada, že první třídy jsou nejelementárnější a že na konci škály přicházíme k jevům nejkomplexnějším. Přihlížíme zároveň k důležitosti jevů v tom smyslu, co je předpokladem čeho, že elementárnější je předpokladem komplexnějšího. Do určité míry je to vlastně atomické pojetí světa, jevů. V našem případě směr uspořádání od elementárního ke komplexnímu obvykle odpovídá genetické a vývojové linii světa.

Krátce vyznačíme rozdíl mezi lineárním uspořádáním Rogetovým a přeuspořádáním naším. Oproti Rogetovi řadíme pojmy o hmotě před pojmy o člověku, vzhledem k evoluční následnosti. Obtížnější je řešení pořadí globálních skupin pojmů společnosti (sociologie) x jedince (psychologie). Na tento problém existují samozřejmě různé pohledy. Tato problematika souvisí s problematikou klasifikace věd, pro podrobnější diskusi odkazuji na knihu E. D. Graždanikova (1987). V tomto článku se kloníme k pojetí, že nejvýstižnější řešení je zde porušit striktní linearitu, která určuje, co předchází a co následuje, a říci, že svět přírody předchází jak člověka, tak společnost, ale postavit jak pojmy o společnosti, tak o člověku na stejnou úroveň. Na této úrovni je pak vzájemné působení. Tím tedy místo prosté linearity dostaneme rozvětvení, tedy jen částečné uspořádání v striktním matematickém smyslu (např. Beran, 1972). Schematicky na obrázku:

[24]

Rogetovo pojetí jsme obohatili o jistý přístup k výběru slov. Ačkoliv počet slov zpracovaný Rogetem je značný – asi 10 000, přesto některá běžná slova chybějí. Roget neměl v úmyslu zpracovat co největší rozsah slovní zásoby, ale vypracovat pomůcku, které by bylo možno využít k lepší stylizaci, výběru jazykových prostředků spisovatelů, novinářů, uživatelů jazyka vůbec. Rovněž tak je tomu se slovníky (Hallig – Wartburg, 1963; Český slovník věcný a synonymický, 1969–1977).

Výběr slov z celkové slovní zásoby jsme řešili tak, že jsme se rozhodli vybrat jen slova nejdůležitější, a to podle jistého kritéria. Na současné úrovni lingvistického poznání považujeme za nejvhodnější a zároveň měřitelný stupeň důležitosti frekvenci slova v reprezentativním frekvenčním slovníku (srov. Quine, 1969). Za reprezentativní frekvenční slovník pro češtinu jsme zvolili slovník Jelínek – Bečka – Těšitelová (1961), který pro obecnou slovní zásobu je dosud jediným takovým publikovaným dílem pro češtinu. Vybrali jsme nejprve všechna slova nejfrekventovanější do pořadí 2000, potom i do pořadí 3500. Základní obraz výsledků se tím nijak nezměnil. Další rozšiřování počtu zpracovávaných slov čistě mechanicky na slova se stále nižším pořadím (rankem), a tím i nižší frekvencí vede k zajímavým problémům. Zde jen poznamenáme, že prosté mechanické rozšiřování výběru ze slovní zásoby postupně ztrácí svou účinnost, a je tedy třeba hledat metody nové a účinnější. Rovněž je třeba poznamenat, že použití frekvenčního principu vede k výsledkům relativním, ne absolutním. Relativní tu neznamená libovolný, ale vztažený k nějakému referenčnímu rámci. Pokud použijeme jiný frekvenční slovník, sestavený na základě jiného výběru textů z množství publikovaných textů, dostaneme jiný frekvenční seznam, a tedy i kritérium výběru bude dávat poněkud odlišné konkrétní výsledky. V češtině byly dále sestaveny frekvenční slovníky z textů vědeckých, a to technických a přírodních (Bečka, 1974), a z textů věcného stylu, publicistického, odborného a administrativního (Těšitelová et al., 1983). Nicméně porovnání frekvenčního seznamu prvních dvou tisíc slov ve slovnících pro češtinu (Jelínek – Bečka – Těšitelová, 1961), angličtinu (Thorndike – Lorge, 1972), ruštinu (Šteinfeldt, 1963), němčinu (Rachmanov, 1967) ukazuje, že v těchto seznamech jsou velké shody.

Náš výzkum slovní zásoby vychází ze spojení dvou principů:

primárního	– metoda sémantických polí,
sekundárního	– metoda frekvenční.

[25]Podobný přístup zpracování, jako je náš, je použit i v knize V. V. Morkovkina et al. (1984), kde jsou slova rozčleněna do 29 tříd a 254 skupin podle kombinovaných údajů 8 frekvenčních slovníků ruského jazyka. Na tento slovník pak navazuje další práce V. V. Morkovkina et al. (1985).

Účelem tohoto článku je zkoumat objektivní platnost sémantických polí a přispět k objektivně platné klasifikaci slov z hlediska sémantiky porovnáním různých sémantických systémů a klasifikačních schémat. Ačkoliv výzkum sémantických polí se v lingvistice uplatňuje již dávno, jsou proti němu vznášeny zejména námitky, že výběr sémantických polí je údajně závislý jen na subjektivitě autora. Proti tomu můžeme namítat:

(1) Existuje vzájemná převoditelnost (tj. přeložitelnost) jednoho systému sémantických polí na systémy jiné. Provedli jsme převod své klasifikace na klasifikaci tezauru Rogetova a na klasifikaci Českého slovníku věcného a synonymického.

(2) Rozdělení sémantických tříd v souvislém standardním beletristickém textu je statisticky vzato homogenní. Zjistili jsme to konkrétně na materiálu knihy V. Řezáče, Rozhraní. Příklad nehomogenity rozdělení sémantických tříd jsme našli v souvislém vědeckém textu, konkrétně Sedláček, 1981.

(3) Klasifikaci slovní zásoby pomocí sémantických tříd jsme porovnali a uvedli do souvislosti s klasifikací vědních oborů (založenou na seznamu vysokých škol).

(4) Pro slova v těchto sémantických třídách (jako podmnožiny celých textů) platí Zipfův zákon (srov. odd. 4).

Cesta k objektivizaci zřejmě vede přes intersubjektivní fázi, tj. střetnutí více subjektivních východisek a jejich následné vyrovnání do jakési sjednocující koncepce. Cesta přes intersubjektivní fázi je přirozená a asi ji nelze obejít při řešení protikladu subjektivní – objektivní.

1. Vytvoření sémantických polí

Pro vytvoření struktury sémantických polí využijeme vztah sémantické blízkosti či podobnosti slov. Tento vztah je vlastně rozšířením klasického vztahu dvou slov, mezi nimiž platí synonymie. Pro zpřesnění si vybereme jeden rys, který exaktně vymezíme. Z důvodů terminologických zvolíme termín srovnatelný (významem). O dvou slovech a, b řekneme, že jsou srovnatelná či nesrovnatelná významem. Relaci srovnatelnosti budeme značit COM. Pak tedy platí buď COM (a,b), nebo neplatí COM (a,b,). Jde o binární relaci, jíž množinu slov rozdělíme na třídy ekvivalence, a to zcela konstruktivně tím, že předložíme seznam všech slov v jednotlivých třídách. Podle klasické partie teorie množin (např. Kuratowski – Mostowski, 1968), jak známo, mají třídy ekvivalence tyto vlastnosti:

1) každý prvek patří právě do jedné třídy,

2) třídy jsou párově disjunktní,

3) jejich sjednocení dává celou množinu.

Koncepce opřená o relaci srovnatelnosti nám dává možnost mluvit o sémantických třídách, nikoli jen o sémantických polích. V rámci této práce pokládáme oba termíny za ekvivalentní a oba budeme používat ve vhodných kontextech. Termín sémantická třída má oporu v terminologii matematiky a matematické logiky.

2. Určení podobnosti slov

Mluvčí jazyka je zpravidla schopen odpovědět na otázku, jsou-li si dvě slova podobná, nebo ne, tj. srovnatelná významem. Můžeme se mluvčího např. dotazovat, proč danou dvojici slov považuje za podobnou, či ne, můžeme dokonce měřit nějaké jeho psychologicko–fyziologické reakce (takové pokusy se dělaly, viz Fiala, 1982). Když bude mluvčí vysvětlovat, proč považuje nějakou dvojici slov za srovnatelnou, či nikoli, [26]bude jistě odkazovat na význam slova, na jeho výklad. Avšak výkladové slovníky jsou z principu neuspokojivé. Pokoušíme se řešit problém vymezení významu slova tím, že ho zařazujeme do vyššího významového rámce, kterým je pro nás konkrétní obor vědy. Pro tento účel jsme stanovili korespondenci mezi sémantickými třídami a konkrétními vědeckými obory.

3. Vlastnosti soustav sémantických polí

Podle našeho názoru je pro soustavu sémantických polí výhodné, aby se vyznačovala těmito vlastnostmi:

1) Obsahovala malý počet základních polí – a to pro přehlednost.

2) Obsáhlejší třídy by měly být rozčleněny na stejný počet tříd nižšího stupně.

3) Měla by obsahovat všechna slova vymezená jistým přesným kritériem, tj. měla by být univerzální.

Ad 1): V uvedeném systému sémantických tříd rozlišuji 32 tříd. Při práci s počítačem lze pak postupovat tak, že sestavíme slovník daného textu. Ke každému slovu slovníku přiřadíme jeho překlad do sémantické třídy, tj. zařazení do jedné ze sémantických tříd, a slovo označíme číslem té třídy, do které patří. Pak program čte text, vyhledá pro každé další slovo jeho překlad do sémantické třídy a zapíše ho jako příslušné číslo 1 až 32. Odpovídající počítačový program byl již implementován na PC a bylo jím reálně zpracováno přes 90 stránek souvislého textu z těchto knih: V. Řezáč, Rozhraní; J. Sedláček, Úvod do teorie grafů; L. Beran, Grupy a svazy. V tomto pojetí (překlad českého textu do sémantických tříd) lze pak toto značení chápat jako jednoduchý jazyk, který se skládá jen ze znaků 1–32. Nazveme jej jazyk ORBIS.

Ad 2): Každá sémantická třída se člení na tři podtřídy, nazývané sémantické skupiny, tak, že do skupin byla zařazena slova, která si jsou významem nejbližší. Rozdělení na tři skupiny bylo provedeno jako záměrná konstrukce. Z praktických důvodů byla dána přednost tomuto rozdělení před rozdělením na 2, 4 či 5 skupin. Toto rozdělení na skupiny též splňuje dvě vlastnosti: (1) počet slov ve skupinách je zhruba stejný, tj. obsahuje-li nějaká třída např. 60 slov, pak skupiny 1., 2. a 3. obsahují zhruba po 20 slovech. (2) Je možné pozorovat tendenci, že v seznamu slov libovolné třídy uspořádaném podle klesající frekvence je zastoupení slov podle příslušnosti do skupin zhruba rovnoměrné.

Ad 3): Slovník zařazující slova do sémantických tříd zahrnuje všechna slova do jisté úrovně podle přesně vyjádřitelného kritéria frekvence. Běžné slovníky sémantických polí některá slova základní i velmi frekventovaná neuvádějí. V tezauru Rogetově nenajdeme např. slovo bridge (most). V Českém slovníku věcném a synonymickém nenajdeme např. předložky. Autoři těchto slovníků vidí jejich hlavní určení v použití pro stylistické účely. Je-li však třídění univerzální, pak umožňuje zpracovat souvislý text a překlad do jazyka sémantických tříd (např. ORBIS).

4. Sémantické třídy a první Zipfův zákon

Zipf (1949) na rozsáhlém materiálu vyjádřil statistickou zákonitost mezi frekvencí f a rankem r ve frekvenčním seznamu uspořádaném podle klesající frekvence slov:

r ∙ f = k (konstanta).

Tato Zipfova zákonitost má širší oblast použití, nevztahuje se pouze na jevy jazykové, ale i na jevy v ekonomické geografii. Platí např. pro vztah mezi pořadím města podle jeho velikosti (počtu jeho obyvatel) a počtem jeho obyvatel.

Později se zabýval poměrem mezi rankem a frekvencí Mandelbrot (1954). Platnost vztahu mezi pořadím slov a frekvencí se totiž výrazně porušuje pro počáteční úsek slov frekvenčního seznamu a též pro koncový úsek je shoda slabší. Mandelbrot zavedl zobecňující modifikaci, zvanou kanonický zákon, kde se vyskytují další dvě konstanty B_o, b.

f = k/ (B_o + r)^b.

[27]Tím se také vhodnou volbou konstant B_o, b lépe vystihují různé typy textů. Mandelbrot dále podal za jistých zjednodušujících předpokladů matematický důkaz svého kanonického zákona jako řešení optimalizační úlohy z teorie informací. Přístupný výklad je podán u Brillouina (1964) nebo detailně v diplomové práci V. Valoucha (1969). Hlavní myšlenky důkazu zde uvedeme ve zkratce.

1) Určíme počet textů N(t), které při daném kódování mají celkovou cenu t.
2) Dále vyřešíme úlohu, jak maximalizovat pro text, jehož celková cena je t, jeho celkovou informaci

i = – N ∙ ∑ p_j log p_j

tj. určit, pro jaká p_j a N je hodnota funkce i maximální.
3) Dalším odvozováním dostaneme nakonec:

Odtud po úpravách závěrečné:

Naproti tomu ostré polemické výhrady k Zipfovu prvnímu zákonu byly publikovány Herdanem (1962, 1964). Zajímavou interpretaci zákona na základě Paretovy distribuce podává Králík (1988).

Jako východisko našich úvah zde vezmeme empirické pozorování, že jistým „rozmazaným” způsobem je Zipfova zákonitost splněna pro frekvenční seznam slovníku Jelínek – Bečka – Těšitelová (1961). Konkrétně pro slova v rozmezí pořadí mezi 2000 a 10 000 je konstanta k = r ∙ f v průměru rovna 165 000, hranice horní odchylky je 194 000 a hranice dolní odchylky je 140 000, srov.:

r	f	r ∙ f = k
2000	97	194 000
3000	62	186 000
4000	44	176 000
5000	33	165 000
6000	27	162 000
7000	22	154 000
8000	18	144 000
9000	16	144 000
10000	14	140 000

Prozkoumejme, jak se zachová platnost zákonitosti při jistých regulárních výběrech slov z celkového frekvenčního seznamu. Předpokládejme, že na nějakém dostatečně rozsáhlém slovním materiálu je poměr mezi pořadím a frekvencí slova zcela ideálně splněn, tj. f ∙ r = k (konst.). Předpokládejme, že k je velké, např. k = 10 000. Ze vzorce pak plyne, že 10. slovo má frekvenci 1000, 20. slovo frekvenci 10 000/20 = 500, 30. slovo 10 000/30 = 333, 40. slovo frekvenci 250. Ze seznamu slov udělejme dále výběr tak, že vezmeme pouze 10. slovo, 20. slovo, 30., 40., tj. každé desáté. Tento výběr nazveme regulární. Slova tohoto výběru mají frekvence postupně: 1000, 500, 333, 250, 200, 166 atd., a tedy také splňují Zipfův první zákon, a to s konstantou 10krát menší, než byla původní k = 10 000.

[28]Formální důkaz je snadný. Je-li f ∙ r = k, pak f ∙ r/10 = k/10. Pro r/10 zavedeme novou proměnnou r’. Pak platí f ∙ r’ = k/10 = k’. Připomínáme, že r’ označuje pořadí v provedeném regulárním výběru. Je tedy vidět, že pro něj platí Zipfův zákon, ale s konstantou k’.

Jestliže tedy náš výběr slov z frekvenčního seznamu 2000 nejfrekventovanějších slov (podle slovníku Jelínek – Bečka – Těšitelová, 1961) vzniklý rozdělením do sémantických tříd bude regulární (s jistými dostatečně malými odchylkami), pak i slova v sémantických třídách uspořádaná podle frekvence budou splňovat Zipfův první zákon. O tom jsme se přesvědčili propočítáním všech příslušných r’ ∙ f. Souhrnný výsledek s uvedením statistické standardní odchylky je uveden v tabulce č. 2, a jak se zákonitost projevuje pro jednu konkrétní třídu, je uvedeno v tabulce č. 3.

Pro větší názornost uvádíme i následující aproximaci. Stačí si uvědomit, že regulární výběr má i tu vlastnost, že rozdělíme-li seznam slov na čtyři skupiny podle pořadí takto:

A: pořadí 1–500, B: pořadí 501–1000, C: pořadí 1001–1500, D: pořadí 1501–2000, pak počet slov regulárního výběru v intervalech A, B, C, D musí být v ideálním případě stejný. Tj. je-li např. počet slov v regulárním výběru 52, pak v intervalech A, B, C, D by mělo být po 52/4=13. Tuto vlastnost můžeme empiricky pozorovat v tabulce č. 1, kde jsou zároveň vidět reálné odchylky od ideálního vzoru.

Shrnujeme: Pro zde uváděnou klasifikaci sémantických tříd platí v jistých dostatečných mezích Zipfův první zákon.

Získané výsledky jsou jen prvními kroky na cestě zkoumání této oblasti a nemusí se jevit jako zcela přesvědčivé. Pokud však tento článek podnítí další výzkum v této oblasti, bude tím jeho poslání naplněno. Jako nejúčelnější se nyní jeví prozkoumat jeden rozsáhlý souvislý text z beletrie.

5. Závěr

Ve své práci jsme představili jazyk sémantických tříd ORBIS a uvedli některé jeho vlastnosti. Jiný jazyk sémantických tříd v češtině je jazyk SEMAN, vypracovaný v pražském Ústředí vědeckých, technických a ekonomických informací (ÚVTEI) a aplikovaný na zpracovávání rešerší. Krátce se zmíníme o srovnání jazyků SEMAN a ORBIS. Nejedná se o dva jazyky konkurenční, ale komplementární. Hlavní kontrastní rys je, že jazyk SEMAN je analytický, zatímco ORBIS je syntetický. SEMAN jednomu slovu přiřazuje více znaků na základě výkladové definice slova, naproti tomu ORBIS více slovům přiřazuje jediný společný znak.

Metoda sémantické klasifikace jazyka se ve spojení s počítačem řadí mezi současné proudy zpracování textů počítačem.

Tab. č. 1: Rozložení počtu slov v sémantických třídách

	sémantická třída		celkem	A	B	C	D
01	bytí, událost		28	08	10	06	04
02	vztah, seskupení		49	16	14	11	08
03	množství, číslo		52	14	17	08	13
04	řád, zákonitost		51	13	12	13	13
05	změna, příčina		70	12	24	22	12
06	čas, období		34	12	12	04	06
07	průběh času		52	18	14	12	08
08	prostor		50	10	12	13	15
09	tvar		37	05	10	13	09
10	pohyb		62	13	09	15	25
11	přenos, změna polohy		43	04	12	12	15
12	hmota, krajina		45	08	12	11	14
13	vlastnosti hmoty, smysly		77	15	20	23	19
[29]	sémantická třída		celkem	A	B	C	D
14	živočich, biologická činnost		42	11	08	13	10
15	části organismu		43	09	12	13	09
16	práce, činnost		42	17	02	08	15
17	zemědělství, průmysl, doprava		49	06	17	09	17
18	obchod, majetek, dát		61	15	16	15	15
19	úřad, řízení, výchova		61	03	13	25	20
20	společnost, stát, skupina		62	16	17	17	13
21	boj, politika, armáda		40	03	12	05	20
22	vztahy mezi lidmi, morálka		63	08	17	15	23
23	rodina, sex, přátelství		69	18	18	16	17
24	město, obydlí, domácnost		47	10	13	12	12
25	oděv, jídlo, nemoc		30	02	11	06	11
26	zpráva, řeč, psaní		53	11	18	13	11
27	hledání, vyučování, pravda		71	16	11	25	19
28	myšlení, vědomost		69	11	23	19	16
29	věda, umění, náboženství		47	06	16	16	09
30	charakter, zážitek, zábava		48	09	14	13	12
31	nálada, dojmy, city		49	07	17	13	12
32	lidská situace		39	02	05	11	21


		suma celkem	1635
		slova gramatická a jména	365

A, B, C, D označují klesající pořadí v seznamu prvních 2000 slov uspořádaných podle frekvence (podle údajů frekvenčního slovníku Jelínek – Bečka – Těšitelová)
A označuje slova v pořadí 1–500,
B označuje slova v pořadí 501–1000,
C označuje slova v pořadí 1001–1500,
D označuje slova v pořadí 1501–2000.
Pod záhlavím celkem je uveden celkový počet slov v dané sémantické třídě. Pod záhlavím A, B, C, D je uveden počet slov, která se vyskytují v příslušném intervalu pořadí.

Tab. č. 2: Zipfova zákonitost pro sémantické třídy a meze její platnosti

1.	2.	3.
03	5718	1097
04	5050	982
05	6982	1156
06	4761	1125
07	6704	1286
08	4461	886
09	3304	757
10	5043	929
11	3659	777
12	4120	854
13	6559	1293
14	4298	917
15	4465	945
16	4579	977
17	4104	816
18	5929	1055
[30]1.	2.	3.
19	4729	846
20	6399	1130
21	3005	671
22	4989	877
23	6892	1154
24	4485	910
25	2710	689
26	5316	1015
27	6261	1035
28	5765	1137
29	4459	906
30	4568	916
31	4326	871
32	2643	600

Legenda:
Sloupec č. 1 označuje číslo sémantické třídy – tak, jak jsou očíslovány v tab. č. 1.
Sloupec č. 2 uvádí aritmetický průměr součinů r ∙ f, tj. pořadí krát frekvence. Do výpočtu není zařazeno prvních pět slov v pořadí, kde – jak známo – jsou odchylky od Zipfova zákona největší.
Sloupec č. 3 uvádí standardní odchylku od aritmetického průměru.
Ve dvou případech – třídy 13, 28 – byl výpočet aritmetického průměru a standardní odchylky z technických důvodů proveden jen pro prvních 50 slov.
Konkrétní představu, jaké jsou velikosti frekvence a součinu pořadí a frekvence a jejich odchylky od vypočteného aritmetického průměru, je možné získat z tab. č. 3, kde jsou uvedeny tyto hodnoty pro sémantickou třídu 4.

Tab. č. 3: Třída 4: řád, zákonitost

r		frekv.			r ∙ frekv.
01	poslední	902			902
02	opět	683			1366
03	stejně	630			1890
04	hlavní	604			2416
05	třída	555			2775
06	určitý	533			3198
07	řada	531			3717
08	zvláštní	510			4080
09	stupeň	504			4536
10	způsob	500			5000
11	základ	486			5346
12	metoda	416			4992
13	druh (neživ.)	385			5005
14	základní	366			5124
15	funkce	327			4905
16	obor	309			4944
17	řád	294			4998
18	pořádek	283			5094
19	obecný	262			4978
20	typ	234			4680
21	prostý	232			4872
22	systém	227			4994
23	soustava	212			4876
[31]r		frekv.			r ∙ frekv.
24	obyčejný	209			5016
25	úplně	204			5100
26	normální	196			5096
27	rytmus	180			4860
28	jednoduchý	179			5012
29	přirozený	169			4901
30	průměrný	160			4800
31	struktura	159			4929
32	náhoda	151			4832
33	zvyk	148			4884
34	ráz (subst.)	148			5032
35	zařízení	148			5180
36	podivný	145			5220
37	složitý	140			5180
38	úroveň	140			5320
39	obyčejně	127			4953
40	souvislost	124			4960
41	všeobecný	121			4961
42	odvětví	120			5040
43	pravděpodobnost	118			5074
44	náhodný	117			5148
45	zpravidla	116			5220
46	samostatný	115			5290
47	zmatek	112			5264
48	určitě	108			5184
49	řádný	105			5145
50	příslušný	104			5200
51	princip	100			5100
	s výjimkou prvních pěti slov:
				maximum: 5346		minimum:	3198
			průměr: 5050		standardní odchylka:		982

LITERATURA

Bečka, J. V.: Lexikální složení českých odborných textů technického zaměření. Praha 1974.

Beran, L.: Grupy a svazy. Praha 1974.

Brillouin, L.: Nauka i teorija informacij. Moskva 1964.

Carnap, R.: Logical Foundations of Inductive Probability. Chicago 1950.

Carnap, R. – Bar–Hillel, Y.: Sémantická informace. In: Teorie informace a jazykověda. Praha 1964, s. 165–175.

Český slovník věcný a synonymický. Haller J. et al. 3. vyd. Praha 1977.

Fiala, J.: Labyrinty jazyka. Praha 1982.

Friš, M.: The frequency and ideographic classification in a thesaurus. Prague Bulletin of Mathematical Linguistics, 41, 1983, s. 36–46.

Graždanikov, E. D.: Metod postrojenija sistemnoj klassifikacii nauk. Novosibirsk 1987.

Hallig, R. – Wartburg, W.: Begriffsystem als Grundlage für die Lexikographie. Berlin 1963.

Herdan, G.: The Calculus of Linguistic Observations. Haag 1962.

Herdan, G.: Quantitative Linguistics. London 1964.

Jelínek, J. – Bečka, J. V. – Těšitelová, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

[32]Komenský, J. A.: Orbis pictus. Praha 1941.

Kosovskij, B. I.: Obščeje jazykoznanije. Minsk 1974.

Králík, J.: Some notes on the frequency–rank relation. Prague Studies in Mathematical Linguistics, 8, 1983, s. 67–80.

Kuratowski, K. – Mostowski, A.: Set Theory. Amsterdam 1968.

Longman Lexicon of Contemporary English. McArthur T. London 1985.

Morkovkin, V. V. et al.: Leksičeskaja osnova russkogo jazyka. Moskva 1984.

Morkovkin, V. V. et al.: Leksičeskoje minimum sovremennogo russkogo jazyka. Moskva 1985.

Quine, W. O.: The Ways of Paradox. Cambridge, Mass. 1969.

Rachmanov, I. V.: Slovar’ naiboleje upotrebitel’nych slov nemeckogo jazyka. Moskva 1967.

Roget Thesaurus. Penguin books, Hardmondsworth 1968.

Sedláček, J. Úvod do teorie grafů. Praha 1981.

Shannon, C. E.: A mathematical theory of communication. Bell Syst. Tech. Journal, 27, 1948, s. 379–423, 623–656.

Smetáček, V.: Sémantický analyzátor. Úvod do problematiky. Olomouc 1982.

Smetáček, V.: Sémantický analyzátor. Experimentální ověřování. Olomouc 1984.

Smetáček, V.: Základní informace o bázi BALEX. Československá informatika, 11, 1988, s. 330–333.

Šteinfeldt, E.: Častotnyj slovar’ russkogo jazyka. Tallin 1963.

Těšitelová, M.: Otázky lexikální statistiky. Praha 1974.

Těšitelová, M.: Využití statistických metod v gramatice. Praha 1980.

Těšitelová, M. (ed.): Frekvenční slovník češtiny věcného stylu. Praha 1983.

Thorndike, E. L. – Lorge, I.: The Teachers Word Book of 30 000 Words. New York 1972.

Valouch, V.: Vztahy mezi pořadím a četností kódových znaků (slov). Praha 1970. Diplomová práce.

Voronin, J. A.: Teorija klassificirovanija i jeje priloženija. Novosibirsk 1985.

Zipf, G. K.: Human Behaviour and the Principle of Least Effort. Cambridge, Mass. 1949.

R É S U M É

A contribution to objectifying semantic classes

This article attempts to distribute 2000 most frequent Czech words (according to the dictionary Jelínek – Bečka – Těšitelová) into particular semantic fields. The starting point of this distribution is Roget’s Thesaurus.

The Czech set was compared with a similar set of English and Russian words and striking similarities among them were discovered. It is obvious that semantic features of the most frequent words are interlingual.

Since the system of semantic fields presented in my article is quite small (consisting of only 32 fields) it is greatly efficient.

It is especially noteworthy that 2000 most frequent words chosen fulfil within certain bounds Zipf’s rank–size theorem. Furthermore I demonstrate that even if I distribute these words into 32 semantic subsets and rank them on the descending scale of frequency the lists obtained also fulfil to some degree the rank–size theorem. Additional corroboration of my hypothesis on greater data is necessary to prove it beyond any reasonable doubt.

Slovo a slovesnost, ročník 53 (1992), číslo 1, s. 23-32

Předchozí Bronislava Volková: K emotivní sémantice a sémiotice

Následující Milada Hirschová: Neurčitost komunikačních funkcí ve spontánních mluvených projevech

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: