Časopis Slovo a slovesnost
en cz

Mandelbrotův zákon a sémantické třídy

Martin Friš

[Články]

(pdf)

Mandelbrot’s Law and semantic classes

1. Úvod

V článku „Příspěvek k objektivizaci sémantických tříd“ (1992)[1] jsme na základě materiálu frekvenčního slovníku pro český jazyk Jelínek – Bečka – Těšitelová (1961) poukázali na to, že i slova spadající do jedné sémantické třídy splňují Zipfův zákon. V nynějším článku nám půjde o prohloubení tohoto poznatku na dalším materiálu.

Zatímco frekvenční slovník Jelínek – Bečka – Těšitelová (1961) zpracoval rozsáhlý materiál na základě 75 různých textů, v tomto článku zpracováváme pouze jediný text. Výsledky tím budou konkrétnější a hmatatelnější.

V této souvislosti novým způsobem řešíme otázku stanovení sémantické třídy. (Připomeňme, že do jedné sémantické třídy zařazujeme slova blízká si svým významem; Friš, 1992.) Vybereme-li odborný, vědecký text, pak do jedné sémantické třídy zařadíme všechny odborné termíny. Jako odborné termíny chápeme ty, které jsou shrnuty v rejstříku knihy. Tak dosáhneme objektivity výběru, aspoň v tom smyslu, že zařazení do sémantické třídy není vytvářeno subjektivním rozhodnutím autora tohoto článku.

K našemu experimentu jsme vybrali matematickou knížku Úvod do teorie grafů od Jiřího Sedláčka (1981).

Po zpracování sémantické třídy matematických termínů v daném textu se vyskytujících jsme zjistili, že platí: Jestliže z termínů sestavíme frekvenční slovník, pak pro tento seznam platí Mandelbrotův zákon (Mandelbrot, 1964). Abychom tento výsledek zařadili do pevného a zřetelného rámce, zkoumali jsme proto, zda celý text analyzované knihy také splňuje Mandelbrotův zákon, a podařilo se nám tento předpoklad ověřit.

Můžeme tedy shrnout, že text Sedláčkovy knihy splňuje Mandelbrotův zákon a jistá podle jasného kritéria vybraná podmnožina slov také Mandelbrotův zákon splňuje. Domnívám se, že toto shrnutí vyhovuje naší intuici a že tento výsledek není překvapující. Výsledek můžeme parafrázovat tak, že v textu jsou slova s podobným významem rozptýlena rovnoměrným způsobem a nevytvářejí se nápadné shluky či naopak mezery, když příslušná slova seřadíme do frekvenčního slovníku.

 

2. Srovnání Zipfova a Mandelbrotova zákona

Zipfův a Mandelbrotův zákon se týká frekvenčního slovníku, který získáme zpracováním nějakého textu, a vyjadřuje vztah mezi frekvencí slova f a jeho pořadím (rankem) r, jestliže slova uspořádáme do seznamu podle klesající frekvence. Zipfův zákon zní:

f = konst. / r

Zipfův zákon autor doložil v obsáhlé práci (Zipf, 1949). V letech 1952–1954 nalezl B. Mandelbrot (1964) zobecnění tohoto zákona ve tvaru:

f = K / (r + V) exp B

[114]kde K, B, V jsou konstanty charakteristické pro daný text. Zipfův zákon je tedy zvláštním případem Mandelbrotova zákona pro hodnoty konstant B = 1, V = 0. U nás se Zipfovým zákonem zabývala mimo jiné Těšitelová (1992, s. 50–53).

Mandelbrotovo zobecnění byl krok správným směrem, neboť se ukázalo, že Zipfův zákon v původní podobě neplatí pro všechny texty, ale jen pro některé. Proto také bylo o obecné platnosti Zipfova zákona právem pochybováno. Ukázalo se, že platí jen pro texty s bohatou slovní zásobou. Mandelbrotův zákon toto omezení překonává, a různé hodnoty exponentu B dovedou vystihnout různé typy textů.

Dalším kladem Mandelbrotova zákona je, že autor podal jeho důkaz. Tento matematický důkaz je reprodukován a rozveden v diplomové práci V. Valoucha (1970). Vzorec dostaneme, jestliže hledáme optimalizaci informace (podle Shannona) a vyřešíme příslušný matematický optimalizační problém. Oproti tomu Zipf důkaz svého zákona nepodal a jeho kniha (1949) obsahuje jen verbální úvahy na toto téma.

V tomto článku aplikujeme Mandelbrotův zákon. Získané výsledky by se použitím Zipfova zákona nedaly potvrdit, neboť používáme exponent B > 1.

 

3. Výsledky zpracování Sedláčkova textu

Mandelbrotův zákon je statistické povahy a proto, aby se jeho zákonitost projevila, je třeba zpracovat větší množství textu (měřeno počtem slov). Odborný text má tu výhodu, že jeho slovní zásoba je relativně úsporná (ve srovnání s kontrolním textem beletrie). Pro takovýto text ve slovníku omezený stačí pro ověření platnosti Mandelbrotova zákona zpracovat menší rozsah textu než pro texty s bohatší slovní zásobou.

Nyní uvedeme konkrétní číselné údaje o zpracovávaném textu. Zpracovali jsme stránky 26 až 100, které obsahovaly celkem 16 021 (N) výskytů slov. Do textu jsme nezahrnuli texty cvičení za jednotlivými kapitolami, ani používané matematické symboly a vzorce. Slovní zásoba z excerpovaných stránek obsahovala 1479 různých slov (V). Poměr těchto dvou čísel V/N = 1479/16021 charakterizuje bohatství slovní zásoby textu. Výzkumem otázek spojených s tímto pojmem se zabýval P. Guiraud, který dospěl ke složitějšímu vzorci

R = V/√N

Pro účely tohoto článku postačí výše použitý jednodušší vzorec. Podrobněji se Guiraudovým vzorcem pro R zabývá Těšitelová (1992, s. 76–78). Bohatství slovníku zde zkoumaného vědeckého textu je, jak už jsme naznačili, nižší než u kontrolního textu beletrie, kterým je Řezáč, Rozhraní. Tato situace je obvyklá.

Je-li bohatství slovníku nižší, stačí zpracovat menší rozsah textu, aby se platnost Mandelbrotova zákona projevila. Je-li bohatství slovníku vyšší, jako je tomu u textů beletrie, rozsah textu musí být objemnější, aby byl Mandelbrotův zákon splněn.

Frekvenční slovník celého textu uvádíme v tab. 1. Vzhledem k rozsahu materiálu se musíme ovšem omezit jen na výběr. Vybíráme jen každé 60. slovo, u nižších pořadových čísel volíme výběr podrobnější, jak je vidět z pořadových čísel. Prosíme čtenáře, aby si představil a v myšlenkách se pokusil doplnit neuvedené úseky, neboť tendence číselná je jasná.

Je pochopitelné, že teoretické a empirické hodnoty nejsou identické, ale že jsou mezi nimi jisté odchylky. Pro vyhodnocení těchto odchylek, abychom mohli říci, zda můžeme přijmout hypotézu, že Mandelbrotův zákon vystihuje empirické hodnoty, jsme použili klasický statistický test χ2. Dobrý výklad je podán např. u Reisenauera (1970). Pro jeho využití v lingvistice viz též Těšitelová (1992, s. 59–60).

[115]Je známo, že shoda frekvence vypočítané podle Mandelbrotova zákona a nalezených empirických frekvencí je dobrá jen v pásmu nízkých a středních frekvencí. Pro první pořadová čísla, kde jsou frekvence nejvyšší, není již shoda dobrá. Proto jsem pro aplikaci testu χ2 vyřadil prvních 53 nejfrekventovanějších slov. Ostatních 1426 slov jsem pro výpočet shody rozdělil do 25 skupin po 57 slovech a první skupina obsáhla 58 slov.

Jak už řečeno, Mandelbrotův zákon, který je zobecněním Zipfova zákona, zní

f = K / (r + V) exp B

kde f je frekvence slova, r je rank (pořadí) a K, B, V jsou konstanty příslušné pro daný text.

Pro stanovení konstant K, B, V jsme provedli sérii výpočtů, abychom stanovili jejich konkrétní hodnoty, a to takové, aby byla dobrá shoda mezi hodnotami empirickými a vypočtenými pro text Sedláčkův. Tento kalibrační proces nás vedl k nalezení hodnot

K = 7600, B = 1.22, V = 4

Při takto zvolené kalibraci konstant hodnota testu χ2 je 17.767. Rozhodující je, že vypočtená hodnota testu χ2 je menší než tabulková hodnota pro 24 stupňů volnosti při hladině významnosti 10 %. Tato hodnota podle tabulek je 33.196, viz např. Sadowski (1975). Znamená to tedy, že hypotézu shody empirických a teoretických hodnot můžeme přijmout.

Ke kalibraci chceme poznamenat podstatnou věc, a to, že vzorec Mandelbrotova zákona je funkce spojitá a stabilní. To znamená, že malé odchylky od nalezených hodnot dají nové výsledky, ale ležící blízko dosavadního výsledku. Tak změna konstanty K o stovky a exponentu B o setiny dají výsledek ležící blízko dosavadnímu výsledku. Je tedy rozumnější dívat se na nalezené kalibrační konstanty K, B, V jako na reprezentanty jisté oblasti stability, než připisovat jim nějaký absolutní neměnný význam, protože hodnoty konstant trochu pozměněné dají podobný přijatelný výsledek.

 

4. Sémantická třída matematických termínů

Jak jsem se už zmínil, pro sestavení slovníku matematických termínů byl jako nezávislý zdroj použit věcný rejstřík zpracovávané knihy J. Sedláček (1981). Víceslovné termíny v rejstříku jsme rozdělili na jednotlivá slova a každé slovo jsme zařadili do seznamu zvlášť. Takto jsme rejstřík převedli do seznamu (podle abecedy), v němž se vyskytují pouze jednotlivá slova. Tento seznam obsahuje celkem 200 slov. Z toho se ve zpracovávaném rozsahu textu (stránky 26–100) s nenulovou frekvencí vyskytuje 109 slov.

V daném rozsahu textu bylo nalezeno 2849 výskytů matematických termínů, což činí 17.8 % celého textu. Je vidět, že je zde dosaženo velké sevřenosti vybrané podmnožiny textu.

Relativně velký počet výskytů těchto slov dává naději, že takto jsme získali dostatečný materiál, na kterém můžeme také ověřovat platnost Mandelbrotova zákona.

Frekvenční slovník matematických termínů uvádíme v tab. 2. Pro ověření shody mezi hodnotami empirickými a teoretickými jsem opět použil test χ2. Rozdělil jsem frekvenční seznam na 22 skupin po 4 slovech. Prvních 18 nejfrekventovanějších slov jsem tedy do testu nezahrnul, neboť tam již shoda není dobrá.

Další série kalibračních výpočtů pro sématickou třídu matematických termínů stanovila hodnoty konstant, a to

K = 6900, B = 1.76, V = 4

Při takto zvolené kalibraci konstant hodnota testu χ2 je 8.275. Tabulková hodnota pro 21 (= 22 – 1) stupňů volnosti při hladině významnosti 10 % je 29.615. Znamená to tedy, [116]že hypotézu shody empirických a teoretických hodnot (s výjimkou prvních 18 slov) můžeme přijmout.

Výsledky jsou uvedeny v tab. 2.

To, že nynější hodnota exponentu B je 1.76, tedy značně vyšší než předcházející hodnota B = 1.22 pro celý text, není ovšem překvapující, a to jsme očekávali. Slovní zásoba matematických termínů je jen 109 slov, vzorec musí vypočítat rozpětí frekvencí od 1 do největší frekvence 529, a tento vyšší gradient se dá vystihnout vyšší hodnotou exponentu B, ve srovnání s výše probíraným případem. Nižší gradient průběhu frekvencí byl tu vystižen exponentem B = 1.22.

 

5. Poznámka ke znění Zipfova zákona

Zákon se někdy uvádí ve tvaru:

f . r = konst. (1)

a někdy (v správnějším tvaru):

f = konst. / r (2)

Na první pohled vypadají znění tohoto zákona jako ekvivalentní. Ale ke správnějším a lepším výsledkům vede (po dalším zpřesnění) formule (2).

Stačí, když si uvědomíme, že formule (2) umožňuje vypočítávat frekvenci f a že frekvence je celé kladné číslo, ne jakékoli reálné číslo. Je tedy přirozené při výpočtu f, kdy obecně dostaneme po dělení číslo reálné, odříznout desetinnou část za desetinnou tečkou a za výsledek považovat jen takto získané celé kladné číslo. (Druhá možná alternativa, ve které bychom čísla zaokrouhlovali, nedává příznivější výsledky.) Pak tedy je správnější Zipfův zákon zachytit formulí:

f = [konst. / r] (3)

kde hranaté závorky znamenají matematickou operaci – vzít celou část z reálného čísla. Takto změněné či zvýrazněné pojetí zákona nám umožní vyrovnat se s nepříznivými jevy, které se vyskytují, používáme-li Zipfova zákona ve tvaru (1).

Narážíme při tom na fakt, že konstanta vlastně není konstanta, ale číslo, o kterém nanejvýše můžeme říci, že se pohybuje v jistých mezích. Výrazný konkrétní příklad nastává v nejspodnější části frekvenčního slovníku uspořádaného podle klesající frekvence, kde se – pro konkrétnost řekněme – pro pořadová čísla r = 1500 až r = 1993 vyskytují slova s frekvencí f = 1. Potom samozřejmě „konstanta“ kolísá mezi hodnotou 1 . 1500 = 1500 až 1 . 1993 = 1993. Naproti tomu, když použijeme zákon ve tvaru (3), a zvolíme konst. = 1993, pak výpočet frekvence f dává vždy celočíselnou hodnotu 1, a dosahujeme tedy vynikající shody mezi hodnotami empirickými a teoretickými.

 

6. Závěr

Zpracováním frekvence slov v odborných textech a otázkami s tím souvisejícícími se zabýval Bečka (1973) a dříve i Jelínek – Bečka – Těšitelová (1961).

Zde uvedený výsledek o vztahu Mandelbrotova zákona a sémantické třídy matematických termínů není možno přeceňovat, neboť se týká jen jednoho textu. Daný výsledek by měl potvrdit anebo naopak vyvrátit další výzkum provedený na více textech. Přesto však není tento výsledek izolovaný, neboť navazuje na článek Friš (1992), kde byl podobný vztah ověřen na materiálu frekvenčního slovníku českého jazyka (1961). Nyní očekávám, že výsledek se potvrdí i pro další matematické texty. Podobně lze doufat, že tomu tak [117]bude i u textů z fyziky a chemie apod., neboť v těchto oborech jsou termíny obvykle zaváděny definicemi a mají své vyhraněné postavení. Naproti tomu by nebylo překvapením, kdyby se v textech filozofických či z oboru sociologie zde uvedený výsledek nepotvrdil. Otázka generalizace tohoto výsledku je zajímavá a zaslouží si další zkoumání. Metodika zde použitá by k tomu, podle mého názoru, mohla posloužit.

 

LITERATURA

 

BEČKA, J. V.: Lexikální složení českých odborných textů technického zaměření. Praha 1973.

FRIŠ, M.: Příspěvek k objektivizaci sémantických tříd. SaS, 53, 1992, s. 23–32.

JELÍNEK, J. – BEČKA, J. V. – TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

MANDELBROT, B.: On the theory of word frequencies and on related Markovian models of discourse. In: Structure of Language and Its Mathematical Aspects. Proceedings of Symposia in Applied Mathematics, vol. 12, American Mathematical Society 1961.

MANDELBROT, B.: Komunikace a formální struktura textů. In: Teorie informace a jazykověda. Praha 1964.

SADOWSKI, W.: Matematická štatistika. Bratislava 1975.

SEDLÁČEK, J.: Úvod do teorie grafů. Praha 1981.

TĚŠITELOVÁ, M.: Quantitative Linguistics. Praha 1992.

VALOUCH, V.: Vztahy mezi pořadím a četností kódových znaků (slov). Praha 1970. Diplomová práce.

ZIPF, G. K.: Human Behaviour and the Principle of Least Effort. Cambridge, Mass. 1949.

ZIPF, G. K.: The Psycho-biology of Language. 1. vyd. 1935, 2. vyd. M.I.T. Press 1965.

 

R É S U M É

Mandelbrot’s Law and semantic classes

The paper takes up an article of Friš (1992), where the concept of semantic classes was introduced. A semantic class covers words of mutually close meanings. In the present paper a special, scientific text is examined. All special terms are thus grouped into one semantic class.

We have found that the following conclusion holds good: if a frequency vocabulary consisting of special terms is compiled, then such a list of terms is subject to Mandelbrot’s Law. In order to place this outcome into a firm and lucid framework, we have examined whether the entire text of a book also complies with Mandelbrot’s Law and have successfully verified the validity of this assumption.

The above result is in agreement with ones intuition and it could be paraphrased by saying that words of similar meaning in a text are spread throughout the entire text in a homogenous, uniform manner without forming conspicuous clusters and/or voids, if arranged into a frequency vocabulary.

Further research is needed to verify the result also for other texts.

 

Přílohy:

Tabulka 1 a Tabulka 2.

Ve sloupci A uvádíme pořadové číslo podle klesající frekvence,

ve sloupci B příslušné slovo,

ve sloupci C nalezenou empirickou frekvenci slova v textu,

ve sloupci D teoretickou frekvenci vypočítanou podle Mandelbrotova zákona,

ve sloupci E diferenci empirické a teoretické frekvence

 

[118]Tabulka 1

 

A

 

B

C

D

E

1478

 

(2)

1

1

0

1418

 

Jaenischův

1

1

0

1358

 

cíl

1

1

0

1298

 

inspirovat

1

1

0

1238

 

myšlenka

1

1

0

1178

 

omlouvat

1

1

0

1118

 

prodloužit

1

1

0

1058

 

rozvinutý

1

1

0

998

 

symbol

1

1

0

938

 

vodič

1

1

0

878

 

zbytek

1

1

0

818

 

blízký

2

2

0

758

 

názorně

2

2

0

698

 

soulad

2

2

0

638

 

33

3

2

1

578

 

obarvit

3

3

0

518

 

16

4

3

1

498

 

magický

4

3

1

478

 

podat

4

4

0

458

 

terminologie

4

4

0

438

 

G.

5

4

1

418

 

pět

5

4

1

398

 

tvořit

5

5

0

378

 

zvolený

5

5

0

358

 

podrobně

6

5

1

338

 

vhodný

6

6

0

318

 

místo

7

6

1

298

 

dále

8

7

1

278

 

r.

8

7

1

258

 

odvodit

9

8

1

238

 

stačit

10

9

1

218

 

společný

11

10

1

198

 

vztah

12

11

1

178

 

odstranit

14

13

1

158

 

podaný

16

15

1

138

 

kubický

19

17

2

118

 

dát

24

21

3

98

 

dokázat

29

26

3

78

 

tak

36

35

1

58

 

pravidelný

47

49

–2

38

 

množina

72

79

–7

18

 

z

124

175

–51

10

 

hrana

184

303

–119

8

 

že

254

366

–112

6

 

uzel

355

457

–102

4

 

graf

529

601

–72

2

 

.

1062

854

208

 

[119]Tabulka 2

 

A

 

B

C

D

E

109

 

Betti

1

1

0

108

 

cena

1

1

0

107

 

cyklomatický

1

1

0

106

 

částečně

1

1

0

105

 

čtyřúhelník

1

1

0

104

 

had

1

1

0

103

 

koncový

1

1

0

102

 

rozdíl

1

1

0

101

 

složení

1

1

0

100

 

spojení

1

1

0

99

 

žebřík

1

1

0

98

 

blok

2

2

0

97

 

hvězda

2

2

0

96

 

kladný

2

2

0

95

 

kvaziperfektní

2

2

0

94

 

matice

2

2

0

93

 

orientovaný

2

2

0

92

 

sedm

2

2

0

91

 

trojice

2

2

0

90

 

trojúhelník

2

2

0

89

 

vzájemně

2

2

0

88

 

algebraický

3

2

1

87

 

cestující

3

2

1

86

 

dobře

3

2

1

85

 

dódekaedr

3

2

1

84

 

dvouprvkový

3

2

1

83

 

hranově

3

2

1

82

 

index

3

2

1

81

 

indukovaný

3

2

1

80

 

jednoznačně

3

2

1

79

 

magicky

3

2

1

78

 

metoda

3

2

1

77

 

obchodní

3

3

1

76

 

polohamiltonovský

3

3

0

75

 

průnik

3

3

0

74

 

silně

3

3

0

73

 

součin

3

3

0

72

 

čtvercový

4

3

1

71

 

komplementární

4

3

1

70

 

perfektní

4

3

1

69

 

průměr

4

3

1

68

 

rovinný

4

3

1

67

 

silný

4

3

1

66

 

vlastní

4

3

1

65

 

lokálně

5

4

1

64

 

metrický

5

4

1

63

 

neorientovaný

5

4

1

62

 

složený

5

4

1

61

 

uzlově

5

4

1

60

 

nerovnost

6

4

2

59

 

nulový

6

4

2

58

 

prostor

6

4

2

57

 

disjunktní

7

4

3

56

 

okolí

7

5

2

55

 

součet

7

5

2

 

 

 

 

 

 

[120]Tabulka 2 – pokračování

 

 

 

 

 

 

A

 

B

C

D

E

54

 

sousední

7

5

2

53

 

jednoduchý

8

5

3

52

 

metrika

8

5

3

51

 

nezáporný

8

5

3

50

 

prázdný

8

6

2

49

 

primitivní

8

6

2

48

 

vzdálenost

8

6

2

47

 

chromatický

9

6

3

46

 

funkce

9

7

2

45

 

vzorec

9

7

2

44

 

problém

10

7

3

43

 

úplný

11

7

4

42

 

izolovaný

12

8

4

41

 

eulerovský

13

8

5

40

 

barva

14

8

6

39

 

část

14

9

5

38

 

kvadratický

14

9

5

37

 

artikulace

15

10

5

36

 

nekonečný

15

10

5

35

 

čtyři

16

10

6

34

 

ohodnocený

16

11

5

33

 

přirozený

16

11

5

32

 

řez

17

12

5

31

 

kubický

19

13

6

30

 

sudý

20

13

7

29

 

lichý

21

14

7

28

 

lineární

21

15

6

27

 

člen

24

16

8

26

 

grafový

25

17

8

25

 

kostra

26

18

8

24

 

cesta

28

19

9

23

 

hamiltonovský

30

20

10

22

 

hranový

31

22

9

21

 

posloupnost

31

23

8

20

 

podgraf

34

25

9

19

 

uzlový

36

27

9

18

 

most

40

29

11

17

 

strom

40

32

8

16

 

tah

44

35

9

15

 

délka

47

38

9

14

 

pravidelný

47

42

5

13

 

komponenta

50

47

3

12

 

souvislost

53

52

1

11

 

konečný

59

58

1

10

 

množina

72

66

6

9

 

souvislý

77

75

2

8

 

sled

80

86

–6

7

 

faktor

81

101

–20

6

 

kružnice

83

119

–36

5

 

číslo

86

144

–58

4

 

stupeň

140

177

–37

3

 

hrana

184

224

–40

2

 

uzel

355

294

61

1

 

graf

529

406

123

 


[1] Čtenář, který by se vrátil k citovanému článku, při podrobnějším čtení nejspíše zjistí, že vzorce na straně 27, uvedené v pasáži petitem, nedávají dobrý smysl. Je to způsobeno tím, že nedopatřením z nich vypadl exponent B (resp. původně řecké beta). Prostým doplněním tohoto znaku se obnoví dobrý/správný smysl vzorců.

Slovo a slovesnost, ročník 59 (1998), číslo 2, s. 113-120

Předchozí Petr Karlík, Norbert Nübler: Poznámky k nominalizaci v češtině

Následující Jan Kořenský: Analýza dynamiky konceptuální soustavy