Marie Ludvíková
[Články]
Комбинаторика чешских фонем с квантитативной точки зрения / La combinatorique des phonèmes tchèques du point de vue quantitatif
Tento příspěvek je pokračováním výzkumu kvantitativních vlastností soustavy českých fonémů, prováděného v oddělení matematické lingvistiky v Ústavu pro jazyk český ČSAV, a navazuje na článek uveřejněný v tomto časopise.[1] Zatímco první článek obsahuje statistiku fonémů a dvojfonémových skupin (digramů) v češtině a odhad hlavních teoretickoinformačních charakteristik jazyka na podkladě fonologické soustavy, tento příspěvek se soustřeďuje na kombinatorické vztahy mezi fonémy. — Podobným tématem na rovině grafematické se zabývali L. Doležel a J. Průcha,[2] jimž šlo o statistické zjištění závislosti mezi relativní četností grafému a jeho valencí a mezi četností a entropií valenčního pole. I když věnuji pozornost i tomuto aspektu kombinatoriky fonémů, má předkládaná práce jiný charakter, podmíněný odlišnou komplexní povahou zkoumané jednotky. Všímá si jednotlivých fonémových typů a jimi vytvářených kombinací, zkoumá rozložení fonémů v kombinaci se slovní hranicí (pauzou) na počátku a na konci slova a pokouší se postihnout některé vztahy mezi kvalitativními a kvantitativními vlastnostmi fonémů.
Materiál, o nějž se zde opíráme, byl podrobně popsán v článku cit. v pozn. 1. Jde o 10 výběrů po 250 větách z textů různého stylového zaměření, v nichž je zastoupen styl odborný, novinářský, umělecká próza, poezie a divadelní hra. Z hlediska statistického byl soubor 186 641 fonémových jednotek pořízen kombinovanou metodou výběru náhodného a mechanického a byla ověřena jeho statistická reprezentativnost. Fonémový inventář tvoří 39 prvků: z nich je 10 fonémů vokalických (/a/ /e/ /i/ /o/ /u/ s příslušnými délkami), 25 fonémů konsonantických (/p/ /b/ /t/ /d/ /k/ /g/ /f/ /v/ /ť/ /ď/ /s/ /z/ /š/ /ž/ /h/ /ch/ /c/ /č/
/m/ /n/ /ň/ /l/ /r/ /ř/ /j/), 3 dvojhlásková spojení fonémů (/ou/ /au/ /eu/) a symbol pro hranici mezi slovy (#). Vybrané texty byly fonologicky přepsány, přičemž transkripce usilovala o zachycení pečlivé výslovnosti češtiny.
Kombinatorické vlastnosti fonémů se hodnotí na distribuční bázi a posuzují se vzhledem k minimálnímu kontextu (okolí), v němž se mohou vyskytovat. [57]Protože kombinační schopnost fonému ve vztahu k pozici předcházející a následující je rozdílná, rozlišujeme množinu fonémů v pozici, která daný foném předchází (tzv. přední kombinační pole fonému), a množinu fonémů, která za daným fonémem následuje (tzv. zadní kombinační pole fonému). Výsledky statistických šetření svědčí o tom, že kombinační vlastnosti fonémů jsou natolik odlišné, že je možno fonémy rozdělit do několika skupin, které se zhruba kryjí s typem fonémů vokalických, sonantických a konsonantických; v nich pak na základě frekvenčního rozložení lze vydělit podskupiny vyznačující se jistou kvalitativní příbuzností, akustickou nebo artikulační.[3] Kvalitativně příbuzné fonémy mají i podobné kombinatorické vlastnosti, které se jeví v rozložení četností množiny kombinovatelných fonémů v jejich předním a zadním poli.
V našem statistickém materiálu 186 641 fonémů se realizovalo 896 různých dvojčlenných kombinací, tj. 58,91 % z celkového počtu 1521 teoreticky možných digramů. Zbývajících 41,09 % jsou a) možné kombinace, které se nevyskytly vůbec nebo se vyskytly s relativní četností menší než 10–5 (např. /aú/, /cp/ a všechny kombinace s jednotkou /eu/), b) kombinace, které jsou potenciálně možné, ale jazyk jich nevyužívá (/šč/, /tj/ apod.), c) kombinace vyloučené (např. 2 dlouhé vokály, znělý a neznělý foném aj.). Frekvenční rozložení dvojčlenných kombinací českých fonémů, na něž se v textu odvolávám, je uvedeno v příloze k článku cit. v pozn. 1.
Nejprve si všimneme kombinačních vlastností vokalických fonémů, tj. skupiny, která se vyznačuje nejvyšší četností výskytu. 5 krátkých vokálů představuje v češtině 32,12 % textu, 5 dlouhých vokálů 8,29 %, 2 diftongy 0,89 % textu.
Krátké vokalické fonémy (/a/, /e/, /i/, /o/, /u/) tvoří vyvážený systém v rozmezí 29—31 kombinovatelných prvků v předním poli a s 29—35 prvky v zadním poli. Vysvětlení této vyrovnanosti, která je příznačná i pro některé sonantické fonémy, lze hledat i v jejich funkci jako nositele slabiky. V počtu prvků, které mohou krátký vokalický foném předcházet a za ním následovat, jsou vedle pauzy zahrnuty všechny konsonantické a sonantické fonémy a všechny krátké vokály. Kombinace dvou krátkých vokálů je v češtině dosti častá a objevuje se převážně na morfémové hranici mezi předponou a slovním základem (např. neangažovat, vyobrazit). V této situaci se dva krátké vokalické fonémy mohou celkem volně kombinovat, a i když se všechna možná spojení v textu nevyskytla, lze je považovat za spojení potenciální, s pravděpodobným výskytem v nějakém větším korpusu (nevyskytla se spojení /ie/, /ii/, /ue/, /ui/). Krátké /e/ a /o/ se kombinovalo v zadním poli i s některými vokály dlouhými v slovech cizího původu nebo na morfémové hranici slov českých; byly zaznamenány tyto kombinace: /eá/ (peán), /eí/ (teín), /eó/ (neón), /oá/ (oáza), /oí/ (mikoín), /eú/ (neústupný). Opačná kombinace, dlouhý vokál + krátký vokál, se nerealizovala a lze ji považovat v češtině za vyloučenou. Rovněž kombinace dvou dlouhých vokálů patří mezi kombinace v češtině neužívané. Přehled výskytu jednotlivých kombinačních typů je uveden v tab. I.
V délkové opozici ke krátkým vokalickým fonémům stojí jako příznakový
[58]Počet vyskytnuvších se fonémových kombinací v jednotlivých kombinačních typech
/kVkV/ /kVdV/ /dVkV/ /dVdV/ | 40 6 — — | /kVDi/ /DikV/ /dVDi/ /DidV/ | — — — — | Vysvětlení symbolů: /kV/ — krátký vokalický foném /dV/ — dlouhý vokalický foném /Di/ — diftong /C/ — konsonantický foném /S/ — sonantický foném |
/kVC/ /dVC/ /DiC/ | 105 81 20 | /CkV/ /CdV/ /CDi/ | 104 77 16 | |
/dVS/ /kVS/ /DiS/ | 20 20 5 | /SkV/ /SdV/ /SDi/ | 20 19 6 | |
/CS/ /SC/ | 63 68 | /CC/ /SS/ | 206 20 |
Tab. I
člen dlouhé vokalické fonémy. I když počet kombinačních prvků v jejich předním i zadním poli je vesměs dosti vysoký (pohybuje se mezi 18 a 28), tvoří dlouhé vokály pouze 203 různých kombinací z 380 teoreticky možných, tedy téměř o 1/3 méně než krátké vokály, u nichž se realizovalo 295 kombinací rovněž z 380 teoreticky možných. Bezpříznakové členy fonologického systému totiž zpravidla vykazují vyšší četnost a tvoří více kombinací než členy příznakové. Tento jev lze pozorovat vedle poměru krátkých a dlouhých vokálů i v poměru konsonantických fonémů znělých a neznělých, palatalizovaných a nepalatalizovaných; Greenberg jej řadí k jazykovým univerzáliím.[4] Jednotlivých prvků systému dlouhých vokalických fonémů se dosti nestejně využívá a mají i různou závažnost.
Nejdůležitějším prvkem se podle našich výsledků jeví dlouhé /í/, a to jak počtem vytvářených kombinací, tak jejich četností; v předním i zadním poli má po 26 prvcích, maximální četnosti dosahuje ve spojení /ňí/ (0,00670) a /ím/ (0,00455). Za ním následují dlouhé /á/, /ú/, menší kombinační schopnost má dlouhé /é/ (celkem 41 kombinací). Dlouhé /ú/ vytváří sice větší počet kombinací (celkem 45), ale s nízkými četnostmi (v rozmezí 0,00055—0,00001). Ze systému dlouhých vokálů se kvantitativně vymyká dlouhé /ó/, které má kombinační pole přibližně poloviční ve srovnání s ostatními dlouhými vokály, zpředu se pojí s 13 prvky, za ním může následovat 9 prvků s minimální četností (nejfrekventovanější ó-ová spojení /óm/ a /óz/ mají četnost 0,00012). Tato situace je důsledkem hláskových změn, jimiž prošel samohláskový systém češtiny, kdy dlouhé /ó/ z domácích slov vymizelo a do lexika vstoupilo opět s přejímáním slov cizího původu.
Podle četnosti i kombinačních vlastností se k dlouhým vokálům kvantitativně řadí diftongické spojení /ou/, které jsme v tautosylabické pozici brali jako samostatnou jednotku (na rozhraní dvou slabik jako jednotky dvě). Poměr počtu kombinací diftongu /ou/ v předním a zadním poli je 19 : 22, četností výskytu kombinací stojí mezi dlouhým /é/ a /ú/, nejvyšší četnosti dosahuje kombinace /nou/ (0,00136). Diftongické spojení /au/ se i po kvantitativní stránce jeví jako prvek systémově cizí; v předním poli tvoří kombi[59]nace se třemi fonémy /lau/, /nau/, /fau/, v zadním poli s 5 fonémy /aun/, /aur/, /aut/, /auk/, /auz/, což je minimum, které odpovídá i minimální četnosti této jednotky, stojící na samém konci frekvenčního pořadí fonémů.
Přechod mezi vokalickými a konsonantickými fonémy tvoří skupina fonémů sonantických /l/, /m/, /n/, /r/, a to po stránce akustické, funkční (jako nositel slabiky) i kvantitativní. Počtem realizovaných kombinací se tyto sonanty řadí vedle krátkých vokálů, přičemž /l/ má nejširší kombinační spektrum ze všech fonémů vůbec; kombinuje se s 33 fonémy v předním i zadním poli. Sonanty se pojí s vysokou četností se všemi krátkými a téměř všemi dlouhými vokály i s velkou většinou konsonantů, takže podobně jako u vokálů skoro všechny prvky systému mohou před sonantem předcházet a za ním následovat. Pouze jedné skupině konsonantů se sonanty zřejmě vyhýbají — totiž palatalizovaným fonémům. Statistika obráží zřetelnou nechuť jazyka ke kombinaci palatál + sonant, zvláště uvnitř morfému.
Častěji se v češtině může vyskytnout kombinace palatál + /m/ na morfémové hranici, např. ve tvaru rozkazovacího způsobu 1. os. pl. (leťme, hoňme). Poněvadž však jde o tvary knižní a řídké, nevyskytla se v našem materiálu ani tato kombinace se zachytitelnou četností (tj. s relativní četností větší než 10–5). Z kombinací typu sonant + konsonant se nevyskytla kombinace /lr/ a /nm/, kombinace opačné pouze na morfémové hranici (např. otrlý, rozumný), s výjimkou některých tvarů zájmena já (mne, mnou) a morfému mnoh-/množ-. Z 296 možných dvojkombinací těchto 4 sonantů s ostatními prvky se realizovalo 249 (84 %), nevyskytlo se 47 (15,8 %) digramů. Jsou to kromě reduplikací tyto kombinace:
/aul/ /ňl/ /ďl/ /ťl/
/lr/ /lř/ /lď/ /lf/
/aum/ /nm/ /ňm/ /cm/ /ďm/ /fm/ /šm/ /ťm/ /žm/
/mau/ /mó/ /mj/ /md/ /mď/ /mg/ /mť/ /mz/
/ňn/ /ďn/ /fn/ /gn/ /ťn/
/nm/ /nň/ /nř/ /nj/ /nh/ /np/
/our/ /lr/ /ňr/ /řr/ /cr/ /čr/ /ďr/ /ťr/
/rau/ /rř/ /rj/
Vedle prvků, které nejsou v českém fonologickém systému zcela integrovány nebo jsou pociťovány jako cizí (/g/, /f/, /ó/, /au/), je zde nápadná kombinační neúčast palatalizovaných fonémů, i když některé jejich kombinace jsou potenciálně možné, zvláště ve slovech emotivního charakteru.
Zajímavý poměr se jeví u dlouhých vokálů /á/, /é/, /í/, které s velkou četností předcházejí /m/ a následují za /n/: relativní četnost kombinací /á/, /é/, /í/ + /m/ je 0,00741; /n/ + /á/, /é/, /í/ 0,00763; (srov. /m/ + /á/, /é/, /í/ 0,00303; /á/, /é/, /í/ + /n/ 0,00206).
Kombinace sonantů /l/, /m/, /n/, /r/ s konsonanty tvoří celkem 131 různých dvojfonémových skupin, z čehož typ konsonant + sonant je zastoupen 63 dvojicemi, typ sonant + konsonant 68 dvojicemi. V počtu různých kombinací v předním i zadním poli jsou tedy sonanty dosti vyvážené. Přihlédneme-li však k frekvenci jednotlivých digramů, jeví se tu převaha jedné strukturace — konsonant předchází před sonantem. Český fonologický systém využívá mnohem významněji kombinace konsonant + sonant než kombinace opačné. Ze všech konsonantickosonantických digramů připadá na kombinace konsonant + sonant (dále CS) přibližně 70 % výskytů, na kombinace sonant + konsonant (dále SC) 30% výskytů. Z kombinací typu /SC/ žádná nedosahuje [60]četnosti 0,00100, kromě /mň/ (0,00217). Ukázalo se, že /l/ a /r/ tvoří řadu velmi frekventovaných digramů ve spojení s předcházejícím konsonantem. U /m/ a /n/ tomu tak není; tyto fonémy tvoří nejfrekventovanější digram s předcházející (u /m/ též s následující) pauzou a jejich typickou pozicí je počátek (u /m/ též konec) slova (např. tvary slovesa míti, moci, zájmena můj, předložka na, předpony na-, ne- apod.). K sonantům se distribučně řadí i jejich palatalizované protějšky /ň/, /ř/ a foném /j/; kombinačně a kvantitativně však nesou spíše znaky palatalizovaných konsonantů, a proto v tomto rozboru o nich pojednáme v souvislosti s touto skupinou.
Z konsonantických fonémů si všimneme nejprve fonémů párových, lišících se přítomností nebo nepřítomností distinktivního rysu znělosti: /p/, /t/, /k/, /ch/, /f/ — /b/, /d/, /g/, /h/, /v/. Skupina párových fonémů neznělých se vyznačuje vesměs značnou četností výskytu. V předním poli se vytváří 16—27 kombinací, v zadním 19—28 kombinací. Vzhledem k asimilačnímu jevu se nevytvářejí kombinace se znělými. Zato se neznělé fonémy kombinují kromě vokálů se všemi sonanty (zvláště v zadním poli) se značnou četností.
Foném /t/ je nejfrekventovanějším konsonantickým fonémem (0,03973); vytváří celkem 55 různých kombinací, z nich nejčetnější je skupina /st/ (0,00581), což je druhá nejfrekventovanější dvojfonémová skupina v češtině. U fonémů /p/ a /ch/ je zadní kombinační pole značně bohatší než přední; významnou frekvencí na sebe upozorňují zvláště kombinace se sonanty (např. /pr/ 0,00501; ale /rp/ pouze 0,00020; podobně /př/, /pl/, /chl/, /chn/, /chr/). Foném /k/ tvoří vedle vokálů a konsonantů nejfrekventovanější kombinace /sk/ (0,00368), /tk/ (0,00125), /ck/ (0,00123) a /kt/ (0,00193). Foném /f/ stojí svou frekvencí na okraji konsonantického systému; ve slovech domácího původu se vyskytuje pouze jako znělostní protějšek /v/ v neutralizované pozici. Kromě kombinací s vokály dosahují nejvyšší četnosti kombinace /fš/ (0,00124), /fs/ (0,00048), /fk/ (0,00036), nepochybně vlivem silně frekventovaných tvarů slova všechen a předpony v- (vsaditi, vkládati apod.).
Znělé konsonanty /b/, /d/, /g/, /h/, /v/ jako příznakový člen znělostní opozice jsou méně četné a tvoří méně kombinací než fonémy neznělé. Pojí se vedle vokálů hlavně se sonanty, mezi sebou a se /z/, /ž/. Nejbohatší kombinační pole (celkem 28 + 25 kombinací) nacházíme u fonému /v/, který v sobě zahrnuje vlastnosti konsonantické i sonantické (může před ním stát i foném neznělý). Svým rozložením četností se blíží sonantům, zvláště v předním poli, kde se kombinuje se všemi sonanty a znělými i neznělými konsonanty kromě /ď/, /ť/, /ň/, /f/, /g/, /p/, /č/. Zadní pole fonému /v/ je značně užší, zato vokály a foném /j/ v něm dosahují vysokých četností.
Foném /v/ je rovněž silně využívaný foném počáteční, vyskytující se např. v předponách v-, vy-, vz- atd. Fonémy /b/, /d/, /h/ tvoří kombinace téměř výlučně s vokály a sonanty. Foném /g/ nepatří svým původem k domácímu inventáři, je velmi řídký (0,00339) a tvoří 11 kombinací v předním poli (s vokály a sonanty), 17 v zadním poli (s vokály, sonanty, /z/ a /ž/) s velmi nízkou četností. Výjimkou je kombinace /gd/ (0,00133), jejíž frekvence je dána velkou četností příslovcí kdy, kdo, kde, když.[5]
Fonémy charakterizované jako frikativy /s/, /š/, /z/, /ž/ a afrikáty /c/, /č/ se kombinují v mezích asimilace poměrně lehce s většinou fonémů včetně konsonantů. U některých převažuje počet předcházejících prvků (/c/ 25 : 18, [61]/č/ 23 : 17, /ž/ 21 : 18, u jiných počet prvků následujících (/s/ 21 : 29, /z/ 21 : 25); u /š/ je prakticky v rovnováze (22 : 21). Nejfrekventovanějším prvkem této skupiny je foném /s/, tvořící 25 + 29 kombinací. Zvláště jeho zadní pole je bohaté a silně frekventované. Obsahuje všechny fonémy kromě znělých, maximální četnosti dosahuje v kombinaci /st/ (0,00851), což je druhý nejčetnější digram v češtině.
Zajímavou skupinu z hlediska kombinatoriky tvoří palatály /ď/, /ť/, /ň/. Vyznačují se značnou nevyvážeností obou polí s velkou převahou pole předního:
před | /ď/
/ň/ | stojí | 17 fonémů,
32 fonémů | za ním | 7 — pouze krátké a některé dlouhé vokály 11 — vokály a /k/, /t/ 12 — vokály a /c/, /k/, /s/, /š/ |
Vedle toho se u palatál jeví poziční závislost vzhledem k vokálům — 95 % palatál je následováno fonémy přední vokalické řady /e/, /i/, /í/. Spojení palatál s fonémy zadní vokalické řady je řídké a vyskytuje se pouze ve slovech rázu emocionálního nebo zvukomalebného.[6]
K palatálám lze přiřadit i fonémy /ř/ a /j/. V předním poli fonému /ř/ jsou nejfrekventovanější kombinace s konsonanty (/př/ 0,00335) — v tom se jeví jeho rys sonantický, zatímco četnost kombinací vokalických (/ař/, /eř/, /oř/) se pohybuje kolem 0,00060. Naopak v zadním poli převládají kombinace vokalické (/ře/ 0,00420, /ří/ 0,00234, /ři/ 0,00216); počet spojení s konsonanty je celkem nepatrný a frekvenčně nevýznamný.
Kombinační schopnosti fonému /j/ jsou soustředěny v jeho zadním poli, které je co do počtu realizovaných kombinací 2krát tak silné jako přední (17 : 34). Před fonémem /j/ předcházejí nejčastěji krátké vokály, dále /v/ (/vj/ 0,00261), /b/ (/bj/ 0,00091), /p/ (/pj/ 0,00058). Nestojí před ním sonanty (s výjimkou /l/ — 0,00004). Naopak za fonémem /j/ mohou následovat všechny konsonanty kromě /g/ a /ř/, všechny sonanty i vokály, z nichž daleko nejčetnější je kombinace /je/ (0,01147), která je nejfrekventovanější dvojfonémovou skupinou v češtině.
Reduplikované fonémy se vyskytují pouze na morfémové hranici. V našem materiálu jich bylo zjištěno celkem pět: /aa/, /ee/, /oo/, /jj/, /tt/. Jsou to spojení předpony končící na /a/, /e/, /o/, /t/ (např. na-, ne-, po-, ot-) a slovního základu začínajícího týmž prvkem nebo spojení superlativní předpony (nej-) s adjektivem začínajícím fonémem /j/.
Jedním z významných jevů, jehož statistické zpracování přináší zajímavé poznatky o struktuře jazyka na jeho lexikální rovině, je rozložení fonémů na počátku a na konci slov. V češtině se tímto problémem zabývali zvláště V. Mathesius (o. c. v pozn. 6) a J. Vachek.[7]
V našem souboru máme možnost studovat tento jev na podkladě statistického rozložení slovní hranice (pauzy) a jejích kombinací s předcházejícími a následujícími fonémy. Slovní hranice má v obojím poli po 36 kombinovatelných fonémech, tj. téměř celý repertoár. Rozložení fonémů na počátku a na konci slova seřazené podle klesajících četností je uvedeno v tab. II. Na počátku slova se vyskytly všechny vokalické, sonantické i konsonantické fonémy s výjimkou diftongického spojení /ou/, které v této pozici existuje jen v emocionálně zabarvených variantách slov, např. ouřad. Na konci slova
[62]Frekvenční rozložení fonémů na počátku slova, „neutrální“ a na konci slova (klesající pořadí)
počátek slova | „neutrální“ | konec slova | ||||||
1. | /s/ | 0,01939 | 1. | /e/ | 0,08163 | 1. | /e/ | 0,02651 |
2. | /p/ | 0,01633 | 2. | /o/ | 0,05754 | 2. | /i/ | 0,02047 |
3. | /n/ | 0,01238 | 3. | /a/ | 0,05561 | 3. | /a/ | 0,01786 |
4. | /v/ | 0,01193 | 4. | /i/ | 0,05014 | 4. | /í/ | 0,01453 |
5. | /j/ | 0,00973 | 5. | /t/ | 0,03973 | 5. | /o/ | 0,01351 |
6. | /t/ | 0,00919 | 6. | /s/ | 0,03920 | 6. | /m/ | 0,00873 |
7. | /z/ | 0,00842 | 7. | /n/ | 0,03800 | 7. | /u/ | 0,00837 |
8. | /m/ | 0,00831 | 8. | /l/ | 0,03622 | 8. | /é/ | 0,00630 |
9. | /a/ | 0,00815 | 9. | /l/ | 0,03362 | 9. | /t/ | 0,00587 |
10. | /k/ | 0,00734 | 10. | /k/ | 0,03354 | 10. | /k/ | 0,00529 |
11. | /d/ | 0,00675 | 11. | /v/ | 0,03235 | 11. | /ch/ | 0,00508 |
12. | /o/ | 0,00648 | 12. | /m/ | 0,03093 | 12. | /ou/ | 0,00425 |
13. | /b/ | 0,00637 | 13. | /r/ | 0,03015 | 13. | /á/ | 0,00412 |
14. | /f/ | 0,00387 | 14. | /p/ | 0,02592 | 14. | /l/ | 0,00368 |
15. | /r/ | 0,00370 | 15. | /j/ | 0,02412 | 15. | /s/ | 0,00312 |
16. | /h/ | 0,00368 | 16. | /u/ | 0,02298 | 16. | /š/ | 0,00286 |
17. | /u/ | 0,00335 | 17. | /d/ | 0,02284 | 17. | /n/ | 0,00234 |
18. | /l/ | 0,00307 | 18. | /á/ | 0,02000 | 18. | /f/ | 0,00232 |
19. | /ž/ | 0,00216 | 19. | /ň/ | 0,01665 | 19. | /v/ | 0,00198 |
20. | /c/ | 0,00196 | 20. | /z/ | 0,01622 | 20. | /ú/ | 0,00186 |
21. | /ň/ | 0,00188 | 21. | /b/ | 0,01530 | 21. | /z/ | 0,00110 |
22. | /č/ | 0,00167 | 22. | /c/ | 0,01149 | 22. | /o/ | 0,00083 |
23. | /g/ | 0,00148 | 23. | /h/ | 0,01062 | 23. | /d/ | 0,00075 |
24. | /ch/ | 0,00141 | 24. | /é/ | 0,01039 | 24. | /r/ | 0,00074 |
25. | /i/ | 0,00130 | 25. | /š/ | 0,01028 | 25. | /ť/ | 0,00066 |
26. | /ť/ | 0,00126 | 26. | /ř/ | 0,01006 | 26. | /j/ | 0,00057 |
27. | /š/ | 0,00109 | 27. | /ch/ | 0,00997 | 27. | /ž/ | 0,00046 |
28. | /ď/ | 0,00088 | 28. | /č/ | 0,00801 | 28. | /g/ | 0,00042 |
29. | /ř/ | 0,00088 | 29. | /ou/ | 0,00732 | 29. | /p/ | 0,00031 |
30. | /e/ | 0,00077 | 30. | /ť/ | 0,00713 | 30. | /č/ | 0,00030 |
31. | /ú/ | 0,00058 | 31. | /ž/ | 0,00697 | 31. | /ř/ | 0,00024 |
32. | /au/ | 0,00011 | 32. | /f/ | 0,00610 | 32. | /ň/ | 0,00023 |
33. | /ó/ | 0,00005 | 33. | /ú/ | 0,00485 | 33. | /h/ | 0,00010 |
34. | /á/ | 0,00002 | 34. | /ď/ | 0,00400 | 34. | /ď/ | 0,00008 |
35. | /í/ | 0,00002 | 35. | /g/ | 0,00339 | 35. | /ó/ | 0,00007 |
36. | /é/ | 0,00001 | 36. | /ó/ | 0,00055 | 36. | /b/ | 0,00005 |
37. | /ou/ | — | 37. | /au/ | 0,00021 | 37. | /au/ | — |
Tab. II
stojí opět všechny fonémy s výjimkou spojení /au/. Podstatný rozdíl je ovšem ve frekvenčním využití jednotlivých fonémových typů. Zhruba 88 % slov začíná konsonantickým fonémem, 12 % slov vokálem. Přitom celková četnost konsonantů je přibližně 59 %, vokálů 41 %; rozdíl (30 %) působený pozicí charakterizuje strukturní omezení kladené na počátek slova v češtině.
Nejčetnějším počátečním fonémem je /s/ (0,01939), jehož frekvence v této pozici je zřejmě významně ovlivněna frekvencí předložky a předpony s (se) a zvratného a přivlastňovacího zájmena se, si, svůj. Druhým v pořadí je foném /p/, následují /n/, /v/, /j/, /t/, /z/, /m/. Všechny tyto fonémy stojí na počátku silně frekventovaných formálních slov, předložek, předpon, zájmen, popř. sloves.
Za nimi jako devátý přichází první vokalický foném /a/, o dvě místa dále foném /o/. Na konci rozložení na posledních 7 místech stojí fonémy vokalické. Dlouhým vokálem začíná mizivé procento slov; na prvním místě je dlouhé /ú/.
[63]Srovnáme-li pořadí 12 nejčetnějších prvních písmen P, S, V, Z, N, O, K, D, R, M, T, B[8] s 12 nejčetnějšími fonémy /s/, /p/, /n/, /v/, /j/, /t/, /z/, /m/, /a/, /k/, /d/, /o/, zjišťujeme jisté přesuny, ale pokud jde o repertoár tohoto pořadí, pak 10 z 12 odpovídajících prvků se vyskytuje v obou řadách. Odlišné jednotky jsou pouze /j/ a /a/ ve fonémovém pořadí a R a B v grafémech. Tento nepříliš významný rozdíl lze přičíst na vrub materiálu a rozsahu výběrů.
Zatímco na počátku slova preferuje většina jazyků konsonantické fonémy, rozložení na konci slova již není tak jednoznačné. V češtině převažuje vokalický konec slova, v jiných jazycích, hlavně neflektivních, např. v angličtině, je velmi častý konsonant. Vokalická povaha zakončení slova v češtině je podmíněna především flektivními koncovkami.[9]
V naší statistice fonémů na konci slova (tab. II) se v souhlase s tím objevují na prvních místech vokály krátké /e/, /i/, /a/, /o/, /u/ i dlouhé /í/, /é/, typické pro různé pády a osoby bohatého flektivního systému češtiny. Prvním nejčetnějším konsonantem na konci slova je foném /m/ (reprezentující např. dat. pl. substantiv, 1. os. sg. sloves 5. tř. apod.), další jsou neznělé fonémy /t/ (infinitiv), /k/ (předložka, demin. koncovky), /ch/ (lok. pl. subst. ap.) a dlftongické spojení /ou/ (instr. sg. fem., 3. os. pl. sloves 1. a 2. tř. atd.). Pokud se v dolní polovině sloupce objevují v koncové pozici znělé konsonanty (s minimální četností), je to důsledek asimilace k znělosti počátečního konsonantu dalšího slova ve zkoumaném textu. Celkem lze říci, že v češtině zhruba 71 % slov končí vokalickým fonémem, 29 % fonémem konsonantickým.
Ve srovnání se statistickým rozložením fonémů na počátku slova, které klesá dosti rovnoměrně, jeví se charakter rozložení četností fonémů na konci slova jako nepravidelný se značnými frekvenčními skoky. Frekvence se soustřeďují na prvních 5 vokálech, které mají četnost 0,01351—0,02651; druhou skupinu tvoří fonémy pořadí 6—20 s četností 0,00186—0,00873. Celá dolní polovina pořadí 21—36 má četnosti velmi nízké — uplatnění těchto fonémů na konci slova je nevýznamné. Je zřejmé, že jazyk klade silná strukturní omezení na konec slova, mnohem silnější než na jeho počátek. Počátek slova v sobě soustřeďuje maximum informace a podstatně omezuje selekci následující struktury, zatímco množství informace obsažené v konci slova je většinou daleko menší.[10]
Všimněme si ještě problému, zda existuje závislost mezi relativní četností fonému a jeho valencí. Užili jsme týchž statistických postupů jako v článku cit. v pozn. 2 a zjišťovali korelaci mezi oběma systémovými charakteristikami. Závislost mezi relativní četností a valencí zadního kombinačního pole byla rovněž statisticky měřena koeficientem korelace; ten zde dosahuje vyšší hodnoty a ukazuje tedy vcelku na těsnější závislost těchto charakteristik u fonémů než u grafémů.
[64]Kvantitativní charakteristiky českého fonologického systému
| x̅ |
| H(2) | r(xv – z) |
F | 0,02631 | 0,62050 | 3,58284 | 0,657 |
Tab. III
Tab. III obsahuje základní kvantitativní charakteristiky fonologického systému: průměrnou četnost na foném (x̅), průměrnou míru kombinační schopnosti v zadním poli měřenou valencí (v̅(z)), fonematickou entropii druhého řádu a koeficient korelace četnosti a valence. Poslední tabulka (IV) uvádí průměrnou četnost, kombinační schop-
Korelace relativní četnosti a valence zadního pole v třídách českého fonologického systému
| x̅ |
| r(xv – z) |
krátké samohlásky | 0,05358 | 0,82105 | 0,912 |
dlouhé samohlásky a diftongy | 0,01099 | 0,49998 | 0,713 |
souhlásky | 0,01957 | 0,63052 | 0,771 |
Tab. IV
nost a korelaci četnosti a valence pro jednotlivé fonémové typy. Získané údaje ukazují, že u krátkých samohláskových fonémů je tato závislost velmi těsná, volnější je u konsonantů a nejvolnější u dlouhých vokálů.
Pokusíme-li se o lingvistickou interpretaci těchto výsledků, můžeme obecně říci, že existuje závislost mezi četností výskytu fonému a jeho kombinační schopností. Zároveň se však v hodnotách jednotlivých četností a valencí ukazují takové výkyvy, že nelze určit, která z obou charakteristik je primární. Patrně je třeba uvažovat o nějakém složitějším vztahu, který nebude jen kvantitativního rázu.
Například foném /l/ je svou četností na 8. místě frekvenčního pořadí, počtem kombinací na místě prvním; /r/ je četností na 13. místě, kombinačně na 4. místě; dlouhé /ú/ má frekvenční pořadí 33, kombinační 19. Podle toho se jeví pro kombinační schopnost fonému vedle četnosti stejně důležitým činitelem jeho kvalitativní vlastnosti a funkční využití, zejm. v plánu morfologickém.
Shrnutí výsledků. V stati byly kvantitativně ověřeny a zpřesněny některé obecné poznatky o kombinačních vlastnostech soustavy českých fonémů. Na podkladě kvantitativních a kombinatorických vlastností lze fonémy utřídit do několika skupin, které se zhruba shodují s kvalitativními třídami akustickými a artikulačními. Kvantitativně příbuzné fonémy se vyznačují podobnými kvantitativními vlastnostmi, jevícími se ve frekvenčním rozložení množiny kombinovatelných fonémů v jejich předním a zadním poli. Nalézá zde potvrzení i jedna z Greenbergových jazykových univerzálií, že totiž příznakové členy fonologického systému se vyznačují nižší četností než členy nepříznakové. Krátké samohláskové fonémy vykazují více kombinací a vyšší četnost než dlouhé, neznělé konsonanty se snadněji kombinují než znělé, nepalatalizovaných se více využívá než palatalizovaných. Vedle kvalitativních vlastností [65]fonému ovlivňuje jeho kombinatoriku i pozice ve slově. Např. na morfémové hranici lze pozorovat mnohem větší kombinační volnost než uvnitř morfému. Také počátek a konec slova mají svůj specifický fonematický repertoár. Kvantitativní analýza prvního a posledního fonému ve slově přináší ovšem jen základní poznatky o využití fonologického systému v těchto pozicích. Zkoumání je nutno rozšířit na počáteční a koncové kombinace vyšších řádů a na slabiky. Šetření o strukturaci jazykových sdělení jsou zajímavá nejen z hlediska kvantitativního popisu jazyka, ale mají svůj význam i pro teorii informace a percepci řeči.
R É S U M É
The research of quantitative properties of the Czech phonemic system is continued. This contribution deals with the combinatorics of phonemes trying to ascertain relations between their qualitative and quantitative properties. Because the combinatorial properties of the phoneme with regard to the preceding and following positions are different (a given phoneme can be preceded and followed by different sets of phonemes), we distinguish here the anterior and posterior combinatorial fields of phoneme. On the basis of their quantitative and combinatorial properties the Czech phonemes can be ranged into several groups which correspond to the qualitative groups established primarily according to the acoustic and articulatory properties of the units. Qualitatively related phonemes possess similar combinatorial properties manifested in the frequency distribution of the set of combinable phonemes in their anterior and posterior fields.
Out of the number of 1521 theoretically possible combinations there were realized 896 different pairs, i. e. 58,91 p. c. The remaining 41,09 p. c. cover a) possible combinations which did not appear in the text or occured with a frequency of less than 10–5; b) combinations potentially possible but not utilized in the language; c) excluded combinations (e. g. long vowel + short v., 2 long vowels, voiced + voiceless consonant etc.).
Greenberg’s “universal” phenomenon concerning the lower frequency of marked members of phonemic oppositions could be once more confirmed. Short vowels show more combinations with a higher frequency than the long ones, unvoiced consonants are more easily combined than voiced, unpalatalized more utilized than palatalized.
Combinatorial properties of individual phonemes and phonemic types are described. Most combinable types are vocalic phonemes and sonants, least combinable are palatals. The combination of consonant + sonant is considerably more utilized in Czech than the reverse digram. The combinability of phoneme depends largely on its position in various types of words. E. g. at the morpheme boundary we can observe a much greater freedom than inside the morpheme. The word initial and word final, too, have their specific phoneme repertoirs and frequency distributions.
The dependency between the relative frequency of phonemes and their valency (defined as a ratio of number of combinable phonemes and the total number of phoneme units) was investigated by means of correlation coefficient which attained statistically significant values.
Quantitative analysis of phoneme combinatorics gives a basic notion about the utilization of the phonemic system in particular word positions. Better results might be expected from the examinations of initial and final combinations of higher order, digrams, trigrams etc. and of syllables. The patterning of language message is interesting not only from the linguistic point of view but also for the research in information theory and speech perception.
[1] M. Ludvíková — J. Kraus, Kvantitativní vlastnosti soustavy českých fonémů, SaS 27, 1966, 334—344.
[2] L. Doležel — J. Průcha, Kombinatorické vlastnosti soustavy českých grafémů, SaS 25, 1964, 166—174.
[3] J. D. O’Connor - J. L. Trim, Vowel, Consonant and the Syllable — a Phonological Definition, Word 9, 1953, 103—122.
[4] J. H. Greenberg, Language Universals, Current Trends in Linguistics III, Theoretical Foundations, The Hague 1966, 61—112. Greenberg se odvolává i na výklad Zipfův: příznakový člen opozice je komplexnější, a tudíž — podle principu nejmenšího úsilí — i méně užívaný.
[5] /g/ v tomto spojení lze fonologicky hodnotit jako znělou variantu /k/.
[6] V. Mathesius, La structure phonologique du lexique du tchèque moderne, TCLP I, 1929, 67—84.
[7] J. Vachek, Poznámky k fonologii českého lexika, LF 67, 1940, 395—402.
[8] M. Těšitelová, O entropii počátečních písmen v češtině, Informační bulletin pro otázky jazykovědné 1965, č. 6, 31—37.
[9] D. Konečná - J. Hronek, Morfologická analýza podle posledního písmene, AUC — Slavica Pragensia IV, 1962, 259—263.
[10] Srov. též R. G. Piotrovskij, Informacionno-statističeskije parametry jazyka, Problemy jazykoznanija, Moskva 1967, 89—92.
Slovo a slovesnost, ročník 29 (1968), číslo 1, s. 56-65
Předchozí Karel Pala: Náhodné generování českých vět
Následující J. Vachek, B. Havránek, M. Těšitelová, F. Daneš, J. Filipec, K. Hausenblas, J. Chloupek, A. Vašek, rd.: X. mezinárodní kongres lingvistů v Bukurešti
© 2011 – HTML 4.01 – CSS 2.1