Klára Osolsobě, Karel Pala, Pavel Rychlý
[Discussion]
Frequency of paradigms of Czech verbs
V tomto článku bychom rádi nabídli některé nové údaje o frekvencích českých slovesných vzorů na materiálu ČNK a porovnali je se staršími údaji, obsaženými ve Frekvenčním slovníku češtiny (FSČ, 1961). Naše výsledky jsou založeny na analýze materiálu částečně vybudovaného Českého národního korpusu, konkrétně z jeho připravené podčásti – značkovaného subkorpusu s názvem DESAM (obsahuje 1 026 733 slovních tvarů), který byl vytvořen v rámcové spolupráci pracovišť sdružených v grantovém projektu K214, konkrétně pak na FF MU a FI MU v Brně.[1] I když jde o předběžné výsledky, rozsah korpusu DESAM je podle našeho názoru natolik reprezentativní, že může sloužit jako zdroj pro frekvenční analýzu českých sloves, a to jak z hlediska zastoupení jednotlivých konjugačních typů v textu ve srovnání s jejich výskytem ve slovníku, tak i pro srovnání frekvence jednotlivých sloves v jazykovém materiálu představeném ve FSČ a v uvedeném korpusu.
Úvodem několik slov o Českém národním korpusu (dále ČNK), z něhož materiálově vycházíme. Vzniká od roku 1992 a na jeho budování se podílí skupina odborníků z pracovišť na FF UK, MFF UK, FF MU, FI MU a ÚJČ AV ČR. Od podzimu roku 1995 koordinuje práci na ČNK samostatný Ústav českého národního korpusu při FF UK v Praze pod vedením prof. F. Čermáka. V současné době zahrnuje ČNK synchronní subkorpus čítající asi 70 milionů slovních tvarů, který má být v průběhu r. 1998 rozšířen na 100 milionů tvarů. ČNK je dostupný na Internetu (http://ucnk.ff.cuni.cz/cnc). Dále vzniká diachronní subkorpus ve formě vzorků čítajících asi 1 milion slovních tvarů a mluvený synchronní subkorpus mluvčích z Prahy zahrnující zhruba 500 tisíc slovních tvarů. Komplementárně k němu se na FF MU buduje podobný subkorpus mluvené češtiny (asi 400 tisíc slovních tvarů) zachycující promluvy mluvčích narozených v městě Brně. Tento korpus je nyní dostupný ve formě přepisu pořízených nahrávek, v němž jsou [266]jednotlivým slovním formám přiřazeny příslušné gramatické značky, má tedy vedle své základní podoby i formu částečně značkovanou. Jeho podstatná část tvořená kvalitně nahranými úseky byla nedávno převedena do digitalizované podoby na CD a bude takto posléze přístupná pro výzkumné účely. Značkování přepsaného mluveného korpusu je popsáno v diplomové práci D. Hlaváčkové (Hlaváčková, 1998). Digitalizaci mluvených textů z uvedeného subkorpusu a jejich vypálení na CD provedli studenti FI MU Zrustek a Vydržal.
Jak jsme již uvedli, spoluprací FF MU a FI MU vznikl (a dále se rozšiřuje) uvedený značkovaný synchronní subkorpus DESAM, který je rovněž přístupný na internetové adrese: http://www fi.muni.cz/~pary/korp (viz též Pala – Rychlý – Smrž, 1997), čítající něco přes milion gramaticky značkovaných slovních tvarů. Je sestaven z textů novinových (Lidové noviny, MF DNES), populárněvědných (časopis Vesmír), ekonomickopublicistických (Českomoravský profit) a také textů odborných (časopis Chip a uživatelský manuál k programu PowerPoint), které pocházejí z období 1992–96.
Při budování ČNK se zatím postupuje tak, že nejdříve se do korpusu začleňují nejsnáze dostupné soubory textů, což jsou z pochopitelných důvodů texty publicistické (jsou dnes k dispozici v podobě počítačových souborů pro sazbu, na CD-ROM nebo je lze získávat i z webových stránek) a texty odborné. ČNK již obsahuje i texty z krásné literatury a postupně se do něho začleňují též texty z dalších stylových oblastí tak, aby byla zajištěna co nejvyšší reprezentativnost ČNK.
Jestliže jazykový korpus chápeme jako vnitřně strukturovaný, jednotně zpracovaný a rozsáhlý soubor elektronicky uložených jazykových dat (textů) vytvořený obvykle pro určité cíle, pak ve značkovaném korpusu je navíc každému slovnímu tvaru přiřazena gramatická značka. Rozsah informace, kterou gramatická značka nese, může být v různých korpusech různý a je zjevně závislý na lingvistických teoriích, z nichž vycházejí ti, kdo značkování provádějí. Z dosavadních zkušeností korpusové lingvistiky ovšem vyplývá (Leech, 1993), že čím jsou lingvistické teorie, o něž se autoři značek opírají, transparentnější a neutrálnější ve vztahu k často soupeřícím lingvistickým školám, tím je korpus použitelnější pro co nejširší okruh zkoumání. Při budování značkovaného subkorpusu DESAM jsme se opírali o soubor značek, který je podle našeho názoru v dobré shodě se současným standardem gramatické teorie u nás (Havránek – Jedlička, 1981, Mluvnice češtiny, 1986). V tomto směru bychom rádi poznamenali, že díky této shodě je použitý soubor značek dostatečně blízký taxonomiím, které jsou obvyklé v oblasti tzv. tradiční gramatické teorie. Rozdíly mezi tradičními gramatikami a současnými formálně orientovanými popisy nespočívají podle našeho názoru tolik v použitých taxonomiích jako spíše v tom, jak se s nimi v rámci příslušné teorie pracuje, tj. v tom, je-li daná teorie budována jako dynamická a mající povahu autonomního formálního systému či jako statická a deskriptivní ve formě souboru vět (tvrzení) v nějakém přirozeném jazyce.
Nejprve připomeňme, že prvním plně gramaticky značkovaným korpusem u nás byl korpus textů věcného stylu (dále VS) vytvořený pod vedením M. Těšitelové v oddělení matematické a kvantitativní lingvistiky v ÚJČ ČSAV na přelomu 70. a 80. let. Byl vytvořen manuálně, čítá 540 000 slovních tvarů a řadu výsledků z jeho zpracování najde [267]čtenář v práci M. Těšitelové (1985). V tomto textu údaje z VS v porovnávacích tabulkách neuvádíme – hlavním důvodem je skutečnost, že jsme korpus VS neměli k dispozici, dále jeho rozsah je menší než rozsah Frekvenčního slovníku češtiny (Jelínek – Bečka – Těšitelová, 1961), takže příslušná porovnání by nebyla dostatečně úplná.
Podstatou gramatického značkování je vložení jisté interpretující informace do existujícího korpusu psaného nebo mluveného jazyka formou zvoleného symbolického zápisu (Leech, 1993). Rozlišujeme tedy korpusový text samotný a interpretaci k němu přidanou. Cílem gramatického značkování pak je opatřit každý slovní tvar v aktuálním korpusu značkou (tagem, anotací), která symbolicky reprezentuje gramatické významy nesené daným tvarem. V korpusu DESAM pracujeme se značkami, které mají následující strukturu:
Jsou definovány jako posloupnosti dvojic typu atribut:hodnota, kde atribut (značí se malým písmenem) reprezentuje některou z možných gramatických kategorií a symbol (velké písmeno nebo číslice) pro hodnotu vyjadřuje aktuální hodnotu, jíž daná kategorie u daného tvaru nabývá. Např. slovnímu tvaru myslím přiřadíme značku k5eAp1nStPmIaI a zachycujeme jí skutečnost, že tvar myslím patří slovnědruhově ke slovesům (k=5), může nést kategorii negace, a to (e=A), nachází se v 1. osobě (p=1) singuláru (n=S) prézenta aktiva (t=P) oznamovacího způsobu (m=I) a jedná se o sloveso vidu nedokonavého (a=I). Naopak neurčité tvary slovesné mají odlišnou strukturu značky. Ke značce ještě patří i údaj o vzoru, podle něhož se daný tvar ohýbá. Pro nedostatek místa zde nebudeme uvádět výčet užívaných značek, poznamenejme jen, že celkem je těmito značkami (viz též Hajič – Hladká, 1996, 1997) pokryto obvyklých 10 slovních druhů a všech 14 gramatických kategorií, s nimiž se standardně setkáváme v českých gramatikách (Havránek – Jedlička, 1981; Mluvnice češtiny, 1986). Soubor značek pro slovesné tvary je budován takovým způsobem, aby bylo možné na něj navázat systémem pravidel částečné syntaktické analýzy. Složené určité tvary slovesné lze totiž v české větě automaticky rozpoznat až na základě syntaktických pravidel. Teprve máme-li k dispozici celý složený tvar, lze na základě jednotlivých tvarů pomocných a významových složek určit gramatické významy celku, tj. celého slovesného tvaru. Celkem v korpusu DESAM pracujeme s 1665 značkami. K tomuto poměrně vysokému číslu se dospívá možnými kombinacemi slovních druhů včetně subklasifikací (např. u zájmen jich je 8, u číslovek 4, u adverbií 6) s gramatickými kategoriemi, které se s jednotlivými slovními druhy standardně pojí.
Jestliže je naším cílem přiřadit značky tohoto typu každému slovnímu tvaru v korpusu čítajícím v našem případě něco přes milion slovních tvarů, je evidentní, že takovou práci nelze dost dobře zvládnout manuálně (v zásadě je to možné, ale pravděpodobnost takového konání je nepochybně dost nízká). Jediným rozumným a proveditelným řešením je použít počítačů. Pro značkování popsaného typu musíme pro češtinu nejprve použít programu: morfologického analyzátoru (alternativně lze mluvit o lemmatizátoru, jestliže takový program přiřazuje slovním tvarům v textu vedle slovního druhu a příslušných gramatických kategorií i jejich tvary základní (lemmata)). U češtiny výstup získaný z morfologického analyzátoru není ovšem jednoznačný a musí tedy projít další fází zpracování, v níž se provádí zjednoznačnění čili desambiguace.
Základní značkování subkorpusu DESAM bylo provedeno morfologickým analyzátorem LEMMA (Ševeček, 1995–96; Osolsobě, 1996). Tento analyzátor (lemmatizátor) [268]pracuje na základě strojového slovníku čítajícího asi 164 000 českých kmenů a dovede každému rozpoznanému slovnímu tvaru ve volném textu přiřadit odpovídající základní tvar, tj. jeho lemma, a jak jsme už řekli, i gramatickou značku nesoucí údaje o příslušných gramatických kategoriích. Program LEMMA dovede také každému českému verbálnímu tvaru přiřadit jeho konjugační vzor (obecně jakýkoli ohýbací), a to díky tomu, že je v něm zabudován algoritmický popis celé české flexe založený na detailní klasifikaci ohýbacích vzorů (Osolsobě, 1996). Slovesa jsou v něm zařazována k 220 vzorům, to ovšem z hlediska počítačového zpracování není mnoho a řeší se tím systematicky a elegantně potíže s tzv. výjimkami.
Jak jsme již naznačili, při vytváření značkovaného korpusu se musíme vyrovnat s jednou podstatnou skutečností, která spočívá v tom, že lemmatizátor přiřazuje asi 70 procentům analyzovaných tvarů více než jednu značku. Naším cílem ovšem je, aby značkování bylo jednoznačné, musíme proto tvary s morfologickou homonymií (její míra zjištěná v korpusu DESAM činí 4,81 značky na tvar) desambiguovat. To lze udělat buď manuálně, nebo raději pokud možno automaticky s použitím vhodných programových nástrojů. Dnes se užívá nejčastěji speciálních desambiguačních programů založených na statistických a pravděpodobnostních přístupech (Hajič – Hladká, 1996) nebo se pracuje s tzv. částečnými analyzátory (Abney, 1996), jejichž jádrem jsou nejčastěji formální (nekontextová) pravidla popisující strukturu příslušných větných složek.
Značkování korpusu DESAM probíhalo ve dvou fázích:
i) Vybrané textové soubory (v rozsahu asi 250 000 slovních tvarů) byly zpracovány programem LEMMA a pak desambiguovány manuálně pomocí speciálního prohlížecího programu DESAMB vytvořeného k tomuto účelu (Puža, 1997). Tím vznikla (v první polovině r. 1997) první (trénovací) verze korpusu DESAM1, která byla po příslušných opravách použita k vyhledání a sestavení formálních (v zásadě nekontextových) pravidel popisujících strukturu českých jmenných skupin a gramatickou shodu uvnitř nich.
ii) Na těchto pravidlech je postaven částečný syntaktický analyzátor DES implementovaný v Prologu (Puža, 1997), který byl použit k odstranění přibližně 40 procent nejednoznačných tvarů uvnitř jmenných skupin. Zbytek (asi 30 procent) desambiguovali manuálně pomocí již zmíněného interaktivního prohlížeče DESAMB studenti (pomocné vědecké síly) FF MU a FI MU. Druhé kolo značkování proběhlo během druhé poloviny r. 1997 podobným způsobem, ovšem podíl manuální desambiguace se již, jak jsme naznačili, podařilo výrazně redukovat.
Výsledkem je značkovaný korpus DESAM čítající 1 026 733 slovních tvarů, který v současnosti slouží mj. jako trénovací a testovací soubor dat pro vytvoření další verze desambiguátoru založeného na formálních nekontextových pravidlech (implementovaných jako pravidla vymezených klauzulí – DC v PROLOGU). U něho již počítáme s tím, že míra jeho úspěšnosti se bude blížit 90 procentům, takže potřeba manuální desambiguace se omezí, jak předpokládáme, z největší části na opravu chyb a řešení sporných případů.
Uvedli jsme, že výchozí značkování korpusu DESAM bylo provedeno automaticky programem LEMMA, v němž je zabudován formální a velmi detailní popis české flexe, a že s jeho pomocí jsme mohli přiřadit odpovídající vzor každému slovesnému tvaru v korpusu. Naše koncepce flexe sloves se dosti liší od tradiční, a proto pokládáme za vhodné se o ní stručně zmínit.
[269]České mluvnice rozlišují při popisu konjugace pět slovesných tříd podle kmene přítomného. Na základě kmene minulého se pak v rámci každé slovesné třídy vyděluje větší nebo menší počet vzorů (celkem 14). Popis české konjugace pro potřeby automatické morfologické analýzy se v zásadě shoduje s východisky popsanými v MČ 2, ovšem pro vlastní implementaci bylo třeba jej podstatně rozšířit (srov. Osolsobě, 1996). Základní strategie, o niž se opírá systém vzorů, se kterými LEMMA pracuje, vychází z toho, že vedle skutečných výjimek, k nimž řadíme především tzv. atematická a modální slovesa, existují celé skupiny sloves, které tvoří formálně dobře definovatelné „podvzory“. Vzory jsou pak pro program LEMMA definovány jako možné kombinace slovesných kořenů s kmenotvornými příponami a koncovkami. Koncovky jsou definovány samostatně jako skupiny (množiny) koncovek, kdy každá koncovka nese navíc gramatické významy. Koncovky jsou rozděleny do koncovkových množin na základě těchto kritérií:
1) rozdělení koncovkových množin podle slovesných subparadigmat
2) v rámci každého subparadigmatu se dále uplatňují následující kritéria:
a) koncovky, které potenciálně způsobují alternaci kmene
b) koncovky, které potenciálně alternují
c) koncovky, které způsobují alternaci kmenové finály
Koncovky, jež nelze na základě uvedených kritérií vytřídit z morfologické charakteristiky (množiny koncovek tvořících paradigma), tvoří jádrové koncovkové množiny, koncovky, které lze na základě uvedených kritérií vydělit, se řadí do množin periferních. Posledním kritériem pro vydělení podmnožin koncovek českých sloves je potřeba mít samostatné koncovkové množiny pro definici flexe zcela nepravidelně ohýbaných sloves.
Každý z 220 slovesných vzorů, s nimiž program LEMMA pracuje, je jednak definován vzorovým slovem, které pomáhá autorovi (uživateli programu) v orientaci např. při přiřazování nových kmenů ke vzorům, jednak kódem, z nějž lze vyčíst, v jakém je nový vzor vztahu ke klasickému vzoru a na základě jakých kritérií je definován.
Vedle slovně uvedených klasických vzorů nese, bere, …, kupuje, …, dělá tedy pracujeme s kódy tvořenými velkými písmeny nebo kombinacemi velkých a malých písmen. Aby si čtenář mohl udělat základní představu o kritériích, která byla použita k získání podrobné subklasifikace vedoucí ke zmíněným 220 slovesným vzorům, uvádíme níže aspoň hlavní z nich (podrobněji o tom viz Osolsobě, 1996):
R – alternace prefixu (pRefix)
S – alternace ve kmeni (Stem)
F – alternace ve finále (Final)
U – alternace v (kmenotvorné) příponě (sUffix)
E – alternace v koncovce (Ending)
X – nepravidelné (eXtra)
a,b,c – další různé varianty
Dodejme ještě, že program LEMMA[2] obsahuje vedle pravidel deklinace morfologická a částečně i slovotvorná pravidla definující kombinovatelnost kmenů uložených ve slov[270]níku s českými koncovkami vymezenými v rámci popisu českých koncovkových množin (Osolsobě, 1996). Díky tomu lze automaticky rozpoznávat a odvozovat deverbativa, deadjektiva, deadverbia a posesivní adjektiva (od životných substantiv, viz též Dokulil, 1966). Celkově lze říci, že program LEMMA pokrývá odhadem nejméně 300 000 českých lemmat a je-li použit jako generátor českých tvarů, může jich vytvořit minimálně kolem 6 000 000.[3] V interaktivním režimu umožňuje uživateli klást dotazy na jednotlivé analyzované slovní tvary, přiřadí jim základní tvar, slovní druh a gramatické významy podle příslušného slovního druhu. Při vytváření korpusu DESAM bylo použito dávkového zpracování. Nerozpoznaná slova (řetězy znaků) – nejčastěji zkratky, číselné výrazy, slova cizího původu a jména – ponechává LEMMA neoznačena: jejich počet se v současnosti pohybuje kolem 4 %. Takové výrazy se pak dodatečně zpracovávají ručně.
Není asi třeba zdůrazňovat, že bez značkovaného korpusu by se frekvence českých slovesných vzorů daly získat jen velmi těžko – díky němu lze příslušné substantivní tvary vyhledávat v korpusu a získávat číselné údaje o vzorech automaticky. Aby si čtenář mohl učinit představu, uveďme, že vytřídění potřebných údajů (viz níže) o frekvencích slovesných vzorů proběhlo v časovém horizontu hodin.
V této souvislosti pokládáme za vhodné porovnat klasické postupy založené na technice excerpce s technikami korpusové a počítačové lingvistiky. Konkrétně zkoumání frekvence vzorů v textu je příkladem toho, že korpusová a spolu s ní i lingvistika počítačová poskytují metodologické nástroje, bez nichž by se právě frekvence vzorů prakticky nedaly sledovat v rozumných časových mezích a také – v neposlední řadě – s přijatelnými finančními náklady. Manuální zpracování textů v rozsahu jednoho milionu slovních tvarů a zjišťování četností vzorů technikou excerpce na kartičkách, tj. klasickým způsobem, by nepochybně zabralo několik „člověkoroků“ (odhadem nejméně 2–3, pokud by se dnes ještě našel člověk, jako např. dr. M. Těšitelová, který by byl ochoten se do takové práce pustit). Přitom nejde o výzkum, jenž by byl teoreticky zvlášť komplikovaný, jen je především nesmírně pracný. Máme-li k dispozici dostatečně velký gramaticky označkovaný korpus vytvořený technikami korpusové lingvistiky a vhodné konkordanční a třídicí programy, můžeme výchozí statistiku frekvencí vzorů v textu o rozsahu asi jednoho milionu tvarů získat během dvou-tří hodin a celou práci na podkladové statistice vzorů tak provést během jednoho či dvou dnů. Statistiku slovních druhů, kterou uvádíme níže, lze pak ze značkovaného korpusu získat doslova během několika minut.
Výsledky získané korpusovými postupy v dohledné době ovlivní ovšem nejenom samu lingvistiku, ale i současné počítačové zpracování přirozeného jazyka – již teď na základě korpusových dat vznikají nové a přesnější elektronické slovníky a robustní počítačové gramatiky (viz např. Smrž – Žáčková, 1998). Korpusy jsou dnes v jazykovědě východiskem pro realistický základní výzkum ve formě relativně blízké přírodním vědám. Tento výzkum nepochybně povede k postupným úpravám a doplňování existujících gramatik a jazykových příruček a v blízké budoucnosti též k novému velkému (akademickému) výkladovému slovníku současné češtiny.
Na tomto místě nejprve připomeňme, že FSČ vznikal, jak známo, od 40. let, pracně a zdlouhavě pomocí excerpce a rozsáhlých kartoték. Dokonce ani po svém dokončení v r. 1953 se díky nepříznivému politickému klimatu nedočkal okamžitého vydání a byl vytištěn až v roce 1961. Materiál FSČ obsahuje celkem 1 623 526 dokladů (slovních tvarů) pocházejících z různých stylových okruhů, tj. z beletrie, poezie, dramatu, mluvených projevů, literatury pro mládež, publicistiky, vědecké a odborné literatury. Z tohoto hlediska je materiál FSČ reprezentativnější než DESAM, který obsahuje jen publicistické a odborné texty, ovšem z hlediska sourodosti pokládáme DESAM za přirozenější a spolehlivější, protože jde o textový korpus, tedy o text v jeho přirozené podobě, a nikoli o excerpta.
Tab. 1: Výchozí údaje
| FSČ | DESAM |
počet dokumentů | 75 | 3056 |
všechny slovní tvary (tokens) | 1 623 526 | 1 026 733 |
různé slovní tvary (types) | – 132 | 447 |
lemmata | 54 486 | 34 606 |
type/token ratio | – | 7,75 |
hapax legomena (lemmata) | 20 467 | 11 759 |
hapax legomena (tvary) | – | 67 059 |
Komentář k tab. 1
Základní porovnání v tab. 1 ukazuje, že některé údaje pro FSČ chybí, např. poměr type/token, jehož hodnota získaná z DESAM dobře odráží vysoce flektivní povahu češtiny. Abychom je získali, museli bychom mít k dispozici originální kartotéku FSČ – takový pokus by ovšem vedl ke klasickým potížím s bariérou manuálního zpracování. Jistý rozdíl mezi FSČ a DESAM je též v chápání dokumentů, ve FSČ se jimi obvykle rozumí knihy, části knih nebo čísel novin, v DESAM se za dokumenty pokládají jednotlivé novinové nebo časopisecké články, případně kapitoly (u počítačových manuálů). Je třeba konstatovat, že DESAM je sice rozsahem menší a v tomto ohledu i do jisté míry předběžný, ovšem za jeho přednost je třeba pokládat to, že je značkován: díky tomu a počítačovému uložení je opakovaně přístupný a použitelný i pro řadu dalších sond.
V tabulce č. 2 srovnáme percentuální zastoupení jednotlivých slovesných vzorů v počítačovém slovníku českých kmenů (Osolsobě, 1996) a frekvenci jednotlivých vzorů ve zkoumaném korpusu. Strojový slovník českých kmenů byl vybudován na základě hesláře SSJČ rozšířeného o slovní zásobu z jednoho ročníku LN a MF DNES. Obsahuje celkem 34 681 slovesných kmenů rozřazených do podskupin podle vzorů vytvořených pro potřeby algoritmického popisu sloužícího k automatické morfologické analýze. V korpusu DESAM se vyskytuje 141 269 slovesných tvarů. Rozdělili jsme obě skupiny sloves podle klasických vzorů a zjistili frekvenci vzorů ve slovníku a v textu.
Na základě předloženého srovnání docházíme k některým zajímavým zjištěním. Nerovnost percentuálního poměru mezi textem a slovníkem jsme předpokládali u skupiny nepravidelných (atematických) a modálních sloves. Zajímavější je ovšem srovnání výsledků u skupiny produktivních vzorů kupuje a dělá, které mají ve slovníku výrazně vyšší frekvenci než v textu. Rovněž velmi podnětné je porovnání u vzoru prosí, [272]který má nejvyšší frekvenci v textu po nepravidelných slovesech. Tato frekvence v textu je téměř shodná s frekvencí ve slovníku. Frekvenční srovnání vzorů ve slovníku a textu nás vede k prohloubení úvah o možnostech změn tradičního popisu českých vzorů (srov. Osolsobě, 1994).
Tab. 2
vzor | počet kmenů v textu | % | počet kmenů ve slovníku | % | ||
nepr. | 39619 |
| 28,045% | 119 |
| 0,343% |
modální | 13001 |
| 9,203% | 5 |
| 0,014% |
nese | 3171 |
| 2,244% | 311 |
| 0,896% |
bere | 1136 |
| 0,804% | 522 |
| 1,505% |
maže | 1848 |
| 1,308% | 299 |
| 0,862% |
peče | 335 |
| 0,237% | 183 |
| 0,527% |
umře | 597 |
| 0,422% | 119 |
| 0,343% |
tiskne | 5423 |
| 3,838% | 2773 |
| 7,995% |
mine | 561 |
| 0,397% | 197 |
| 0,568% |
začne | 3361 |
| 2,379% | 112 |
| 0,322% |
kryje | 256 |
| 1,816% | 493 |
| 1,421% |
kupuje | 15934 |
| 11,279% | 10366 |
| 29,889% |
prosí | 27366 |
| 19,371% | 6563 |
| 8,923% |
trpí | 2252 |
| 1,594% | 1453 |
| 4,189% |
sází | 5030 |
| 4,204% | 1356 |
| 3,909% |
dělá | 19069 |
| 13,498% | 9810 |
| 28,286% |
celkem | 141269 |
| 100,00% | 34681 |
| 100,00% |
Tradiční rozdělení českých vzorů, jak je nalézáme např. v MČ 2, se opírá o historický systém vzorů, který do dnešní doby v podstatě uchovává kmenový systém. Pro rodilého mluvčího, který by měl být schopen správně tvořit frekventované tvary (3. os. ind. préz. akt., infinitiv, pasivní participium, l-ové participium) je poměrně jednoduché sestavit pravidla pro vytvoření méně frekventovaných tvarů (přechodníků, slovesných substantiv, adjektivizovaných participií). Použití zmíněných pravidel pro výuku češtiny jako cizího jazyka, ať už se zaměříme na cizince bez předchozích znalostí, či na počítačové aplikace, je ovšem velmi obtížné. Srovnáme-li ovšem situaci v češtině se situací ve velkých západních jazycích (angličtině, němčině, francouzštině), dojdeme k zajímavým závěrům. Na jedné straně existují v češtině neproduktivní slovesné třídy a vzory, které mají vysoce nepravidelnou konjugaci (velký počet alternací kořenového vokálu a finály, alternující kmenotvorné přípony atp.). Řadí se sem slovesa I. třídy, II. třídy časovaná podle vzorů mine a začne, III. třídy – vzor kryje. Počet těchto sloves tvoří uzavřenou množinu. Pomineme-li jednotlivé prefigované varianty, které nemají vliv na flexi, zjistíme, že počet těchto sloves je zhruba stejný jako počet silných nebo nepravidelných sloves v západních jazycích (asi 200). Naopak údaje o frekvenci těchto sloves v textu dokazují, že jde mnohdy o frekventovaná slovesa. Srovnejme např. frekvenci sloves časovaných podle vzoru nese, umře, začne ve slovníku a v textu. Zjistíme, že poměr je 1:3. Poměr nejfrekventovanějšího slovníkového vzoru kupuje ve slovníku a v textu je obrácený – asi 3:1. Tato zjištění nás vedou k závěru, že se lze pokusit o nový pohled na třídy českých sloves a navrhnout klasifikaci, která by pracovala nikoli s pěti slovesnými třídami, jak je tomu dosud, ale se dvěma či spíše se třemi. Návrh nového pojetí českých slovesných tříd je ovšem tématem pro samostatný článek.
[273]Tab. 3: Porovnání prvních 50 nejčetnějších sloves ve FSČ a DESAM
FSČ | abs. četnost |
| DESAM | abs. četnost |
býti | 43148–8–75 |
| být | 33726 |
míti (se) | 11426–8–75 |
| mít (se) | 6154 |
moci | 6763–8–74 |
| říci | 4768 |
aby[4] | 6282–8–75 |
| muset | 1708 |
museti | 3928–8–73 |
| chtít | 1313 |
věděti | 3738–8–71 |
| aby | 1152 |
chtíti | 3566–8–73 |
| jít | 1147 |
jíti | 3336–8–74 |
| stát (se) | 856 |
říci | 3205–8–71 |
| dát (se) | 705 |
10viděti | 2848–8–71 |
| vědět | 697 |
dáti | 2793–8–75 |
| začít | 663 |
přijíti | 1793–8–70 |
| uvést | 660 |
mysliti (si) | 1734–8–67 |
| dostat | 625 |
kdyby | 1542–8–69 |
| získat | 609 |
státi | 1491–8–72 |
| platit | 503 |
říkati | 1444–8–69 |
| znamenat | 593 |
dělati (se) | 1329–8–64 |
| hrát (si) | 493 |
mluviti | 1273–8–71 |
| přijít | 488 |
dostati (se) | 1223–8–71 |
| říkat | 487 |
20státi (se) | 1219–8–72 |
| vidět | 478 |
vzíti (se) | 1024–8–69 |
| vést | 468 |
dovésti | 957–8–65 |
| patřit | 43 1 |
začíti (se, si) | 955–8–63 |
| existovat | 402 |
slyšeti | 950–8–63 |
| najít | 385 |
znáti (se) | 929–8–73 |
| pracovat | 382 |
zdáti (se) | 926–8–70 |
| potřebovat | 363 |
zůstati | 885–8–68 |
| považovat | 359 |
žíti | 854–8–69 |
| zůstat | 356 |
dívati se | 812–8–59 |
| rozhodnout | 353 |
30vrátiti (se) | 804–8–67 |
| dojít | 348 |
hráti (si) | 789–8–69 |
| dokázat | 331 |
najíti | 780–8–69 |
| změnit | 318 |
vésti (se, si) | 767–8–67 |
| připravit | 315 |
čekati | 749–8–64 |
| myslit (si) | 307 |
choditi | 731–8–60 |
| stačit | 296 |
seděti | 704–8–59 |
| dělat (se) | 295 |
cítiti (se) | 703–8–65 |
| čekat | 292 |
pracovati | 677–8–61 |
| tvrdit | 291 |
dávati (se) | 676–8–66 |
| podařit se | 290 |
40udělati (se) | 663–8–56 |
| jednat | 289 |
prositi (se) | 659–7–48 |
| dosáhnout | 288 |
ukázati (se) | 652–8–65 |
| dávat | 281 |
věřiti | 644–8–63 |
| objevit | 277 |
podívati se | 638–8–52 |
| vytvořit | 276 |
[274]směti | 611–8–71 |
| znát (se) | 273 |
báti se | 598–8–55 |
| počítat | 272 |
půjdu | 595–8–44 |
| tvořit | 271 |
znamenati (se) | 584–8–60 |
| zdát se | 263 |
nechati (si) | 575–8–61 |
| dodat | 262 |
50rozuměti (si, se) | 568–8–64 |
| nabízet | 261 |
Vzhledem k téměř čtyřicetiletému odstupu, který dělí jazyková data zahrnutá ve FSČ a v korpusu DESAM, bylo možno předpokládat jisté odlišnosti, jež se projevují v rozdílech frekvence slov v obou zdrojích. Na slovní zásobě se jistě projevily ekonomické a politické změny, které proběhly v naší společnosti. V následujícím odstavci se pokusíme interpretovat některé posuny, jež lze vysledovat v tab. 3.
Podívejme se nejdříve na některé společné rysy a rozdíly FSČ a DESAM. Mezi prvními padesáti nejfrekventovanějšími slovesy se v obou zdrojích setkáváme s očekávanými shodami. V první desítce nacházíme shodně slovesa být, aby, mít, říci, muset, chtít, jít. Zajímavé je srovnání sloves vnímání. Zatímco sloveso vidět nacházíme v obou zdrojích, slovesa slyšet a cítit se objevují v první padesátce pouze ve FSČ. Z tohoto zjištění bychom snad mohli usuzovat na celkovou dnešní převahu vizuálního vnímání. Slovesa myslit, znát, zdát se jsou zastoupena v obou vzorcích, slovesa rozumět, věřit jsou pouze ve FSČ. Tyto rozdíly lze přičíst na vrub větší stylové rozmanitosti zdrojů FSČ. Ve FSČ se mezi prvními 50 slovesy nesetkáme se slovesy rozhodnout, získat, existovat, nabízet, stačit, počítat. Tato slovesa se v současném jazyce reprezentovaném v korpusu DESAM dostala do popředí nepochybně díky celkové orientaci dneška na ekonomické otázky. Vysokou frekvenci slovesa existovat v DESAM klademe do souvislosti s nižší frekvencí slovesa být v DESAM ve srovnání s FSČ. V korpusu DESAM scházejí slovesa nechat, smět, kdyby, prosit, bát se, žít. Absence modálního smět, podmiňovacího kdyby a sloves nechat, prosit, bát se v DESAM by se snad dala vyložit tak, že jazyk médií a vědy se snaží o jednoznačnost vyjádření bez emocionálního zabarvení. V DESAM se naopak setkáme se slovesy dokázat, dosáhnout, podařit se, jednat svázanými s dneškem orientovaným primárně na úspěch. Poznamenejme ještě, že zatím nemůžeme nabídnout přesné údaje o výskytu se u jednotlivých sloves v případech, kdy nejde o reflexiva tantum, nicméně desambiguační program schopný zpracovávat složené slovesné tvary to v blízké budoucnosti umožní.
Korpusové údaje z DESAM poskytují také vhodné podklady ke krátké zmínce o situaci v současných textech (1992–96) ve vztahu k novým Pravidlům českého pravopisu (1993). Podíváme-li se na často probírané a tedy nejproblematičtější případy dvojího způsobu psaní slov přejatých, dostáváme následující obraz (číslo v závorce udává absolutní četnost jednotlivých dubletních variant v korpusu DESAM):
kurs (104) : kurz (119)
president (3) : prezident (580)
impuls (12) : impulz (1)
diskuse (104) : diskuze (3)
milion (615) : milión (265)
filosofie (9) : filozofie (88)
universita (3) : univerzita (142)
[275]Po 5 letech existence nových Pravidel českého pravopisu (1993) korpusové texty ukazují, že buď je poměr obou možných variant prakticky vyrovnaný, jak je tomu u dvojice kurs/z, nebo naopak celkem jednoznačně vychýlený na jednu či druhou stranu (např. prez/sident). Nezdá se tedy, že bychom zatím mohli pozorovat souvislou a výraznější tendenci, která by naznačovala, kam by se snad mohl ubírat další vývoj. Současná situace spíše naznačuje, že v současných textech vzrostla míra „rozkolísanosti“ nebo dokonce „zmatku“ a „libovůle“.
Korpusové texty také naznačují, že tzv. „konservativní“ psaní se celkem zřetelně preferuje a prosazuje v odborných textech (dokládají to texty z časopisu Vesmír), dokonce se zdá, že se v nich nyní začíná uplatňovat i tam, kde tomu tak dříve nebylo (viz např. dvojice filosofie : filozofie, ev. i další jako třeba milion : milión). Data z korpusových textů a zdravý rozum nás vedou k závěru, že současný stav rozkolísanosti není věci na prospěch a celkem zřetelně volá po nějakém racionálnějším řešení. Kloníme se k názoru, že rozumné a proveditelné řešení by se mělo osvobodit od současných inkonzistencí/inkonsistencí vyvolaných nedůslednými úvahami o potřebě další fonetizace i tak již dost fonetického českého pravopisu (viz např. dvojici kurz/s proti dub/p), a mělo by tedy vést ve směru spíše mírně konservativním.
Závěrem nabízíme tabulku, která obsahuje údaje o četnostech slovních druhů ve FSČ a DESAM (v procentech).
Tab. 4
slovní druh | FSČ % | DESAM % |
substantiva, k1 | 27,77 | 33,75 |
adjektiva, k2 | 11,16 | 13,25 |
zájmena, k3 | 10,91 | 8,34 |
číslovky, k4 | 1,61 | 1,75 |
slovesa, k5 | 18,15 | 15,22 |
adverbia, k6 | 10,29 | 5,70 |
předložky, k7 | 10,12 | 12,00 |
spojky, k8 | 9,78 | 5,93 |
partikule, k9 | – | 2,62 |
citoslovce, k0 | 0,21 | .0,0008 |
zkratky, kX | – | 1,44 |
celkem | 100 | 100 |
Porovnání hodnot četností jednotlivých slovních druhů v tab. 4 ukazuje, že u substantiv se zřetelně projevuje a potvrzuje očekávaný rozdíl vyplývající z širšího stylového záběru FSČ proti DESAM. Vyšší četnost substantiv v DESAM a podobně i v korpusu věcného stylu (dále VS, Těšitelová, 1985) jde jistě na vrub publicistických a odborných textů tvořících DESAM a VS. Rozdíl je patrný též u sloves, domníváme se, že jejich naopak vyšší četnost ve FSČ je důsledkem skutečnosti, že FSČ zahrnuje umělecké texty, vyznačující se vyšší dynamičností, jež má svůj formální odraz ve vyšší četnosti slovesných lemmat.
Celkově dobrou shodu mezi FSČ a DESAM lze pozorovat u adjektiv (11,16 – 13,25) a číslovek (1,61 – 1,75). Jistý rozdíl u předložek (10,12 – 12,0) si vysvětlujeme tím, že DESAM obsahuje stylově specializovanější texty než FSČ, proto nepřekvapuje, že v DESAM je frekvence předložek vyšší.
[276]Nejpřekvapivější rozdíly mezi FSČ a DESAM nacházíme u částic a zkratek. FSČ neuvádí pro částice žádnou hodnotu, v korpusu VS pak najdeme nízkou hodnotu 0,37. Jistě nejde o náhodu ani o opomenutí a stejně tak lze sotva akceptovat případné vysvětlení, že by se v excerptech FSČ částice vůbec nevyskytovaly. Spíše tu jde, jak se domníváme, o důsledek jistého teoretického postoje, díky němuž byly částice ve FSČ v zásadě ponechány stranou. Rovněž se ve FSČ a VS nepočítá se zkratkami – což plyne z faktu, že ve standardních gramatikách se buď o zkratkách nemluví vůbec, nebo jen zcela okrajově. Přitom je zřejmé, že představují stejně plnoprávnou skupinu jazykových výrazů, jako jsou třeba substantiva, přesněji řečeno, většina zkratek má jednoznačně substantivní povahu a zkratky syntakticky představují i docela složité nominální skupiny (a významově pak komplexní pojmenování), jejichž ignorování způsobuje, že realistická analýza textu potom nemůže být úplná. I zde korpusová data naznačují, kterým jevům je v blízké budoucnosti potřeba věnovat soustavnější pozornost. Při úplnější analýze bychom v této souvislosti museli vzít v úvahu i zkratky ČR a Kč, které se v DESAM vyskytují s absolutní četností 454 a 350. Podobně to platí o řadě dalších zkratek jako např. USA (454), ODS (172), SR (109), OSN (109), ČSSD (88), ODA (80) a dalších. Jejich samostatná frekvenční analýza opřená o korpusová data bude velmi potřebná i pro předpokládané standardní automatické zpracování volného textu.
Na základě frekvenční analýzy slovesných vzorů v češtině a porovnání s jejich distribucí ve strojovém slovníku českých kmenů, který dobře reprezentuje slovní zásobu současné češtiny, jsme nabídli první údaje tohoto druhu pro češtinu. Navíc nám materiál získaný analýzou části ČNK otevírá cestu k celé řadě dalších úvah jak v oblasti slovotvorby, tak v oblasti formální morfologie a samozřejmě i významosloví. Výsledky uvedeného porovnání také ukazují, že je možno pokusit se o nový pohled na třídy českých sloves a v blízké budoucnosti nabídnout odlišný inventář slovesných tříd založený na protikladu pravidelných a nepravidelných sloves. Kromě analýzy vzorů jsme uvedli konfrontaci první padesátky sloves nejčastěji zastoupených ve FSČ a DESAM i výchozí pohled na základní tendence ve vývoji slovesné slovní zásoby, jak se projevují v současných textech publicistického a odborného stylu. Konečně jsme mohli nabídnout i stručné porovnání frekvencí slovních druhů a konkrétní data svědčící o značné rozkolísanosti pravopisné normy, která je podle našeho názoru způsobena vnitřní inkonz/sistencí Pravidel českého pravopisu z r. 1993. Úplně na závěr bychom rádi konstatovali, že s růstem velikosti ČNK a jeho značkovaných subkorpusů bude možno v blízké budoucnosti dospět k řadě nových a zajímavých výsledků – obrazně řečeno, korpusová data z ČNK umožní otevřít doslova „továrnu“ pro lingvisty.
LITERATURA
DOKULIL, M.: Tvoření slov v češtině. Academia, Praha 1967.
HAJIČ, J. – HLADKÁ, B.: Probabilistic and rule based tagging of an inflective language – a comparison. Technical Report No. 1. ÚFAL MFF UK, November 1996.
HAJIČ, J. – HLADKÁ, B.: Tagging inflective languages: prediction of morphological categories for a rich, structural tagset. Technical Report TR–1997–04. ÚFAL MFF UK, Praha 1997.
HAVRÁNEK, B. – JEDLIČKA, A.: Česká mluvnice. SPN, Praha 1981.
HLAVÁČKOVÁ, D.: Korpus mluvené češtiny. Diplomová práce. Brno 1998.
[277]JELÍNEK, J. – BEČKA, J. V. – TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. SPN, Praha 1961.
LAMPRECHT, A. – ŠLOSAR, D. – BAUER, J.: Vývoj mluvnického systému českého jazyka. SPN, Praha 1970.
LAMPRECHT, A. – ŠLOSAR, D. – BAUER, J.: Historická mluvnice češtiny. SPN, Praha 1986.
LEECH, G.: Corpus annotation schemes. In: Literary and Linguistic Computing, Vol. 8, No. 4, 1993, s. 275–281.
Mluvnice češtiny, 2. Academia, Praha 1986 (zkr. MČ).
OSOLSOBĚ, K.: Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační práce. FF MU, Brno 1966.
PALA, K. – RYCHLÝ, P. – SMRŽ, P.: DESAM – Annotated Corpus for Czech. Proceedings of SOFSEM 97. Springer Verlag, New York – Hamburk 1997.
Pravidla českého pravopisu. Praha 1993.
PUŽA, V.: Syntaktická analýza přirozeného jazyka z hlediska značkování korpusu. Diplomová práce. FI MU, Brno 1997.
SMRŽ, P. – ŽÁČKOVÁ, A. E.: New tools for disambiguation of Czech texts. In: Proceedings of Text, Speech, Dialogue’98. MU, Brno 1998, s. 129–134.
ŠEVEČEK, P.: Morfologický analyzátor (lemmatizátor) LEMMA, program v jazyce C. Brno 1995–96.
TĚŠITELOVÁ, M. a kol.: Kvantitativní charakteristiky současné češtiny. Academia, Praha 1985.
TĚŠITELOVÁ, M. a kol.: O češtině v číslech. Malá jazyková knižnice. Academia, Praha 1987.
[1] Komplexní grantový projekt „Čeština ve věku počítačů“ se uskutečňuje díky finanční podpoře GA ČR a sdružuje 7 pracovišť: Ústav Českého národního korpusu při FF UK (F. Čermák), Ústav formální a aplikované lingvistiky na MFF UK (E. Hajičová), Ústav formální a teoretické lingvistiky FF UK (P. Sgall, V. Petkevič), katedra českého jazyka FF UK (K. Kučera), Ústav českého jazyka FF MU (K. Osolsobě), katedra informačních technologií FI MU (K. Pala), Ústav pro jazyk český AV ČR (J. Králík).
[2] Rádi bychom také poděkovali dr. P. Ševečkovi, který pro potřeby tohoto výzkumu modifikoval morfologický analyzátor LEMMA tak, aby pro každý zpracovaný slovní tvar z textu dával na výstupu automaticky i jeho ohýbací vzor.
[3] Po implementační stránce je LEMMA k dispozici pro všechny u nás používané platformy, tj. pro operační systémy DOS, UNIX (LINUX) a MACINTOSH.
[4] Jistý problém představují tvary aby, kdyby, které jsou jednak části slovesného tvaru v kondicionálu a jednak fungují jako spojovací výrazy. Abychom je v tab. 3 nemuseli započítávat dvakrát, volíme jistý kompromis a řadíme je ke slovesným tvarům. Cílem je poskytnout aspoň základní informaci o jejich četnosti.
Slovo a slovesnost, volume 59 (1998), number 4, pp. 265-277
Previous Milan Harvalík: K problému klasifikace exonym
Next Petra Klötzerová: Hranice frazeologie se posouvají. Lexikální frazémy v češtině
© 2011 – HTML 4.01 – CSS 2.1