Dana Hlaváčková
[Rozhledy]
Corpus of spoken Czech from Brno setting and its morphological tagging
Příspěvek pojednává o morfologickém značkování počítačově zpracovávaného korpusu mluvené češtiny z brněnského prostředí.
Přestože je korpusová lingvistika velmi mladý obor, i v českém prostředí už nalezla své místo a touto problematikou se již několik let zabývá řada odborníků – lingvistů i programátorů. Bližší informace lze získat na internetové adrese www.ucnk.ff.cuni.cz/cnc. Na Fakultě informatiky MU v Brně je k dispozici označkovaný korpus DESAM s rozsahem asi milion slovních tvarů na adrese www.fi.muni.cz/~pary/korp.
Součástí Českého národního korpusu (ČNK), který je budován na Filosofické fakultě v Praze, bude i morfologicky značkovaný subkorpus mluvené češtiny z brněnského prostředí (asi čtyři sta tisíc slov). Připravuje se zařazení subkorpusu soukromé korespondence.[1]
Základem ČNK je převážně psaný jazyk, mluvená část tvoří jen malé procento z celkového rozsahu. Práce s mluveným jazykem je totiž časově i technicky velmi náročná. Obtížný není jen sběr a elektronický přepis materiálu, ale též jeho další počítačová analýza. U psaných textů, které bývají předem připravené, lze počítat s ustálenou strukturou, ukončenými a logicky navazujícími větami a očekávanou slovní zásobou. Vybrané texty jsou navíc psány převážně spisovným jazykem. Zpracování psaného projevu počítačem je tedy možno založit na určitých předpokládaných zákonitostech, hlavně v oblasti morfologie a syntaxe. Morfologické značkování psaného českého jazyka bylo již uspokojivě vyřešeno, při zpracování mluvené češtiny je však třeba počítat s řadou problémů. K jejich řešení se snaží přispět i tato studie.[2]
Na FF MU v Brně je pod vedením Z. Hladké od poloviny 90. let průběžně sestavován korpus mluvené češtiny z brněnského prostředí.[3] Skládá se ze záznamů předem nepřipravených mluvených projevů – řízených a neřízených dialogů. Všichni mluvčí jsou obyvateli Brna, je proto třeba přihlédnout ke zvláštnostem místního prostředí. Brno je město se složitou sociální strukturou a s velkým pohybem obyvatelstva. V mluvě Brňanů se prolíná několik jazykových vrstev. Najdeme v ní prvky spisovné a obecné češtiny i středomoravského interdialektu, ve slovní zásobě je ve zbytcích znát někdejší soužití brněnské češtiny s německým jazykem a patrný je i vliv brněnských [63]slangů. Na zmíněná specifika je třeba brát zřetel jak při přepisu nahrávek, tak při následné morfologické analýze korpusových textů.
Záznam brněnské mluvené češtiny pro ČNK byl pořízen následujícím způsobem:[4] na magnetofonové pásky byli nahráváni rodilí Brňané (nebo lidé v Brně dlouho žijící) ve věku od 20 let výše. Cílem bylo získat nahrávku přirozeného mluveného jazyka, a to od respondentů obou pohlaví, různého věku a vzdělání. Jednotlivé zaznamenané části měly obsahovat asi 2300 slov, což je délka zhruba dvacetiminutové nahrávky. Každý mluvčí se uplatnil ve formálním a neformálním rozhovoru. Formální byl řízen danými otázkami, u kterých bylo nutné dodržet formu a pořadí. Neformální rozhovor byl tematicky volný. Nahrávaným nebyl sdělen účel nahrávky, aby se předešlo záměrným deformacím přirozené mluvy. Každý mluvčí byl označen kódem, zaznamenávajícím jeho pohlaví, věk a vzdělání. Nahrávka byla doplněna informacemi o okolnostech záznamu promluvy. Mluvčí se nacházeli většinou v neoficiálním prostředí, kterému odpovídal i výběr lexika. V dialozích byli v kontaktu s jiným mluvčím nebo tazatelem, takže texty jsou plné kontaktových prostředků, oslovení, opravování, nedokončených a vzájemně přerušovaných výpovědí. V souvislosti s tempem promluv je zde také velké množství pauz, ať hezitačních, či významotvorných. Výpovědi jsou často emocionálně zabarvené, čemuž odpovídá výběr slov i syntaktická stavba vět. Nahrávky jsou ovlivněny také dalšími faktory. Některé odpovědi byly často rozsáhlými monology, jiné se netýkaly daného tématu (zvláště u starších mluvčích), v některých případech byl dotazovaný zase nepřiměřeně stručný. U neformálních rozhovorů, které měly být přirozeným dialogem dvou nebo více lidí, se vyskytuje také řada potíží. Především špatná technická kvalita, nesrozumitelnost nahrávky, způsobená vzdáleností přístroje od mluvčích nebo ruchem v okolí. Obtížný je také zápis úseků, kde mluví více zúčastněných najednou. Vzhledem k výše uvedeným problémům bylo nutné vybrat pro další zpracování pouze kvalitní nahrávky. Studenti FI MU (Zrůstek, Vydržal) provedli digitalizaci těchto mluvených textů a jejich záznam na CD.
Pro přepis do počítačové podoby byla sestavena pravidla vycházející ze spisovné grafiky, ale reflektující některá důležitá specifika mluveného jazyka.[5] Hlavní zásadou byl co nejvěrnější přepis záznamu. Z tohoto požadavku vyplynulo neoznačování hranic vět – nepoužívá se počáteční velké písmeno, z interpunkčních znamének se užívá otazník pro signalizaci otázky a tečka, která značí pauzu (podle délky trvání – jedna až tři tečky). Přímou řeč signalizují uvozovky a dvojtečka. Neurčitý (hezitační) zvuk se značí pomocí @. Nesrozumitelný úsek sérií pomlček. Simultánní úsek, kdy hovoří více mluvčích najednou, se uzavírá do svislých čar. Doplňující komentáře k situaci nahrávání jsou v kulatých závorkách. U zkratek a cizích slov se skutečná výslovnost zaznamenává do hranatých závorek. Stejně je zachycena nespisovná výslovnost znělostní asimilace. Artikulační asimilaci a zjednodušení souhláskových skupin je třeba zapisovat co nejpřesněji. Pravidla byla postupně upravována a zpřesňována, aby co nejlépe vyhovovala danému účelu. Podle nich byly nahrávky přepisovány na počítači v textovém editoru T602. Vznikaly tak textové soubory, každý obsahoval jeden formální a jeden neformální rozhovor téhož mluvčího.
Pro morfologickou analýzu bylo vybráno sto počítačových souborů, které byly spojeny v jeden. U tohoto subkorpusu byla sečtena slova; jejich celkový počet byl 206 473. Je však třeba si uvědomit, že při automatickém sčítání je za slovo považován každý řetězec znaků oddělený z obou stran mezerou. Texty obsahovaly i řadu neslovních znaků – označení mluvčích, názvy souborů, v závorkách doplňující komentáře či skutečnou výslovnost znělostní asimilace apod. Po vyčištění od těchto neslovních znaků obsahoval korpus 171 867 slovních forem.
U takto připraveného korpusu je třeba k jednotlivým tvarům slov přiřadit jejich morfologické charakteristiky. Tento proces se nazývá značkování (užívá se i název tago[64]vání z anglického tagging). Je možné jej provádět ručně, podle předem stanoveného kódovníku. Výhodou je vysoké procento správnosti přiřazených charakteristik, je to však způsob velmi pracný. Výhodnější je použití značkování automatického.
Pro automatické morfologické značkování bylo různými autory ze zúčastněných pracovišť vytvořeno několik programů. Na FF MU v Brně program LEMMA (Osolsobě, Ševeček). V procesu zpracování jazyka tímto programem je všem ohebným slovním druhům přiřazena k tvaru slova jeho základní podoba, tzv. lemma (nominativ singuláru, infinitiv), a následně u všech slovních druhů mluvnické kategorie pro použitý tvar. Podstatou morfologické analýzy u tohoto programu je segmentace slovního tvaru na formální části – kmen a koncovku. Základem programu je potom strojový slovník slovních kmenů, neohebných a nesklonných slov. S ním je provázán seznam koncovkových množin. Při automatické analýze je slovo zkoumáno od konce, a pokud je jeho tvar identifikován, je mu přiřazeno lemma a značka s jeho mluvnickou charakteristikou. Zkoumaný textový soubor je programem upraven tak, že se na každém řádku nachází jedno slovo, k němu je se značkou <l> přiřazeno lemma a pod značkou <c> označení morfologických kategorií, např. slovem <l>slovo <c>k1gNnSc7. Tvary slov, které LEMMA nenalezne ve svém slovníku, jsou ponechány bez označení.
U jednotlivých slovních druhů byly značeny následující kategorie:
Slovní druh | Druh | Číslo | Pád | Klad-zápor | Rod | Stupeň | Os., čas, způs., vid |
Podst. jm. |
| x | x | x | x |
|
|
Příd. jm. | x | x | x | x | x | x |
|
Zájmeno | x | x | x |
| x |
|
|
Číslovka | x | x | x |
| x |
|
|
Sloveso |
| x |
| x |
|
| x |
Příslovce | x |
|
| x |
| x |
|
Předložka |
|
| x |
|
|
|
|
Spojka | x |
|
|
|
|
|
|
Částice |
|
|
|
|
|
|
|
Citoslovce |
|
|
|
|
|
|
|
V celém systému programu LEMMA je brán zřetel na mezní případy stojící na hranici morfologie a slovotvorby. Z tabulky je patrné, že kromě morfologických jsou značeny i některé slovotvorné kategorie (existence – neexistence záporného prefixu, stupňování). Navíc jsou programem automaticky derivována příslušná posesivní adjektiva od životných maskulin a feminin a automaticky odvozována adverbia od odpovídajících adjektiv. Pro slovní zásobu program LEMMA využívá elektronickou podobu hesláře, který vychází ze Slovníku spisovného jazyka českého. Kromě automatické analýzy textu může pracovat i v interaktivním režimu, kdy reaguje na jednotlivě zadávaná slova, a to dvěma způsoby. Buď k vybranému slovu určí jeho lemma a přiřadí charakteristiku, nebo k němu vygeneruje všechny jeho možné tvary.
Pro názornost uvádíme ukázku textu, který je přepisem nahrávky, a jeho části jako výstupu automatické analýzy programem LEMMA.
[65]Ukázka textu:
a každé mámě . která by dala . svoji dceru na strojní průmyslovku tak jí zakroutim krkem protože . to .. teda vopravdu není pro ženskou . ženská když de . buď má rodinu nebo . @ zaměstnání že . když de z práce dom tak musí zaměstnání pustit z hlavy . věnovat se rodině
Označkovaná část textu:
a<l>a <c>k9 <l>a <c>k8xC | ||||
každé <l>každý | <c>k3xUgNnSc145, | k3xUgFnSc236, k3xUgMnPc4, | ||
| k3xUgInPc145, | k3xUgFnPc145 | ||
mámě <l>mámit <c>k5eApMnStPmTaI <l>máma <c>k1gFnSc36 | ||||
která <l>který | <c>k3xRgFnSc15, k3xRgNnPc145 <l>který <c>k3xQgFnSc15, | |||
| k3xQgNnPc145 | |||
by <l>by <c>k8xS <l>by <c>k5eAmFaI, k5eAp3nStPmCaI, k5eAp3nPtPmCaI | ||||
dala <l>dát <c>k5eApFnStMmPaP, k5eApNnPtMmPaP | ||||
svoji <l>svůj <c>k3xOnSc4, k3xOnPc1 | ||||
dceru <l>dcera <c>k1gFnSc4 | ||||
na <l>na <c>k7c46 | ||||
strojní <l>strojní | <c>k2eAgMnSc15d1, k2eAgXnPc145d1, k2eAgUnSc145d1, | |||
| k2eAgFnSc1234567d1 | |||
průmyslovku <l>průmyslovka <c>k1gFnSc4 | ||||
tak <l>tak <c>k6xMeAd1 <l>tak <c>k9 | ||||
jí <l>jíst <c>k5eAp3nStPmIaI <l>on <c>k3xPnSc237 | ||||
zakroutim | ||||
krkem <l>krk <c>k1gInSc7 | ||||
protože <l>protože <c>k8xS | ||||
to <l>ten <c>k3xDnSc145 | ||||
teda <l>tedy <c>k8xS <l>tedy <c>k9 | ||||
vopravdu | ||||
není <l>nebýt <c>k5eAp3nStPmIaI | ||||
pro <l>pro <c>k7c4 | ||||
ženskou <l>ženská <c>k1gFnSc47 <l>ženský <c>k2eAgFnSc47d1 |
Stručné vysvětlivky značek:
k1 – k0 | … | slovní druh |
g | … | mluvnický rod (M-mužský životný, I-mužský neživotný, F-ženský, N-střední, X-libovolný, U-M+I+N) |
n | … | číslo (S-singulár, P-plurál) |
c1 – c7 | … | pád |
d1 – d3 | … | stupeň |
eA – eN | … | klad – zápor |
h | … | slovotvorný rod |
x | … | poddruh u zájmen (P-osobní, O-přivlastňovací, D-ukazovací, Q-tázací, R-vztažná, U-neurčitá, N-záporná, X-zvratná) |
| … | poddruh u číslovek (C-základní, O-řadové, R-druhové) |
| … | poddruh u příslovcí (M-způsobu, L-místa, T-času, D-modální, C-příčiny, S-stavu, Q-míry) |
| … | poddruh u spojek (S-podřadné, C-souřadné) |
p1 – p3 | … | osoba (pM, pI, pF, pN – rozlišení 3. os.) |
tM, tP, tF | … | čas |
m | … | způsob (F-infinitiv, I-oznamovací, R-rozkazovací, P-příčestí, T-přechodník, C-podmiňovací, K-konjunktiv) |
aP, aI | … | vid |
[66]Příklad:
ženskou | – lemma ženská, |
k1 … slovní druh – substantivum | |
gF … rod – femininum | |
nS … číslo – singulár | |
c47 … pád – akuzativ nebo instrumentál | |
| – lemma ženský, |
k2 … slovní druh – adjektivum | |
eA … slovo kladné | |
gF … rod – femininum | |
nS … číslo – singulár | |
c47 … pád – akuzativ nebo instrumentál | |
d1 … první stupeň |
Bez označení zůstala v tomto úseku dvě slova. Tvar zakroutim nezískal index, neboť šlo o zpracování textu verzí programu, určenou pro psaný jazyk. Po doplnění obecněčeských a středomoravských koncovek je k výrazu zakroutim připojena značka <l>zakroutit <c>k5eAp1nPtPmIaP. Slovo vopravdu není označeno, protože obsahuje protetické v.
Program LEMMA hodnotí jednotlivá slova bez ohledu na jejich zapojení v kontextu, a proto dochází k problémům s víceznačností u některých tvarů slov. Například u slova ženskou není bez kontextu jasné, zda jde o substantivum nebo adjektivum.
Problémy s víceznačností u automatického zpracování textu je možné odstranit pomocí programu DESAMB (Puža, FI MU). Ten prochází celým textem a ke každému tvaru nabídne všechny jeho existující morfologické charakteristiky, které určil program LEMMA. Z této nabídky je třeba správnou variantu ručně vybrat a potvrdit.
Uživatel má k dispozici kromě charakteristik ještě možnost nevím – slova jsou označena <n>, žádná z uvedených možností – značka <z>. Tato slova je snadné později vyhledat a opravit. Položka vybrat ručně opravený umožňuje ruční opravu slova či charakteristiky přímo v procesu desambiguace. Opravy jsou nutné v případech, kdy slovo není obsaženo ve slovníku, ale přesto má pro program známý tvar. K těmto problémům dochází právě při zpracování mluveného jazyka, kdy například slovo (já) sem je označeno <c>k6xLeAd1, tedy jako adverbium místa.
Na FI MU v Brně byl dále vytvořen komplexní program pro zpracování textu LMFILTER (Horák), jehož součástí je lemmatizace a následná desambiguace s částečnou syntaktickou analýzou. Na jejím základě jsou zjednoznačněny nominální fráze, jejichž složky se shodují v určitých mluvnických kategoriích (např. adjektivum a substantivum v rodu, čísle a pádu). Tímto zásahem se podstatně snížil počet výrazů, které je nutno desambiguovat ručně.[6] Nejde přitom o syntaktické značkování, pouze o zjednodušení desambiguace. Rozdíl mezi prostou lemmatizací a použitím částečné syntaktické analýzy je patrný z konkrétního příkladu.[7]
[67]1. výstup po lemmatizaci: |
ta <l>ten <c>k3xDnSc15, k3xDnPc15 |
první <l>první <c>k4xOgMnSc15, k4xOgXnPc145, k4xOgUnSc145, k4xOgFnSc1234567 |
skupina <l>skupina <c>k1gFnSc1 |
2. výstup po lemmatizaci a desambiguaci s částečnou syntaktickou analýzou |
ta <l>ten <c>k3xDgFnSc1 |
první <l>první <c>k4xOgFnSc1 |
skupina <l>skupina <c>k1gFnSc1 |
Na druhé straně tento způsob zpracování přinesl i několik problémů. Například ve spojení slov (hodina) … se jim… (docela podařila) bylo se jim považováno za nominální frázi (s nim) a automaticky označeno jako předložka a zájmeno v instrumentálu. Oproti tomu při lemmatizaci bez syntaktické analýzy bylo spojení označeno tak, že umožňuje vybrat správnou variantu:
se <l>s <c>k7c7 <l>sebe <c>k3xXnSc4 |
předložka/zvratné zájmeno |
jim <l>on <c>k3xPnSc7, k3xPnPc3 |
zájmeno v dativu i instrumentálu |
Příčina problémů tkví také v tom, že použité programy zatím rozlišují pouze tvary jednotlivých slov a nominální fráze, přičemž slova musí stát vedle sebe. Nejsou schopny rozpoznat například složené slovesné tvary, proto výraz podařila se nehodnotí jako reflexivní sloveso, ale značí každé slovo zvlášť. Stejně tak jsou brány i spřežky, pokud jsou jejich složky psány jednotlivě, např. v podstatě je charakterizováno jako předložka a substantivum v lokále singuláru.
Další obtíže při automatickém značkování slov vyplývají ze specifika mluveného projevu. Například při opakování stejných výrazů jako (ti) cestující cestující (odjedou) je první slovo označeno jako adjektivum a druhé jako substantivum a spojení je považováno za nominální frázi.
Po použití výše zmíněných programů vznikne morfologicky částečně označkovaný korpus. Téměř stoprocentní úspěšnosti lze dosáhnout při zpracování psaného textu. Původní verze programů byly určeny právě pro analýzu psaného projevu. Pro zpracování záznamu mluveného jazyka bylo třeba provést určité změny v programovém vybavení. Těmto zásahům předcházela analýza získaného materiálu.
V mluveném jazyce se vyskytuje řada slov, která se vymykají automatickému zpracování. Pro jejich bližší určení bylo provedeno několik následných operací.
Nejdříve byl korpus zkušebně zlemmatizován původní verzí programu LEMMA pro spisovný jazyk. Výsledkem byl jen částečně označkovaný korpus. Pomocí třídicího programu GREP jsme zlemmatizovaný korpus rozdělili na část označkovanou a neoznačkovanou. Nezlemmatizovaná část pak obsahovala výrazy obecněčeské, nářeční, cizí slova, zkratky, citoslovce, slova zkomolená a několik spisovných slov, která neby[68]la obsažena ve slovníku programu LEMMA. Výrazy lišící se pouze obecněčeskými a hanáckými morfologickými koncovkami lze, po úpravách programu, zpracovat automaticky. Jejich kmen zůstává shodný se spisovným, přiřazují se jen odlišné koncovky, což vyhovuje principu, na jakém funguje program LEMMA. Zbývá však řada slov, která nelze takto automaticky označkovat a bude nutné přiřadit značky ručně. Patří mezi ně:
1. výrazy se změnami v kmeni (kópili, téden);
2. početná skupina slov se zkrácenými vokály (čist, drat, pichat);
3. méně časté výrazy s vokály zdlouženými (brál, stójí);
4. silně zastoupená slova s protetickým v[8] (vobory, vobědu, vobrala);
5. řada slov s vypuštěnými hláskami ve složitějších souhláskových skupinách (menoval, eletrika, zaměsnání);
6. doklady artikulační asimilace (patnást) i případy nářečního neprovedení artikulační disimilace (měščan, ščastná).
Při testování programu LEMMA v jeho původní podobě se ukázalo, že z celkového analyzovaného počtu 171 867 slov korpusu mluvené češtiny bylo automaticky morfologicky označkováno 151 105 slovních tvarů a 20 762 zůstalo neoznačeno. Na první pohled byl tedy program LEMMA téměř z 90 % úspěšný. Ukázalo se však, že označkovány byly i výrazy nespisovné, které měly stejnou formální podobu jako spisovná slova. Například ve spojení vod tatínka bylo slovo vod označeno jako genitiv plurálu od slova voda. Tento nedostatek lze odstranit až při následné desambiguaci. Nelze tedy tvrdit, že by zkoumaný korpus obsahoval pouze 10 % nespisovných výrazů, protože podíl chybně označených slov byl dosti vysoký.
V první řadě bylo potřeba přizpůsobit program LEMMA. To znamenalo upravit slovník morfologických charakteristik pro mluvený jazyk, navíc z moravského prostředí. Tedy doplnit koncovky typické pro obecnou češtinu[9] a středomoravské nářečí. Seznam koncovkových množin byl tak značně rozšířen. Předpokládané nářeční koncovky byly do programu LEMMA doplněny podle výsledků výzkumu M. Krčmové (Běžně mluvený jazyk v Brně).[10]
Po úpravách softwaru byl korpus znovu zlemmatizován a všechna slova s obecněčeskými a nářečními koncovkami dostala automaticky svoji morfologickou značku.
Ruční morfologické značkování slov, kterým nebyla přiřazena charakteristika automaticky, je s ohledem na velikost korpusu stále dosti pracné a časově náročné. Proto byl zkušebně plně označkován pouze subkorpus, který představuje 20 % z celkového materiálu, tj. 34 373 slov. Ukázalo se, že řada dosud neoznačených slov by mohla být po určitých úpravách programu LEMMA[11] také zpracována automaticky. Počet slov vyžadujících ruční editaci by se poté snížil přibližně na polovinu.
[69]Následujícím krokem byla tedy práce s korpusem v textovém editoru. V první fázi byly doplněny morfologické charakteristiky u výrazů, u nichž bylo možno provést doplnění hromadně, pomocí příkazu najdi – nahraď, v celém korpusu. Šlo především o tvary slovesa být – su (nésu), seš (néseš), sme (nésme), ste (néste), só (nésó). Dále byla označena osobní zájmena s protetickým v – von, vona, vono, voni, další častá slova jako dyž, dyby, dycky, vlasně, eště, jesi, jesiže, mět, mysim, mysím, takovy, nějaky a tvary slovesa jít – du, deš, de, deme, dete, dou, dó.
Následně byla vyhledána slova, k nimž jsme při desambiguaci přiřadili značku <z> – žádná z možností nebo <n> – nevím. Nejčastěji byl takto označen tvar třetí osoby plurálu slovesa být – sou, který program považoval za podstatné jméno.
Nejobtížnější částí ruční editace je vyhledávání slov, kterým byl automaticky přiřazen špatný index. Jde o nespisovné výrazy, které mají shodnou podobu s tvary spisovnými. Jejich určování je dosti obtížné, částečně však můžeme homonymii u některých slov předpokládat. K nejčastějším patřila slova byt – infinitiv slovesa být, který byl však označen jako substantivum, a sem – 1. os. sg. slovesa být, která byla označena jako adverbium. Slova tohoto typu nelze nahrazovat hromadně, neboť v některých případech může být charakteristika správná. Tento problém by byl vyřešen zařazením zmíněných (a dalších) slov do slovníku použitých programů. Při desambiguaci by bylo potom umožněno vybrat správnou značku. Z větší části k nalezení těchto slov slouží oddělený subkorpus, u kterého byla kontrolována jednotlivá slova a jejich značky. V tomto úseku se pravděpodobně většina špatně označených slov objeví.
Nakonec bylo třeba vyhledat jednotlivá slova, která zůstala bez charakteristiky a která pro malou frekvenci výskytu nelze označit hromadně. U slov bez spisovné podoby byl jako lemma přiřazen jejich základní tvar – furt – <l>furt. Stejně byla řešena jména, příjmení a přezdívky (Emoša – <l> Emoš). Slovům, která se odlišovala od spisovné podoby pouze svým tvarem, bylo přiřazeno lemma spisovné (kasíno – <l> kasino).
Zcela bez charakteristiky zůstaly cizojazyčné výrazy (většinou anglické), části nedokončených slov, výrazy zcela zkomolené a slova s příklonným s. Jejich označení bude třeba vyřešit zřejmě odlišnou značkou, protože výraz nelze rozdělit na základní slovo a příklonné s, například (ve které) tříděs (byla) na třídě a s, případně na třídě si (jsi), ztratila by se zcela informace o užití příklonného s v mluveném jazyce.
Za současného stavu programového vybavení aplikovaného na mluvený jazyk je podíl ručně označených a opravených slov přibližně 20 % z celkového počtu slov (u psaných textů je to asi 1,5 %). Výsledkem závěrečné ruční editace je morfologicky plně označkovaný subkorpus mluveného jazyka z brněnského prostředí, který je prozatím k dispozici pro další analýzy. Zkušenosti získané s jeho zpracováním budou využity při značkování zbývajícího materiálu.
Pomocí počítače a příslušného programového vybavení lze přiřadit morfologické charakteristiky mnohem rychleji a většímu počtu slov než při značkování ručním. Samozřejmě ne všechny odlišnosti brněnské mluvy od spisovné češtiny lze zachytit algoritmicky. Předmětem další práce s korpusem je snížení počtu slov vyžadujících ruční [70]editaci. Přestože jde o první příspěvek k automatickému zpracování brněnské mluvy, podařilo se, s využitím softwaru určeného původně pro psaný jazyk, nalézt cestu k získání morfologicky označkovaného korpusu. Stanovený postup je třeba dále zpřesňovat a ověřovat na získaném jazykovém materiálu. Další úpravy použitého softwaru povedou ke snížení podílu ruční práce a k efektivnějšímu zpracování mluveného jazyka.
V současné době jsou k dispozici další textové soubory vzniklé přepisem nahrávek brněnské mluvy. Korpus může být tedy dále rozšiřován a v budoucnu by měl být instalován na internetu samostatně i jako součást Českého národního korpusu.
LITERATURA
ATKINS, S. – CLEAR, J. – OSTLER, N.: Corpus design criteria. Literary and Linguistic Computing, sv. 7, č. 1, Oxford 1992, s. 1–16.
ČERMÁK, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995, s. 119–139.
ČERMÁK, F.: Komputační lexikografie. In: Manuál lexikografie. Jinočany 1995, s. 50–71.
ČERMÁK, F. – KRÁLÍK, J. – PALA, K.: Počítačová lexikografie a čeština (počítačový fond češtiny). SaS, 53, 1992, s. 41–48.
ČERNÝ, J.: Dějiny lingvistiky. Olomouc 1996.
FILIPEC, J.: K dialogu o české lexikografii a lexikologii, předpočítačové i počítačové. SaS, 55, 1994, s. 132–141.
HAJIČ, J.: Co je to tagování. Computerworld, 51–52, 1996, s. 36.
HAJIČ, J.: Kontrola překlepů. Computerworld, 51–52, 1996, s. 25–26.
HAJIČ, J.: Textové korpusy. Computerworld, 51–52, 1996, s. 37.
HAJIČ, J.: Vyhledávání informací. Computerworld, 51–52, 1996, s. 35.
HAJIČOVÁ, E. – PALA, K.: Ještě k Vědeckým a technickým možnostem rozvoje české lexikografie. SaS, 54, 1993, s. 64–67.
HLAVÁČKOVÁ, D.: Korpus mluvené češtiny. Diplomová práce. Brno 1998.
HOLAN, T.: Soumrak překladatelství! Nová norma pro přenos informací. Computerworld, 51–52, 1996, s. 39–40.
KIRSCHNER, Z.: Automatické indexování textů. Computerworld, 51–52, 1996, s. 38–39.
KRČMOVÁ, M.: Běžně mluvený jazyk v Brně. Brno 1981.
KUBOŇ, V.: Automatická kontrola českého pravopisu – fantazie nebo reálná možnost? Computerworld, 51–52, 1996, s. 27–28.
KUBOŇ, V.: Možnosti automatického překladu. Computerworld, 51–52, 1996, s. 28–30.
LEECH, G.: 100 million words of English: The British National Corpus (BNC). Language Research, sv. 28. Soul 1992, s. 1–13.
LEECH, G.: 100 million words of English. English Today, sv. 9, č. 33. Cambridge 1993, s. 9–15.
LEECH, G. – FALLON, R.: Computer corpora: What do they tell us about culture? ICAME Journal, 1992, s. 1–22.
NĚMEC, I.: Vědecké a technické možnosti rozvoje české lexikografie. SaS, 53, 1992, s. 48–55.
OSOLSOBĚ, K.: Algoritmický popis české formální morfologie a strojový slovník češtiny. Dizertační práce. Brno 1996.
PALA, K.: Korpusová lingvistika – Informační technologie v lingvistice. Brno 1996.
PALA, K. – OSOLSOBĚ, K.: Základy počítačové lingvistiky. Brno 1992.
ŠONKOVÁ, J.: Morfologie mluvené češtiny. Dizertační práce. Praha 1995.
ŠTÍCHA, F.: Čas korpusové lingvistiky. SaS, 55, 1994, s. 141–145.
VERECKÝ, L.: Jak se píše slovník. Magazín MF DNES, 13, 28.3. 1996, s. 37.
[1] Sběr a elektronický přepis soukromé korespondence pro ČNK organizuje v Brně Z. Hladká. V současné době tento korpus obsahuje 750 dopisů.
[2] Stať se opírá o autorčinu diplomovou práci Korpus mluvené češtiny, zpracovanou na FF MU v Brně v r. 1998 pod vedením K. Osolsobě.
[3] Korpus mluvené češtiny z pražského prostředí sestavila J. Šonková z Ústavu bohemistických studií FF UK v Praze v r. 1995.
[4] Pořizování nahrávek prováděli studenti oborů český jazyk a masmediální studia a žurnalistika FF MU v Brně.
[5] Pravidla přepisu mluveného jazyka byla koordinována se způsobem přepisu pražské mluvy pro ČNK. Brněnská verze se liší v zásadě pouze nahrazením interpunkce pauzovým členěním a zachycováním nářeční znělostní asimilace.
[6] K ruční opravě program DESAMB nabídl přibližně 40 % z celkového počtu slov, přičemž při zpracování psaného projevu je to asi jen 20 %.
[7] Jak je vidět z uvedeného příkladu, u všech nominativů, které se shodují s vokativem, je nabízena i možnost vokativu. U psaného jazyka je tato možnost málo pravděpodobná, proto byl vokativ z nabídky pádů odstraněn, což umožnilo efektivnější ruční desambiguaci. V mluvené češtině je však vokativů velké množství, proto bylo pro její zpracování nabízení vokativů programem LEMMA znovu zavedeno.
[8] Protože kromě proteze jde většinou o slova spisovná, bylo by možné řešit jejich značkování též automaticky.
[9] Obecněčeské koncovky byly doplněny K. Osolsobě.
[10] Podrobný seznam doplněných koncovek viz D. Hlaváčková, Korpus mluvené češtiny.
[11] Bylo by možné do slovníku programu LEMMA zahrnout nejčastěji se vyskytující nespisovná slova, nespisovné tvary sloves být a jít a vyřešit rozeznávání protetického v.
Bezměrov 117, 767 01 Kroměříž
e-mail: dana.hl@email.cz
Slovo a slovesnost, ročník 62 (2001), číslo 1, s. 62-70
Předchozí Michal Šulc: Tematická reprezentativnost korpusů
Následující Petr Sgall: Galina P. Neščimenko: Etničeskij jazyk. Opyt funkcional’noj differenciacii
© 2011 – HTML 4.01 – CSS 2.1