Časopis Slovo a slovesnost
en cz

O tzv. lexikálních bankách dat

Svatava Machová

[Discussion]

(pdf)

О т. наз. лексических банках данных / On the so-called lexical data banks

1. Systémy bank, řečeno velmi zjednodušeně, jsou centrálně řízené soubory programů, které v poslední době umožňují ukládat značné množství údajů do paměti počítače, rychle v nich vyhledávat, třídit je podle různých kritérií a vytvářet výstupní sestavy podle rozmanitých hledisek. Organizace těchto systémů tedy dovoluje uživateli měnit perspektivu pohledu na uložené údaje.

Současné počítačové systémy v průmyslových nebo obchodních institucích manipulují se značným množstvím údajů různých typů. Byla vytvořena nová třída programů, která v rámci nějakého databankového systému zajišťuje sledování všech informací o těchto údajích pomocí počítače. Tato třída programů se nazývá slovník dat a ve světě existuje v mnoha variantách (Lomax, 1979). Každý údaj je ve slovníku dat identifikován svým pojmenováním nebo jeho synonymy. Každému pojmenování je přiřazena definice údaje platná v dané instituci a je určena třída objektů, do níž pojmenovaný údaj patří. Všechny údaje týkající se jedné třídy objektů smějí mít jisté druhy vlastností a smějí vstupovat do jistých vztahů pouze s objekty patřícími do jistých tříd. U každého konkrétního údaje jsou pak ve slovníku dat vedle jeho zařazení do třídy uvedeny všechny jeho vlastnosti relevantní v dané instituci.

Komplex programů, slovník dat, spojený s nějakým databankovým systémem, zajišťuje ukládání údajů do slovníku, jejich modifikaci a tvorbu výstupní dokumentace o stavu v libovolném časovém okamžiku. Výstupní dokumentace může být sestavována podle pojmenování údajů v abecedním nebo jiném pořádku, podle tříd vlastností, podle jediné vlastnosti apod.

Tyto okolnosti přispěly k oživení zájmu lexikografů o spolupráci s počítačem. Přispěl k němu zřejmě i další technický pokrok: práci s děrnými štítky nahradily obrazovkové terminály umístěné na stole lexikografa a byly vybudovány národní počítačové sítě dovolující zpracovávat uložené údaje na libovolném počítači zapojeném do této sítě.

[335]2. V současné době se počítačů využívá v řadě lexikografických projektů (Lexicography in the electronic age, 1982). V této stati se soustředím na některé lingvistické aspekty budování jednojazyčných výkladových slovníků pomocí počítače. Ponechám stranou celou řadu projektů, v nichž se používá počítače ke kvantitativním lingvistickým zkoumáním (Těšitelová a kol., 1982), při budování překladových slovníků (Ubin a kol., 1977) a terminologických slovníků. Podotýkám pouze, že se pod záštitou UNESCO od r. 1976 začala v Evropě projektovat tzv. mezinárodní terminologická banka, kterou budou moci v budoucnu používat všichni překladatelé mající přístup k počítačům zapojeným do tzv. mezinárodní terminologické sítě (Proc. of the ASLIB' 82 conference, 1983).

V další části stati pracuji s termínem lexikální banka dat, který označuje jednojazyčný výkladový slovník uložený v paměti počítače a přístupný lexikografům, lexikologům, ev. dalším specialistům z oblasti lingvistiky a automatického zpracování textu.

Výstižnou charakteristiku lexikální banky dat a jejího přínosu podal J. Bahr (1978). Lexikální banku dat chápe jako speciální slovník, který poté, co nabude jistého rozsahu, umožňuje provádět materiálově fundované lexikologické výzkumy struktury slovní zásoby, jež lexikologové až dosud mohli ručně provádět pouze na omezeném vzorku (např. vytvářet sémantická pole podle vybraných sémantických rysů, vytvářet hierarchické sémantické řetězy v závislosti na formulaci definic slov, vybírat různé podmnožiny pojmenování, zjišťovat vztahy mezi slovotvorbou a frekvencí apod.).

Programové vybavení, kterého používá lexikální banka dat, zbavuje lexikografa značné části rutinní práce spojené s budováním slovníku a jeho modifikacemi a plní řadu dalších úkolů: urychluje přípravu slovníku pro tisk, dovolí vytisknout rukopis slovníku, vytvářet retrográdní slovník i různé podslovníky v závislosti na zadaných třídicích kritériích, kontroluje lexikografa při ukládání nových údajů do lexikální banky dat apod. Je-li lexikální banka dat přístupná z počítačové sítě, mohou jí využívat různé systémy automatického zpracování textů jako své slovníkové složky.

Budování lexikální banky dat však vyžaduje vyřešení některých složitých lingvistických otázek. Jednou z nich je definování významu slova, způsob této definice. Další je výběr informací uváděných v záhlaví slovníkového hesla. V počátečních etapách tvorby lexikální banky dat mohou být slovníkové informace minimální, ev. omezené, avšak jejich pozdější rozšíření je třeba zabezpečit v užitých programech předem.

Technická stránka realizace lexikální banky dat většinou nebývá problém. Je možno volit nějaký slovník dat a jeho užívání zařadit do přístupného počítače zapojeného eventuálně do počítačové sítě. Toto programové vybavení dovoluje uživateli pracovat s libovolnou částí lexikální banky dat a rozšiřovat a modifikovat jednotlivé části slovníkového hesla bez technických obtíží. Lexikografická či jiná pracoviště pak pracují s lexikální bankou dat prostřednictvím terminálů s obrazovkou.

3. Je celkem přirozené, že se lexikografické práce využívající počítače k tvorbě lexikální banky dat rozvíjejí na těch pracovištích, kde se dříve využívalo děrnoštítkové techniky.

3.1. Jedním z rozsáhlých současných lexikografických projektů je tvorba velkého italského slovníku na počítači (Calzolari — Pecchia - Zampolli, 1980; Calzolari, 1983). Projekt je koncipován tak, aby lexikální banka dat vytvářená na základě jednojazyčného výkladového italského slovníku (Zingarelli, 1970) mohla být využívána mnohoúčelově pro různé druhy zpracování italských textů: pro zpracování lexikografická, statistická, lingvistická, informatická a rešeršní. Lexikální banka dat má v tomto projektu plnit funkci relat. vyčerpávající a automaticky zpracovatelné reprezentace lexikální složky italského jazykového systému. Proto byla mimořádná [336]pozornost věnována struktuře slovníkového hesla. Vážné problémy vyvstaly při stanovení a pojmenování gramatických kategorií v záhlaví slovníkového hesla; jednotlivé lingvistické školy provádějí vlastní strukturaci jazykových jevů a zejména užívají vlastní lingvistické terminologie, takže se někdy termíny u týchž jevů rozcházejí. Autoři italského projektu ve snaze o mnohoúčelové využívání slovníku se rozhodli pro neutrální formulace morfologických, syntaktických a sémantických vlastností lexikálních jednotek. (Neutrální v jejich interpretaci znamená, že nezvolili za základ žádnou z lingvistických škol, které se výrazně formovaly v padesátých letech a později.)

V tomto projektu se každé slovníkové heslo skládá z lemmatu, jeho morfologických (v širším slova smyslu), syntaktických, sémantických a stylistických rysů spojených s frekvenčními charakteristikami a z definice (definic) významu. Základem pro definice se staly definice obsažené ve slovníku Zingarelliho (1970), které tvoří východisko teoretického zkoumání sémantických rysů lexikálních jednotek. Prvním výsledkem tohoto zkoumání byl inventář rysů, které jsou pokládány za užitečné při definicích lexikálních jednotek. (Inventář rysů byl zřejmě stanoven experimentálně. V dostupných pracích se italští autoři neodvolávají na žádného z lingvistů zabývajících se touto problematikou, ani explicitně neformulují statut sémantického rysu.) K označování sémantických rysů se nepoužívají zvláštní symboly či mnemotechnické zkratky, ale přímo lemmata ze slovníku. Ukázalo se, že pro 106 000 lemmat, jimž bylo přiřazeno 186 000 definic, postačí v definicích asi 600 různých sémantických rysů. Sémantické rysy užívané v definicích jsou na základě vztahu rod — druh uspořádány do řetězců rysů, jejichž maximální délka je 10. Např. ACCORDO — ARMONIA — CONCORDANZA — RELAZIONE — QUALITA; nebo DUCA — TITOLO — NOME — VOCABOLO — PAROLA. Tím se dosáhne značné unifikace definic, pokud jde o jejich formu. Unifikace je ještě dále prohloubena tím, že pro každý typ volného slovesného doplnění užitého v definici byla stanovena škála dovolených způsobů vyjádření.

Z lexikální banky dat, která má takto strukturované definice, lze pak pomocí počítače snadno vybírat skupiny lemmat, které podle definice označují např. část něčeho, nástroj, soubor něčeho, činnost, vybírat skupiny lemmat se stejnou příponou a sledovat, zda je tato přípona spojena s jistým druhem definice apod. Každý sémantický rys a každá dovolená forma volného slovesného doplnění jsou totiž uloženy v lexikální bance dat jako klíčová slova, která mohou být použita při tvorbě výstupní dokumentace jako třídicí kritéria.

Vzhledem k mnohoúčelovému použití je lexikální banka dat pro italštinu spojena i s automatickou lemmatizační procedurou, která rozpoznává výskyty různých tvarů týchž lemmat uvnitř textu. Autoři italské lexikální banky dat předpokládají, že každý, kdo ji bude chtít využívat ve své práci při automatickém zpracování textu, detailně se seznámí s úplnou strukturou jejího slovníkového hesla a pro svůj účel využije pouze některé jeho části.

V počáteční fázi projektu italští lexikografové do značné míry dublovali práci svých předchůdců, protože vycházeli z hotového vytištěného slovníku. V současnosti však již lexikální banka dat poskytuje italským specialistům všechny služby, které byly uvedeny v odst. 2.

3.2. Pro francouzštinu začala být lexikální banka dat budována s jinými počátečními záměry než pro italštinu, i když konečné cíle jsou shodné (Burga - del Vigna, 1980). V první etapě je pro lexikografy pracující na tomto projektu nejdůležitější uvést u každého slova jeho nejstarší výskyt v některé psané památce. Slovníkové heslo se tedy skládá z lemmatu, z údaje o slovním druhu, z definice významu, informací dokumentačního charakteru (v kterých písemných památkách a na kterém místě nejdříve doloženo) a uzavřeno je jedním příkladem výskytu v jedné z uvedených [337]publikací. V naznačené podobě byla lexikální banka dat již zpracována na základě slovníku Grand Larousse a je nyní přístupná po celé Francii, protože tu již funguje celonárodní počítačová síť.

3.3. Lexikální banka dat realizovaná ve Velké Británii pro angličtinu je podle názorů jejích tvůrců jedinou vpravdě celonárodní lexikální bankou dat, protože ji užívají na celém území Velké Británie, a to nejen lingvisté, ale především nakladatelství, novináři, autoři odborných statí, učitelé, dokumentátoři apod. Lexikální banka dat obsahuje jednak obecnou slovní zásobu, jednak terminologii různých oborů; patří sem i proces lemmatizace (McNaught, 1982). Slovníkové heslo se tu skládá z lemmatu, fonetické transkripce, z údaje o slovním druhu, stylové charakteristice, z definice významu, z typických příkladů užití a z informací o jeho výskytu. Na rozdíl od italského projektu definice významu nejsou již dále analyzovatelné pomocí užitých programů a celý projekt má méně bezprostředních lingvistických cílů. Byl realizován za podpory různých nakladatelství, která mají zájem na standardizaci terminologie odborného stylu a na zjednodušeném vydávání slovníků. Pokud jde o vydávání slovníků na základě celonárodní lexikální banky dat, podařilo se cíle již dosáhnout, neboť od rozhodnutí publikovat slovník jistého typu do jeho vydání nyní uplyne šest týdnů, přičemž většinu z této doby si vyžádají administrativní rozhodování. Vzniká při tom však řada problémů nelingvistického charakteru týkajících se autorství a vydavatelských práv.

3.4. Projekty německé lexikální banky dat — pokud je mi známo — existují dva. Ani jeden však není dosud realizován. První z nich stanoví značně omezený soubor slovníkových informací (Bahr, 1978). Každé slovníkové heslo se má skládat z lemmatu, z údaje o jeho slovním druhu, z vyznačení jeho slovotvorné stavby, z uvedení přibližného data jeho prvního výskytu a z frekvence v jistých souborech textů. Nebude prozatím obsahovat definici významu, avšak zvolené programové vybavení ji umožní doplnit — stejně jako i další typy slovníkových informací.

Druhý projekt německé lexikální banky dat, jehož úvodní studie byla vypracována během r. 1981, bude stěží v brzké době realizován. Struktura slovníkového hesla, kterou autoři navrhují (Brustkern - Hess, 1982), je totiž z lingvistického hlediska příliš náročná. Slovníkové heslo budoucí německé lexikální banky dat by se mělo skládat: z lemmatu, fonetické transkripce, z údaje o slovním druhu, z deklinačních či konjugačních charakteristik, popisu slovotvorné stavby, valence povrchové a hloubkové a ze sémantických informací. Ty by měly sestávat z definice významu, z popisu sémanticky relevantních kontextů, z příkladu užití a ze seznamu sémantických rysů.

3.5. Také pro švédštinu existuje projekt na vybudování lexikální banky dat (Ralph, 1980). Je v přípravném stadiu, v němž se věnuje velká pozornost definicím slov. Obdobně jako v italském projektu se autoři detailně zabývají strukturou definic významu. Pokoušejí se nejprve vytvořit tzv. slovník definic, tj. slovník obsahující slova a konstrukce přípustné v definicích ve vlastním slovníku. Teprve potom se autoři hodlají zabývat tvorbou tzv. úplně definovaného slovníku, jehož jednotky budou mít definice formulované slovy a konstrukcemi ze slovníku definic. Každá jednotka definice ohraničená mezerami bude moci sloužit jako třídicí kritérium pro výběr skupin lemmat z banky dat.

3.6. Lexikální banka dat pro japonštinu byla vyvinuta na univerzitě v Kyoto. Obsahuje prozatím 60 000 slovníkových hesel (Nagao - Tsujii - Ueda - Takiyama, 1982). Každé slovníkové heslo se skládá z lemmatu, z informací o tvorbě jeho tvarů, o výslovnosti, o jeho účasti v idiomech a o typickém užití. Ve zbývající části slovníkového hesla budou v budoucnu uloženy další lingvistické informace. Prozatím je tato část prázdná. Při budování lexikální banky dat byla velká pozornost věnována programům, které převádějí zápis slovníkového hesla z různých tištěných slovníků [338]do struktury předpokládané jako vstup do banky dat. Vzniklo tím mnoho technických problémů, avšak v současné době tyto programy fungují účinně.

4. I když každý z výše uvedených projektů lexikální banky dat má své specifické rysy, poskytuje praktický doklad o tom, jak lexikografové využívají, resp. mohou využívat ve své práci rozsáhlé „skladovací prostory“ počítačů a extrémní rychlosti jejich operací, zejména třídicích a vyhledávacích.

 

LITERATURA

 

BAHR, J.: Reflections on the project of a lexikal data bank. Cahiers de lexicologie, 32, 1978, s. 55—64.

BRUSTKERN, J. - HESS, K. D.: The Bonnlex lexicon system. In: Lexicography in the electronic age, s. 33—40.

BURGA, S. - del VIGNA, C: Description externe d'une base de données en lexicographie. In: 2nde Conference internationale sur les banques de données en sciences humaines et social. Ed. E. G. Camarero. Madrid 1980, s. 95—99.

CALZOLARI, N.: Lexical definitions in a computerized dictionary. Computers and artificial intelligence, 2, 1983, s. 225—234.

CALZOLARI, N. - PECCHIA, L. - ZAMPOLLI, A.: Working on the Italian machine dictionary: A semantic approach. In: Computational and mathematical linguistics. Proceedings of the international conference on computational linguistics Pisa 1973, vol. 2. Eds. A. Zampolli - N. Calzolari. Firence 1980, s. 4—69.

LES MACHINES DANS LA LINGUISTIQUE. Ed. J. Štindlová. Prague 1968.

LEXICOGRAPHY IN THE ELECTRONIC AGE. Proc. of a symp. Luxembourg 1981. Eds. J. Goetschalckx - L. Rolling. Amsterdam - New York - Oxford 1982. (Dále Lexicography in the electronic age.)

LOMAX, J. D.: Data dictionary systems. Oxford 1979.

MACHOVÁ, S.: Slovníky dat. Zpravodaj ÚVT SPK, 11, 1983, č. 2, s. 22—30.

McNAUGHT, J.: Specialized lexicography in the context of a British linguistic data bank. In: Lexicography in the electronic age, s. 171—184.

NAGAO, M. - TSUJII, J. - UEDA, Y. - TAKIYAMA, M.: An attempt to computerize dictionary data bases. In: Lexicography in the electronic age, s. 51—73.

PROCEEDINGS OF THE ASLIB' 82 CONFERENCE. Ed. B. Snell. London 1983.

QUEMADA, B.: Faculté des lettres et sciences humaines de Besançon, Laboratoires d'analyse lexicologique de Centre d'etude du vocabulaire Français. In: Les machines dans la linguistique, s. 51—54.

RALPH, B.: The semantic stratification on a lexical data base. In: 2nde Conference international sur les banques de données en science humaines et social. Ed. E. G. Camarero. Madrid 1980, s. 53—56.

TĚŠITELOVÁ, M. a kol.: Kvantitativní charakteristiky současné české publicistiky. Linguistica II, Praha 1982. - Srov. i Linguistica III (1982), IV (1983), VII (1983).

UBIN, I. I. a kol.: Russko-anglijskij častotnyj slovar' po elektronike. Moskva 1977.

ZINGARELLI, N.: Vocabolario delle lingua italiana. Bologna 1970.

Slovo a slovesnost, volume 45 (1984), number 4, pp. 334-338

Previous Jana Hoffmannová: Van Dijkův soubor studií o pragmatice textu

Next Jan Kořenský: Miroslav Komárek šedesátníkem