Časopis Slovo a slovesnost
en cz

Uplatňování metod mechanizace a automatizace v lexikologické práci v zahraničí

Jitka Štindlová

[Discussion]

(pdf)

Применение методов механизации и автоматизации в лексикологической и лексикографической работе за рубежом / Application des méthodes de mécanisation et d’automatisation dans le travail lexicographique et lexicologique à l’étranger

Stroje na děrné štítky a samočinné počítače dnes už v praxi slouží jazykovědným úkolům. Pomáhají sbírat, klasifikovat, ukládat, třídit a uspořádávat „stavební“ materiál lexikálních děl — excerpci, pomáhají při redakčních slovníkářských úkolech, připravují materiál pro studium gramatiky (např. morfologie a syntaxe), pro studia stylistická a pro textovou kritiku.[1]

Pro mechanizaci v lexikologii a lexikografii jsou dnes již vybudovány a stroji na děrné štítky vybaveny v Evropě dvě laboratoře. Je to laboratoř jazykovědné analýzy v lexikologickém středisku university v Besançonu ve Francii (Centre d’Etude du Vocabulaire Français) a laboratoř střediska pro automatizaci jazykové analýzy v Gallarate v Itálii (Centro per l’Automazione dell’Analizi Letteraria); vzniká středisko i v Sovětském svazu na leningradské universitě.

Jazykovědné středisko v Gallarate je nejstarším pracovištěm tohoto typu; přípravné práce zde začaly v roce 1949, na strojích pracují od roku 1953. (Laboratoř je vybavena americkými stroji IBM, které tato firma dala středisku zdarma s podmínkou, že na nich bude lingvistické práce realizovat a metody a výsledky této práce bude zveřejňovat.) Toto středisko, které vede R. Busa, je dobře vybaveno, má dnes již 30 pracovníků — 6 lingvistů, 2 síly administrativní a 22 pracovníků strojní laboratoře. Kromě svého základního úkolu — práce pro studium latiny a hebrejštiny[2] — uskutečňuje středisko i řadu prací příležitostných, konaných pro různá pracoviště, zvl. university. Tak např. pro universitu v Padově byla provedena fonologická analýza dramatu Veglia d’armi italského dramatika Fabbriho. Pro Goethův institut university v Tübingen byl zpracován lexikální fond Goethova díla Farbenlehre. V tomto středisku již uskutečnili práce ve třech různých abecedách — řecké, latinské a hebrejské (s maximálním rozsahem 47 různých kódovaných abecedních znaků) a v sedmi jazycích: řečtině, latině, italštině, němčině, hebrejštině, aramejštině a nabaténštině.

Z jednotlivých děl byly získány děrné štítky s kontextem, děrné štítky s jednotlivými slovy, s jednotlivými gramatickými tvary slov a se záznamem jejich frekvence a děrné štítky slovníkových podob slov (pod nimiž je slovo řazeno v slovnících, např. infinitiv slovesa, nominativ substantiv, nominativ mužského rodu u adjektiv apod. — tzv. lemma), s přehledem gramatických tvarů a jejich frekvencemi. Z děrných štítků byl získán index slov s přesným určením všech míst v textu, event. s kontexty, v kterých se jednotlivá slova objevují — konkordance, přehled gramatických tvarů jednotlivých gramatických kategorií, retrográdní slovník, index slov uspořádaných podle délky, frekvence i jejich okolí (sousedních slov, interpunkčních znamének) apod.

R. Busa byl iniciátorem konference o strojových metodách literární a lexikologické práce (Maschinelle Methoden der literarischen Analyse und der Lexikographie) v Tübingen v listopadu 1960, která byla zaměřena především na ukázku prací realizovaných na strojích IBM v Gallarate.[3]

[68]R. Busa, kterého k užití strojů pro lingvistická studia přivedlo téma jeho práce o předložce in, kdy enormní sbírky excerpčního materiálu byly tradičními metodami nezvládnutelné, rozpracoval metodiku totální excerpce textu a stanovil teoretická vymezení pro diferenciaci homografů — slov, která mají stejné grafické znázornění, avšak různý gramatický nebo sémantický význam.[4]

U nás je dobře známé o něco mladší a menší středisko v Besançonu, vedené prof. B. Quemadou.[5] K užití strojů v moderní francouzské lexikologii přivedl B. Quemadu nikoli jeho individuální úkol, tradičními metodami těžko zvládnutelný, ale skutečnost, že francouzská slovní zásoba je zpracována naprosto nedostatečným způsobem, že dnes chybí velký, na aktuálním bohatém materiálu založený slovník současné francouzštiny i důkladný přehled o kvantitativních poměrech ve francouzské slovní zásobě, že chybí i kolektiv pracovníků, kteří by se této práci věnovali, a dále vědomí, že je třeba a že je možné tuto práci organizovat novými metodami, zbavit ji náhodnosti, kusosti materiálu a subjektivního přístupu k němu. Ačkoli středisko samo nesleduje žádný konkrétní lexikografický záměr, např. vypracování slovníku (což je podle našeho názoru v jistém ohledu nevýhoda pro řízení práce střediska), chce realizaci takovéhoto díla svým materiálem umožnit.[6]

Středisko besançonské university, které zahájilo práci v r. 1957, má laboratoř zařízenu francouzskými stroji značky Bull; přestože jeho personální vybavení není (na rozdíl od poměrů v Gallarate) velké, první léta to byli jen čtyři lidé, dnes je jich 10, má velký okruh spolupracovníků lingvistů, které B. Quemada soustřeďuje kolem publikací střediska (teoretického časopisu Cahiers de Lexicologie a pohotového pracovního rotaprintem vydávaného Bulletinu d’Information[7]) [69]a v letních besançonských kursech romanistů, kde probíhají diskuse k základním problémům klasifikace mechanograficky získávaného excerpčního materiálu. Tím je umožněno, že práci besançonského mechanizovaného střediska připravuje B. Quemada sám jen s pomocí svého asistenta H. Mitteranda. Ovšem za touto prací stojí pomoc širokého okruhu lingvistů, vlastně všech, kteří o tyto metody jazykovědné práce mají zájem. To také ukázala konference o mechanizaci lexikologických prací[8] v Besançonu, uspořádaná ve dnech 6.—10. června 1961. Zde se sešli lingvisté s techniky, dokumentátory a vědeckými pracovníky Národní rady vědecké práce (C. N. R. S. Conseil national de la Recherche Scientifique) a především lingvisté sami, mladí pracovníci s pracovníky zkušenými, kteří bez mechanizace již vykonali mnoho práce, jako např. M. Cohen, G. Gougenheim a jiní, sešli se lingvisté francouzských universit i zahraniční lingvisté, kteří užití strojů pro jazykovědnou práci buď už realizují, anebo připravují.[9] Celkem bylo na konferenci více než 90 účastníků.

Program besançonské konference byl jednak věnován strojům, zvlášť děrnoštítkovým, zvlášť samočinným počítačům, seznámení s jejich funkcemi a jejich dnešními schopnostmi sloužit jazykovědě i s jejich příštím vývojem (za účasti předních konstruktérů firem Bull, IBM, ICT, SEA, OLIVETTI, MECANANALYSE), jednak jejich využití v lexikologii: seznámení s prací laboratoří v Gallarate a Besançonu (s přímou exkursí) a s plány jejich využití na jiných pracovištích i v dalších úsecích — mechanizace při slovníkářské práci (F. de Tollenaere), organizace sbírek odborného názvosloví (J. Štindlová), studium stylistických otázek (J. Mitterand, J. Petit, P. J. [70]Wexler). Dále se program soustředil na otázky vztahu dokumentace a lexikologie. Referáty[10] ukázaly na možnosti využívání vzájemné výměny zkušeností, na odlišnost práce dokumentátora, kterému na rozdíl od lexikologa a lexikografa jde o pojmy a obsah slov, nikoli o formu, o slova. Pro svou práci v dokumentaci potřebují však dobré slovníky synonym; proto žádali, aby se lexikologové a lexikografové věnovali vypracování nových synonymických slovníků, neboť dosavadní slovníky, bez stylistického hodnocení synonym, zvláště z hlediska možností jejich užití v odborném jazyce, nemohou jim sloužit.

Samostatnou složkou besançonské konference bylo pokračování konference ve Štrasburku (10. června 1961), věnované problematice textové kritiky a jejího zpracování na samočinném počítači. Snaha připravit kritické vydání výboru mešních zpěvů na podkladě rekonstrukce původní podoby jejich textů i jejich melodie z množství různých podob a variací vedla v klášteře Solesmes k užití moderních technických prostředků pro tuto nesnadnou práci. P. Froger z tohoto kláštera připravil rozsáhlý pokus textové kritiky gregoriánských textů na samočinném počítači Gamma ET společnosti Bull na universitě v Štrasburku. Společnost Bull připravila pro konferenci rozsáhlou zprávu o této práci (přes 30 stran textu, 18 stran grafických přehledů a ukázku na 14 tabelačních arších), což skutečným zájemcům o tyto otázky dá konkrétní představu o složitosti přípravy takového úkolu. Jde především o diferenciaci různých variací textů poškozených a pozměněných přepisy, tedy analýzu možných písařských chyb, vzniklých při přepisu jednotlivých písmen a úprav provedených na základě interpretace chybně přepsaného slova. — Všechny referáty přednesené na konferenci vyjdou tiskem.[11]

Obě laboratoře i jednotlivci, kteří uskutečňují především práce na samočinných počítačích, se zvláště soustřeďují na organizování „stavebního“ materiálu pro lexikologická studia i lexikografické práce. Avšak stroje začínají zasahovat i do jiných úseků jazykovědných i praktických, a zároveň se užití tohoto postupu přípravy materiálu uplatňuje v mnoha zemích.

V Sovětském svazu začínají takto pracovat v lexikografii. V mezikatedrovém kabinetu, na universitě v Leningradě vedeném B. A. Larinem, zpracují pomocí strojů frekvenční slovník (přípravu tohoto úkolu vede L. Zasorinová).

V Holandsku F. de Tollenaere, redaktor slovníku nizozemštiny (Woodenbock der Nederlandsche Taal), se v přípravě na užití strojů pro lexikografickou práci soustředuje i na otázky abecedního a věcného uspořádávání slovníkového materiálu.[12] Možnost přeskupování materiálu do věcně, pojmově uspořádaných celků by velice pomohla redakčním úkolům slovníkářské práce.

První takováto praktická pomoc redakční práci byla uskutečněna v nakladatelství Laroussova slovníku. Pro věcné přeskupování abecedně seřazených hesel slovníku (Grand Larousse encyklopédique) vypracovali v nakladatelství speciální klasifikaci, která odpovídá jejich potřebám. (Nepoužili mezinárodního desetinného třídění, které pro jejich účely plně nevyhovovalo.) Ukázku této klasifikace právě pro úsek filologie (Lettres) a věd přináší 2. č. Cahiers de Lexicologie (viz pozn. 7). Této problematice byl věnován i referát hlavního redaktora C. Dubiose na besançonské konferenci.[13]

[71]Klasifikací hesel a jejich mechanografickým záznamem na děrných štítcích je dána zcela nová možnost poznání obsahu slovníku a přípravy nového vydání díla, jeho aktuálního doplňování. Záznam jednotlivých hesel a čísel reprezentujících jejich „ohodnocení“ do děrných štítků umožňuje získat hesláře, přehledy na nejrůznějších úsecích podle nejrůznějších hledisek v nejrůznější specializaci, a tím vytvořit podklady pro další práci — pro sjednocování výkladů, porovnávání a doplňování hesel různých oborů, držení proporcionálního zastoupení jednotlivých oborů a oblastí.

Podobný záměr — usnadnění redakční práce — sleduje užitím strojů (pražské ARITMY) kolektiv pracovníků slovníku současné němčiny (Wörterbuch der deutschen Sprache der Gegenwart) v Německé akademii věd v Berlíně. Za redakce R. Klappenbachové připravila návrh programu užití strojů M. Blumrichová.[14] Do děrných štítků se vedle čísel, která reprezentují slova v slovníku publikovaná (hesla slovníku jsou průběžně očíslována a touto průběžnou číselnou řadou i abecedně seřazena), mechanograficky zaznamenávají všechny údaje, které u jednotlivých hesel slovník uvádí, a to gramatickou charakteristiku slova, normativní gramatické údaje, stylistické hodnocení, údaje o terminologickém užití slov, o dialektismech, o sémantických okruzích, dále o synonymech, odkazy, frazeologie, přehled pramenů, z nichž bylo excerpováno, záznamy nejstarších dokladů apod. Tyto mechanografické záznamy pomáhají práci na slovníku, především po redakční stránce, tvoří tzv. vnitřní excerpci a tím zajišťují jednotu díla od prvního sešitu do posledního dílu. (Ze šesti plánovaných dílů vyšly první tři sešity 1. dílu, tedy publikování slovníku právě začalo.)

V Berlíně navrhují užití strojů i pro rozsáhlou strukturní analýzu jazyka, které byla věnována konference v lednu 1962,[15] které se zúčastnili i členové Ústavu pro jazyk český.

Dosavadní zkušenosti s užitím strojů pro lexikografické a lexikologické práce i jednání konference v Besançonu ukázaly, že možnosti využití strojů jsou veliké a jejich pomoc při manipulaci s rozsáhlým lexikálním materiálem dává zcela nové možnosti práce se slovní zásobou jazyka. Zároveň však se ukazuje, že bude nutno organizovat spolupráci na přípravě materiálu i na jeho využívání a zároveň že bude velice cenné a potřebné vzájemné vyměňování zkušeností mezi všemi středisky pracujícími pomocí strojů.


[1] Tyto stroje umožňují ovšem realizaci speciálních úkolů postavených dnes před lingvisty teorií informace a užitím matematických metod v jazykovědě, mezi jiným např. i strojovým překladem.

[2] Středisko je katolické, proto jako základní texty byly již stroji zpracovány spisy Tomáše Aquinského a Biblia sacra Vulgatae editionis pro latinu, Rukopisy Mrtvého moře pro hebrejštinu a byla vyexcerpována tato lexikografická díla: Bonitz, Index Aristotelicus; Forcellini, Lexicon totius latinatis; Thesaurus linguae latinae; Zorell, Lexicon hebraicum.

[3] Zprávu o této konferenci napsali F. de Tollanaere v 12. č. čas. Informatie von de Stichting Studiecentrum voor administratieve automatisering, Amsterodam 1961 a E. Mater v 1. a 2. č. čas. Spectrum, Berlín 1961. Pro tuto konferenci připravil R. Busa speciální publikaci Zussammengefasste Darstellung der Erfahrungen des Centro per l’Automazione dell’Analizi Letteraria, která je názornou ukázkou způsobu práce tohoto střediska.

[4] Jeho stať o analýze homografů a flektivních forem vyjde v 3. č. Cahiers de Lexicologie v Besançonu. Otázkám homografů byla věnována i práce W. Bosserta The problem of homographs in the automatic dictionary v Seminar papers harvardské university, sv. 6, 1958.

[5] Srov. J. Šabršula, Mechanografické metody ve francouzské lexikologii, Cizí jazyky ve škole 3, 1959/60, 376—378, J. Smrčková, Mechanografické metody ve francouzské jazykovědě, ČMF 43, 1961, 121—123. Práci besançonského střediska byly u nás věnovány tři přednášky. V Jazykovědném sdružení v březnu 1960 J. Štindlová informovala o zkušenostech ze studijního pobytu na tomto pracovišti a v prosinci 1960 B. Quemada sám přednesl v Praze dvě přednášky o metodách práce střediska, v Kruhu moderních filologů a v Jazykovědném sdružení. Informace o práci besançonského střediska podává i H. Lewicka v čl. Metody mechanograficzne v leksykologii, Kwartalnik neofilologiczny 6, Warszawa 1959, 343—348.

[6] Tyto úkoly střediska vyplynuly z jednání konference o románské lexikografii a lexikologii, konané ve Štrasburku v listopadu 1957.

[7] Cahiers de Lexicologie, Publication du Centre d’Etudes du Vocabulaire Français de l’Université de Besançon, Didier, Paris. Zatím vyšla dvě čísla:

1. číslo z r. 1959 obsahuje kromě vytčení programu práce lexikologického střediska v Besançonu stať B. Quemady o mechanizaci v lexikologii (La mécanisation dans les recherches lexicologiques), která seznamuje s principem práce s děrnými štítky (přináší i jejich ukázky), se strojním vybavením střediska, funkcemi jednotlivých strojů a jejich schopnostmi i charakterem prací v Besançonu již uskutečňovaných. Ke stati je kromě toho připojena informace o pracích realizovaných na strojích jak děrnoštítkových, tak i samočinných počítačích v dokumentaci i v lingvistice, a to i jinde než v Besançonu. Tato informace obsahuje i bibliografické přehledy nejdůležitějších časopiseckých zpráv i publikovaných prací. — Stať A. J. Greimase z university v Ankaře o problémech mechanografického záznamu (Les problèmes de la description méchanographique) ukazuje možnosti strojové práce s jazykovědným materiálem, který je mechanograficky zaznamenáván. — Informace P. J. Wexlera z university v Manchestru seznamují s prameny, způsobem a postupem práce Littréova slovníku francouzštiny, který vycházel v letech 1863—1873. Wexler připojuje i přesnou chronologii, jak byly publikovány jednotlivé díly tohoto slovníku. (Besançonské středisko bere slovní zásobu tohoto slovníku jako základ pro index slov, který bude podkladem pro mechanografické ukládání a sjednocování materiálu, především spojování různých flektivních forem pod slovníkové podoby.) Toto 1. číslo obsahuje i bohatý oddíl bibliografických poznámek (34 stran), prací důležitých nebo zajímavých pro lexikologa.

2. číslo z r. 1960 přináší dvě stati, P. Imbse (Au seuil de la lexicographie) o vztahu lexikologie a lexikografie a novém charakteru i nových možnostech lexikografické práce a F. de Tollenaera o pojmovém a abecedním uspořádávání slovníkového materiálu (Lexicographie alphabétique ou ideologique) ukazuje možnosti a prospěšnost věcného a abecedního uspořádávání slovní zásoby lexikografických děl. V oddíle lexikologické metodologie přináší články G. Gougenheima o jazykovědné statistice a historii slovníku (Statistique linquistique et histoire du vocabulaire), A. J. Greimase o problémech idiomat, přísloví a průpovědí (Idiotismes, proverbes, dictons), J. Duboise o pojmech sémantická jednota a neutralizace v slovní zásobě (Les notions d’unité sémantique complexe et de neutralisation dans le lexique). — Oddíl lexikografická dokumentace obsahuje informace B. Quemady o možnostech strojně vyrobit rejstříky k dvoujazyčným slovníkům (L’inventaire des dictionnaires bilingues à propos du Dictionnaire néerlandais-français de N. de Berlaimont), J. Štindlové o nových možnostech a nových úkolech retrográdních slovníků (Les dictionnaires inverses), R. Klappenbachové o užití děrných štítků v slovníku současné němčiny (L’emploi des cartes perforées dans le dictionnaire de l’allemand contemporain), redakce Laroussova slovníku o pokuse lexikografické klasifikace hesel Velké encyklopedie (La classification du Grand Larousse Encyclopédique). — Připojena je i bibliografie státních a doktorských prací důležitých nebo zajímavých pro lexikology (22 stran). Bulletin d’Information du Laboratoire d’Analyse Lexicologique, Publications du Centre d’Etudes du Vocabulaire français, Faculté des Lettres et Sciences humaines, Besançon, je pohotová pracovní publikace, která dokumentuje práci střediska i širokou účast lingvistů na řešení úkolů střediska. V roce 1960 vyšla tři čísla.

1. číslo seznamuje s plány prací a úkoly střediska, nabízí službu romanistům kterékoli země, přináší pokus H. Mitteranda o hodnocení gramatických forem pro mechanografický záznam excerpčního materiálu (Observations sur la description méchanographique des formes grammaticales).

2. a 3. číslo obsahuje další návrhy a doplňky k hodnocení gramatických forem, která se k návrhu klasifikace rozvinula na letní škole romanistů v příspěvcích H. Bonnarda (Remarques pour la partie grammaticale du fichier a Propositions pour le codage des caractères grammaticaux), A. J. Greimase (Remarques sur la description mécanographique des formes grammaticalles), G. Gougenheima (Tableaux de classement d’élements grammaticaux et de constructions).

[8] Colloque sur la mécanisation des recherches lexicologiques.

[9] R. Busa a Zampolli z Gallarate v Itálii, Clay, P. J. Wexler z Manchestru, Heger z Heidelbergu, Hübner a Wolfangel z Tübingen, Pfeffer z Bufallo (USA), F. Tollenaere z Leidenu; z ČSSR zúčastnila se pisatelka. Referáty zaslali R. Kläppenbachová z Berlína (NDR) a Wisbey z Cambridge.

[10] J. Gardina, ředitele oddělení automatické dokumentace Národní rady vědecké práce, za účasti programátorů IBM Lemeryho a Taboryho, a de Groliera, ředitele francouzského střediska pro výměnu informací a technickou dokumentaci (Centre français d’Echanges et de Documentations, techniques).

[11] V 3. č. Cahiers de Lexikologie. Do 4. č., věnovaného problematice lexikologie a stylistiky, budou zařazeny referáty se stylistickou problematikou.

[12] Práce F. de Tollenaera Alfabetische of ideologische lexicografie vyšla jako 1. seš. Bijdragen tot de Nederlandse Taal — en Letterkunde v Leidenu 1960. (Autor navazuje na práci R. Halliga a W. von Wartburga Begriffssystem als Grundlage für die Lexicographie); stať Lexicologie alphabétique ou ideologique viz v pozn. 7.

[13] Mechanografické třídění hesel Laroussova slovníku (Le classement méchanographique des articles du Grand Larousse encyclopédique); bude uveřejněno ve 3. č. Cahiers de Lexicologie.

[14] Informace R. Klappenbachové o této práci viz v pozn. 7.

[15] Viz též informaci M. Bierwische Die Verwendung von Lochkarten bei der grammatischen Analyse, Mitteilungsblatt 6, 1960, 255—258.

Slovo a slovesnost, volume 23 (1962), number 1, pp. 67-71

Previous Květa Korvasová, Bohumil Palek: Některé vlastnosti entropie českého slovníku

Next Pavel Trost: Vztahy mezi gnoseologií, logikou a jazykem