Alla Bémová, Jana Weisheitelová
[Kronika]
Новые тома советского сборника Машинный перевод и прикладная лингвистика / Les derniers volumes du recueil soviétique sur la traduction automatique et la linguistique appliquée
[1]Velká část současných lingvistických prací je charakterizována snahou o formální popis jazyka, a to dnes už nejen v oblasti syntaktické, ale především sémantické. Nutnost zpracovat sémantiku formálním způsobem je požadavkem, s kterým se lingvista setkává jak v teorii, tak při práci na strojovém překladu, v informatice a vůbec při veškerých pokusech o automatické zpracování textu.
Jedním z jazykových modelů, který rozpracovává především problémy sémantiky, je systém I. A. Mel’čuka, A. K. Žolkovského a Ju. D. Apresjana známý pod názvem „smysl ↔ text“.[2] Model „smysl ↔ text“ je systém, který má vymezit pro každý zápis smyslu všechna jeho přípustná jazyková vyjádření. Hlavní úkol pak spočívá v hledání jistých zákonitostí a pravidel, určujících výběr vhodného výrazu pro vyjádření určitého smyslu. To je spojeno s řešením mnoha závažných lingvistických problémů, např. otázky forma[343]lizace sémantiky, požadavky standardizace popisu smyslu, vytvoření slovníku nového typu, širší pojetí lexikální a gramatické synonymie (které je nutné pro parafrázování). Práce na těchto problémech je spojena i s praktickým cílem — s přípravou strojového překladu z angličtiny do ruštiny. Model je nesporným přínosem k lingvistickému bádání a může i lingvistům, kteří se nezabývají přímo otázkami automatického zpracování textu, významně pomoci při řešení problematiky především v oblasti lexikologie.
Mnohé práce, které se přímo týkají modelu „smysl ↔ text“, jsou zařazeny do sborníků Mašinnyj perevod i prikladnaja lingvistika.
Stať Ju. D. Apresjana (sv. 14) se zabývá klasifikací možných typů sémantického parafrázování v rámci modelu. Autor rozlišuje parafrázování syntagmatické (tj. volné spojování syntakticky spojených slov ve větu) a paradigmatické (zde je možno mluvit o parafrázování morfologickém, syntaktickém a lexikálním). V rámci paradigmatického parafrázování rozšiřuje a upřesňuje systém lexikálních funkcí a pravidel. Pravidla parafrázování jsou svou podstatou univerzální, abychom však získali správné výsledky, je třeba v rámci daného jazyka pracovat s filtry, které zachycují jeho zvláštnosti. Podstatnou část Apresjanovy práce zabírá popis sémantických, syntaktických, morfologických a lexikálních filtrů (a to především filtrů, které vycházejí z různých vlastností slučitelnosti jednotlivých slov) a snaha o jejich formalizaci.
Výsledky zjišťování frekvence výskytu některých sémantických parametrů popisuje I. I. Ubin (sv. 13). Jde o parametry s významem hodnotícím, tj. Magn (déšť) = liják; AntiMagn (déšť) = slabý, pár kapek; Ver (láska) = opravdová, skutečná; AntiVer (láska) neupřímná, falešná; Bon (osud) = šťastný; AntiBon (osud) = těžký. Práce se prováděla na různých textech v ruštině a v angličtině. Předběžné výsledky ukazují, že např. nejfrekventovanějším parametrem je Magn, vyskytuje se více v textech o umění, v ruštině je frekventovanější než v angličtině. Zjištění frekvence výskytu je prospěšné pro úsporné uspořádání pravidel a pro formulaci filtrů. Autor sám předpokládá, že tyto výsledky mohou sloužit jako vhodný prostředek pro typologické studium různých jazyků.
Sémantickými podmínkami parafrázování v oblasti omezení se zabývá V. A. Matvejenková (sv. 13). Možnosti parafrázování s využitím protikladného významu jsou známy tradičním mluvnicím, např. škoda — tzn. že to není užitek; velký — to není malý; brát — to není dávat. Ukazuje se však, že s přihlédnutím ke kontextovému pozadí věty můžeme protikladné významy vidět v mnohem širším okruhu slov, než jsou antonyma v obvyklém smyslu: např. jde o protiklad podle vyjádření času určitého děje. Věta A píše dopis znamená, že psaní dopisu ještě není skončeno, nebo protiklad podle stupně reálnosti děje: A se tváří zaneprázdněně znamená, že A určitě není zaneprázdněn, atd. Také výrazy s omezením liš’ (pouze) v určitých podmínkách kontextového pozadí lze zaměnit výrazy, které obsahují vsego lisʼ, ne boleje kak, ješčo, nebo záporným výrazem. Pravidla pro uskutečnění těchto záměn (to je vlastně jen fragment existujícího systému parafrázování) musí přihlédnout k hierarchii vztahů mezi příznaky „malost“, „omezenost“, „pravděpodobnost“, „zápor“, za jejichž nositele lze považovat slova vsego liš’, ješčo, ne. V dalším článku (sv. 14) autorka provádí sémantickou analýzu tzv. omezujících sloves (např. slovesa ograničit’, skoncentrirovat’) a jejich automatický přepis na slovo liš’, tol’ko (‚pouze, jenom‘) a konkrétní sloveso (např. on ograničivajetsja čtenijem žurnalov — on čitajet tol’ko žurnaly). Nahrazení omezujícího slovesa částicí liš’, tol’ko probíhá jako přeorientování grafu zachycujícího smysl fráze. Zároveň autorka zavádí pravidla, která přepisují výsledný graf na lexikálně-syntaktickou strukturu modelu „smysl ↔ text“, kde vrcholem je lexikální funkce Oper a Func.
Dílčí problém v systému „smysl ↔ text“ řeší i čl. L. L. Jomdina (sv. 15). Autor na základě sémantické analýzy anglických kauzativních sloves vzniklých konverzí od substantiv (např. hammer — to hammer) rozšiřuje počet lexikálních funkcí a pravidel. Jde sice o stať na materiálu angličtiny, ale dosažené výsledky jsou formulovány tak, aby jich bylo možno využít při řešení problémů, které vznikají při překladu těchto sloves z angličtiny do ruštiny.
Pro popis některých lingvistických jevů, např. syntaktické synonymie, je nutné mít jemnější třídění, než je obvyklé v mluvnicích. Čl. T. Ju. Kobzarevové (sv. 13) je právě [344]věnován třídění přídavných jmen na podtřídy. Prostředkem k takovému dělení je schopnost spojování přídavných jmen s příslovci, kterých se užívá při opisném stupňování (očen’, počti, sovsem, dovol’no, neskol’ko, čuť atd.).
Příspěvky L. N. Jordanské a A. K. Žolkovského se týkají otázek slovníku nového typu. Vychází se zde z požadavku současné sémantiky, totiž z nutnosti standardizace popisu jazykových jednotek. Pro popis smyslu je třeba rozpracovat určitý jazyk se specifickým slovníkem a syntaxí tak, aby smysl všech jednotek přirozeného jazyka (včetně slov) bylo možno zaznamenat pomocí tohoto umělého jazyka. Tento problém je přirozeně velmi složitý a v současné době nelze mluvit o jeho konečném zpracování. V čl. L. N. Jordanské (sv. 13) jde o pokus stejného formálního výkladu skupiny sémanticky blízkých slov vyjadřujících city — radost, hněv, smutek, nadšení, žárlivost atd. Tato slova lze popsat podle několika hledisek, vyjadřujících postoj mluvčího k určité události: a) žádoucnost - nežádoucnost události B pro osobu A, b) pravděpodobnost uskutečnění události B osobou A, c) A má — nemá určité přání vzhledem k B. Slova vyjadřující city lze pak podle uvedených hledisek rozdělit do šesti skupin: radost, rozladění, hněv, naděje, strach, překvapení. A. K. Žolkovskij (sv. 13) využívá výsledků rozsáhlé práce na sémantické syntéze při zpracování dvojjazyčného slovníku. Předkládá slovníková hesla pro rusko-somálský slovník, vypracovaný na základě teorie lexikálních funkcí. Každé slovo obsahuje kromě lexikálního ekvivalentu také formálně zachycenou informaci o souboru možných vazeb a jejich závaznosti.
Určitým způsobem čerpá z idejí modelu „smysl ↔ text“ i práce N. G. Arsent’jevové (sv. 14), která navrhuje jeden z možných přístupů k analýze ruské věty. V navrhovaném algoritmu se v průběhu jeho činnosti využívá především informací získaných ze slovníku (jedná se o tzv. sémantický slovník v rámci modelu „smysl ↔ text“) a pracuje se s jednoduchou gramatikou. Algoritmus byl prakticky vyzkoušen na samočinném počítači. Strojově bylo zpracováno 25 vět, z toho 13 jich bylo analyzováno správně a ve zbývajících 12 se projevila nedostatečná propracovanost algoritmu, popř. i nedostačující údaje ve slovníku. V závěru článku autorka informuje o způsobech, jakými je třeba algoritmus upravit, aby při analýze nedocházelo k chybným výsledkům.
Práce M. V. Truba a Z. M. Šaljapinové jsou přínosem k existujícím metodám zachycení sémantiky přirozených jazyků. Z. M. Šaljapinová (sv. 15) popisuje způsob formálního výkladu slov, především pro účely automatického zpracování textu. Řeší otázku, jakých jednotek je třeba k zápisu sémantické informace a jak se tyto jednotky navzájem kombinují při vzniku sémantické charakteristiky konkrétního slova. Význam slova zachycuje pomocí tzv. sémantických elementů, tj. uměle vyčleněných jednotek smyslu, které mají určité syntagmatické a paradigmatické vlastnosti. Množina sémantických elementů tvoří sémantický jazyk. Navrhuje formální aparát, kterým je možno získat informace o vlastnostech slučitelnosti jednotlivých slov (tzn. určit, k jaké sémantické třídě patří toto slovo a jaké jsou jeho syntakticko-smyslové valence) a zároveň s jeho pomocí dospět k sémantickému zápisu věty.
M. V. Trub (sv. 13) ve svém článku seznamuje čtenáře s prací kyjevské laboratoře pro automatizaci prací v informatice. Sémantická analýza kyjevské skupiny vychází především z pojmu sémantické valence slov a získává sémantický zápis věty substitucí prvků nalezených ve větě, které naplňují sémantickou valenci daného predikátu odpovídajícími proměnnými, které tvoří strukturu významu predikátu. Formálně jsou významy slov zachyceny pomocí sémantického jazyka, tzv. RX jazyka.
S pojmem valence pracuje rovněž J. S. Martemjanov (sv. 13, 14). Pro popis souvislých úseků tvořících větu je třeba mít explicitní jazyk s jednoznačnou strukturou. Za tímto účelem navrhuje autor tzv. valenčně-junktivně-emfázní gramatiku (valentno-junktivno-emfaznuju gr.), která se buduje postupně od nejjednodušší formy k složitějším. Nejjednodušší formou je gramatika valenční. Je určena pro popis vztahů existujících mezi slovy jako sloveso, přídavné jméno, předložka, spojka atd., která se prohlašují za ,,valenty“ s určitým počtem valencí, a mezi úseky věty, které zaplňují odpovídající valence. Tato slova se nazývají „doplnění“. Na základě těchto pojmů se budují jednoduchá pravidla Martemjanovovy [345]gramatiky. „Valenty“ jsou slova (osobní sloveso, přídavné jméno, příslovce, předložka, spojka), která vyžadují přítomnost jiných slov nebo skupin. Kategorie valentu ignoruje rozdíly mezi slovními druhy a to dovoluje stejným způsobem popsat segmenty, které patří k různým slovním druhům. Zobecněná kategorie „doplnění“ odpovídá ligvistickému faktu, že ve většině případů slovo zapojené do věty slouží pro upřesnění obsahu jiného slova této věty. Pro popis všech vět přirozeného jazyka valenční gramatika nestačí, neboť např. v jejím rámci nelze rozlišit fráze: ljubovat’sja krasotoj lyžajki a lubovat’sja krasivoj lužajkoj. Proto valenční gramatika musí být rozšířena. Junktivní „nadstavba“ dovoluje popsat bezprostřední vztahy nejen mezi jednotlivými slovy, ale také mezi skupinami (dolgo ljubovat’sja) a (krasivoj lužajkoj) a také umožňuje upřesnit, které slovo je vrcholem slovní skupiny. Ani tato část gramatiky nestačí však pro úplné rozlišení všech struktur. Emfázní „nadstavba“ je určena pro logické „zdůraznění“ (tj. pro zjištění základu a jádra výpovědi) některého elementu valenční skupiny. Např. Ljubovalis’ oni krasivoj lužajkoj — Ljubovalis’ oni krasivoj lužajkoj.
Dílčím problémem v rámci uskutečnění strojového překladu z angličtiny do ruštiny se zabývá A. S. Čechov (sv. 15). Zaměřuje se však především na anglickou část překladu; popisuje zpracování vztažného zájmena which při syntaktické analýze a formulovaná pravidla prakticky ověřuje.
Využití statistických metod v lingvistice se týká čl. R. M. Frumkinové (sv. 15). Hlavním cílem čl. je zdůvodnění, proč určité lingvistické problémy je vhodné zpracovávat statistickými metodami. — A. J. Pricker (sv. 14) využívá statistiky ve své statisticko-distribuční metodě umožňující získat gramatické třídy slov, které jsou analogické slovním druhům. Analýzou získaných gramatických tříd dochází k určitým koeficientům, s jejichž pomocí je možné zařadit jakékoli slovo do gramatické třídy.
Několik článků ve sbornících se týká obecných otázek analýzy textu. S. I. Gindin (sv. 14) rozebírá pojem úplného textu a dochází k názoru, že jej lze vymezit pouze pomocí pragmatických kategorií. Ve struktuře textu samé je pak nutno hledat takové rysy, které by byly dostatečnou podmínkou úplnosti textu. Sem patří především tzv. spojitost textu. Autor uvádí způsoby projevování spojitosti, rozlišuje několik jejích typů (např. spojitost fonetická, syntaktická, lexikální, logická a nejdůležitější sémantická) a zkoumá vztahy mezi nimi. O možnostech zachycení struktury souvislého textu se zmiňuje G. V. Bondarenko (sv. 15). Zdůrazňuje, že tuto strukturu je nutno chápat jako sémanticko-syntaktický celek, v němž jsou jednotlivé elementy (věty, samostatné větné členy) těsně spojeny. Jádrem jeho práce je popis algoritmu analýzy struktury souvislého textu, vychází se zde z tzv. systému sestavování (schema nanizyvanij) navrženého I. P. Sevbem.
E. I. Korolev využívá poznatků pražské lingvistické školy o aktuálním větném členění. Snaží se o formulaci pravidel, která by určila logický subjekt a predikát (tzn. základ a jádro) pro každou větu. Toto zjištění je jedním z úkolů automatické analýzy ruského textu. Důležitým pomocníkem je při tom slovosled, neboť podle zákonitostí rozmístění předmětových a příslovečných skupin ve větě lze určit logický subjekt a predikát. V pravidlech se kromě slovosledu přihlíží ke kontextuálnosti a k návaznosti vět k textu.
Sborníky znamenají důležitý přínos pro formalizaci jazykového popisu, avšak právě snahou o explicitní vyjádření přinášejí konkrétní příspěvky především k přesnějšímu popisu ruštiny (např. sémantika ruských omezovacích částic apod.) i zajímavá zjištění pro konfrontaci s angličtinou.
[1] Mašinnyj perevod i prikladnaja lingvistika, sv. 13, Moskva 1970, 238 s.; sv. 14, Moskva 1971, 231 s.; sv. 15, Moskva 1972, 190 s.; rec. předcházejících sborníků od J. Panevové srov. v SaS 32, 1971, 69—73.
[2] Např. A. K. Žolkovskij - I. A. Mel’čuk, O semantičeskom sinteze, sb. Problemy kibernetiki, sv. 19, s. 177—238.
Slovo a slovesnost, ročník 35 (1974), číslo 4, s. 342-345
Předchozí Vladimír Skalička: Analýza gramatiky afrického jazyka hausa
Následující Marie Benešová: Nová sovětská práce o mistrovství slova veřejného projevu
© 2011 – HTML 4.01 – CSS 2.1