Jana Weisheitelová
[Kronika]
Об автоматическом синтаксическом анализе / A propos de l’analyse syntactique automatique
Meľčukova práce[1] přináší popis automatické syntaktické analýzy textu, která je jednou z částí úplné gramatické analýzy nutné při strojovém překladu. Práce se týká pouze syntaktické analýzy, algoritmus morfologické analýzy, který ji nutně předchází, byl publikován již dříve.[2] Algoritmus syntaktické analýzy je sestaven na základě informací o ruském jazyce, které autorovi poskytly texty vědeckotechnické a populárně vědecké literatury (stranou ponechává zvláštnosti uměleckého stylu a mluveného jazyka). Autor využívá ve své práci poznatků tradiční lingvistiky o ruské syntaxi a tam, kde ty nestačí, uvádí vlastní řešení, kterým však přikládá pouze dočasný význam (např. určování hranic mezi syntaxí a sémantikou). Hlavní předností Meľčukovy práce je, že způsob sestavení algoritmu [99]analýzy ruského textu dovoluje, aby byl využit i při analýze jiných jazyků. Je to umožněno tím, že algoritmus analýzy se v podstatě skládá ze dvou složek, z pomocné (ta by pro každý jazyk musela být vypracována zvlášt) a obecné, tzv. vlastního algoritmu, který má mít univerzální využití. V pomocné složce jsou nejdůležitější tabulky konfigurací, tzv. syntaktický slovník jazyka. Vlastní algoritmus obsahuje pouze příkazy, jak s konfiguracemi pracovat, chápe se jako čistě teoretický úkol bez ohledu na praktické cíle a provádění na některém konkrétním samočinném počítači.
V úvodu autor definuje analýzu jako přechod od textu (v běžné grafické formě) k jeho smyslu (tj. k souhrnu sémantických elementů, které jsou spojeny určitými syntaktickými vztahy); tento přechod se uskutečňuje na základě dostatečných informací o daném jazyce. Dále se pak formuluje pět hlavních požadavků kladených na syntaktickou analýzu: (1) rozložení věty na části, (2) rozlišení syntaktické homonymie, (3) nalezení a zpracování frazeologismů, (4) získání informací o jednotkách textu, (5) zjištění vztahů mezi jednotkami textu. Mezi uvedené požadavky nejsou zahrnuty odkazovací zájmena a eliptické konstrukce; těmito problémy se autor v práci nezabývá. Proces syntaktické analýzy pak se dělí na analýzu uvnitř segmentů a na analýzu mezi segmenty. (Algoritmus pro tuto část analýzy je zpracován L. N. Jordanskou a v práci není uveden.)
V první kap. se objasňují principy a vlastnosti algoritmu analýzy uvnitř segmentů. Syntaktická analýza se zde opírá o závislostní teorii, pouze ve výjimečných případech o metodu bezprostředních složek (např. u několikanásobných větných členů). Výsledek analýzy je zaznamenán pomocí souboru binárních vztahů, které autor nazývá vztahy bezprostřední „dominace“ (otnošenija neposredstvennoj dominacii); k zobrazení těchto vztahů mu slouží očíslované šipky, směřující od členu řídícího k závislému. Počet vztahů bezprostřední dominace závisí na tom, kde se vede hranice mezi syntaxí a sémantikou. V práci je použito celkem 31 vztahů:
(1) vztah predikativní |
(práce začala); |
(2) vztah prvního objektu |
(začít práci); |
(16) určení okolnostní |
(číslo je zapsáno na pásce); |
(27) omezující |
(pouze čísla ……) atd. |
Tyto vztahy byly vybrány čistě empirickým způsobem a jediným kritériem (podle slov autorových) byl dostatečný počet, který by zachoval smysl textu.
Autor rozlišuje tři typy jednotek textu (slovní tvar, segment, fráze), každá jednotka má svou podobu výchozí a konečnou. V analýze uvnitř segmentu jsou objektem zpracování informace k výchozímu segmentu (výchozím segmentem se rozumí posloupnost slovních tvarů ohraničená interpunkčními znaménky a některými spojkami) a výsledkem je odhalení vztahu mezi slovními tvary (tj. je vybrán jeden z 31 „vztahů bezprostřední dominace“). Během analýzy se nalezené jednotky textu srovnávají pomocí mnoha operací s tzv. konstantami jazyka, které jsou vymezeny syntaktickým slovníkem v podobě standardního zápisu — tabulky konfigurací. Konfigurace jsou různých typů, nejdůležitější jsou syntagmata, dále sem patří např. frazeologická spojení, analytické formy (spojení plnovýznamových slovních tvarů s pomocnými, např. předložkové vazby), tzv. supersyntagmata, kterými autor rozumí spojení na přechodu mezi syntagmatem a frazeologickým spojením, apod. Hledání v tabulce konfigurací je zjednodušeno tzv. syntaktickými adresami, jejichž podstatou je to, že každá jednotka textu v dané fázi analýzy získává údaj o tom, na kterém místě tabulky konfigurací bude ve fázi následující zpracována. Pořádek konfigurací v tabulce je svázán cykličností syntaktické analýzy. V textu se nejdříve zjistí nejzřetelnější vztahy mezi slovními tvary a ty potom pomáhají při zjišťování vztahů méně zřetelných atd.; v uvedeném algoritmu je celkem pět cyklů. Algoritmus obsahuje i mnoho pomocných údajů, které se týkají [100]např. případů, kde nebyl nalezen druhý člen konfigurace apod.
Meľčukova práce je sympatická pro svou snahu o celistvé zpracování analýzy ruského jazyka. Na její hlavní přednost, možnost obecného uplatnění vlastního algoritmu analýzy, jsme už upozornili. To je samo o sobě jistě velmi cenné, skrývá to však v sobě i mnoho obtíží; ty se týkají hlavně sestavení tabulky konfigurací, na jejichž správnosti a dostačujícím rozsahu podstatně závisí výsledek analýzy. Aby se uvedená možnost stala reálnou, bylo by třeba mít i podrobná kritéria pro sestavení těchto tabulek pro různé jazyky. Je také otázka, zda vztahy bezprostřední dominace (v podobě a počtu, jak je uvádí autor) poskytují dostatečný obraz o analyzovaném textu. Na práci je především nutno ocenit to, jak podrobně jsou v algoritmu zpracovány i případy, které se v textech vyskytují poměrně zřídka (to je jednou z příčin značné rozsáhlosti algoritmu).
Meľčuk sám upozorňuje na některé nedostatky své práce (např. na poměrně velký počet cyklů analýzy); je si vědom toho, že bude třeba opravit i některé lingvistické údaje. Kritické posouzení algoritmu by vyžadovalo ještě detailní teoretickou i praktickou prověrku. To však nebylo v našich možnostech, proto jsme se soustředili na přehled základních principů.
[1] I. A. Meľčuk, Avtomatičeskij syntaksičeskij analiz I. Vyd. Sibir. otd. AN SSSR, 1964, 356 s.
[2] I. A. Meľčuk, Morfologičeskij analiz pri mašinnom perevode, Problemy kibernetiki 1961/6, s. 207—276.
Slovo a slovesnost, ročník 28 (1967), číslo 1, s. 98-100
Předchozí Pavel Novák: Čítanka o struktuře jazyka
Následující Pavel Novák: Překladový sborník „Matematičeskaja lingvistika“
© 2011 – HTML 4.01 – CSS 2.1