MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY. postupné segmentace věty

M ASARYKOVA UNIVERZITA FAKULTA INFORMATIKY

}

w A| y < 5 4 23 1 0 / -. , )+ ( %&' $ # !"

Æ

Syntaktická analyza ´ s vyuˇzit´ım postupné segmentace vˇety D IPLOMOV A´

´ PR ACE

Vojtˇech Kovárˇ

Brno, podzim 2008

Prohlásˇ en´ı Prohlaˇsuji, zˇ e tato diplomová práce je mym ˚ ım autorskym ´ puvodn´ ´ d´ılem, které jsem vypracoval samostatnˇe. Vˇsechny zdroje, prameny a literaturu, které jsem pˇri vypracován´ı pouˇz´ıval nebo z nich cˇ erpal, v práci rˇa´ dnˇe cituji s uveden´ım upln´ ´ eho odkazu na pˇr´ısluˇsny´ zdroj.

Vedouc´ı práce: RNDr. Aleˇs Horák, Ph.D. ii

Podˇekován´ı Dˇekuji Aleˇsi Horákovi za odborné veden´ı práce, vstˇr´ıcny´ pˇr´ıstup a cenné konzultace. Rovnˇezˇ dˇekuji své rodinˇe a pˇr´ıtelkyni za nenahraditelnou podporu pˇri psan´ı práce.

iii

Shrnut´ı Tato práce se zabyv´ ´ a návrhem nové metody pro syntaktickou analyzu ´ cˇ eˇstiny, zaloˇzeném na postupné segmentaci vˇety. Popisujeme souˇcasné hlavn´ı pˇr´ıstupy k rˇeˇsenému ukolu ´ a jejich nedostatky, návrh a implementaci nového systému pro syntaktickou analyzu cˇ eˇstiny a dosaˇzené vysledky mˇerˇen´ı ´ ´ pˇresnosti na korpusovych ´ datech.

iv

Kl´ıcˇ ová slova automatická syntaktická analyza, syntax, analyzátor, parser, analyza cˇ eˇs´ ´ tiny, segmentace vˇety, set

v

Obsah ´ 1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Syntaktická analyza ´ pˇrirozenych ´ jazyku˚ . . . . . . . . . . . . . . 2.1 Závislostn´ı pˇr´ıstup . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Praˇzsky´ závislostn´ı korpus . . . . . . . . . . . . . . . 2.1.2 Závislostn´ı analyzátory . . . . . . . . . . . . . . . . . 2.1.3 Mˇerˇen´ı uspˇ ´ esˇ nosti závislostn´ı analyzy . . . . . . . . . ´ 2.2 Sloˇzkovy´ pˇr´ıstup . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Analyzátor Synt . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Mˇerˇen´ı uspˇ ´ esˇ nosti sloˇzkové analyzy . . . . . . . . . . ´ 2.3 Parciáln´ı syntaktická analyza . . . . . . . . . . . . . . . . . . ´ 2.4 Problémy v syntaktické analyze ´ . . . . . . . . . . . . . . . . . 2.4.1 N´ızká pˇresnost analyzy . . . . . . . . . . . . . . . . . ´ 2.4.2 V´ıceznaˇcnost analyzy . . . . . . . . . . . . . . . . . . ´ 2.4.3 Subjektivita syntaxe . . . . . . . . . . . . . . . . . . . 2.4.4 Urˇcován´ı spornych ´ a nadbyteˇcnych ´ jevu˚ . . . . . . . 3 Metoda postupné segmentace vˇety . . . . . . . . . . . . . . . . . . ´ 3.1 Uvodn´ ı pozorován´ı o syntaxi . . . . . . . . . . . . . . . . . . 3.1.1 Pozorován´ı prvn´ı: Obt´ızˇ e v návrhu gramatiky . . . . 3.1.2 Pozorován´ı druhé: Negramatické konstrukce . . . . . 3.1.3 Pozorován´ı tˇret´ı: Kl´ıcˇ ová slova ve formáln´ıch jazyc´ıch 3.1.4 Pozorován´ı cˇ tvrté: Kl´ıcˇ ová slova v pˇrirozenych ´ jazyc´ıch 3.2 Syntaktická analyza ´ s vyuˇzit´ım postupné segmentace vˇety . 3.2.1 Základn´ı principy . . . . . . . . . . . . . . . . . . . . 3.2.2 Schéma algoritmu . . . . . . . . . . . . . . . . . . . . 3.2.3 Pravidla a realizace . . . . . . . . . . . . . . . . . . . . 3.2.4 Formy vystupu . . . . . . . . . . . . . . . . . . . . . . ´ Hybridn´ı syntaktické stromy . . . . . . . . . . . . . . Závislostn´ı vystup . . . . . . . . . . . . . . . . . . . . ´ V´ıceznaˇcnost ve vystupu . . . . . . . . . . . . . . . . ´ 3.3 Zaˇrazen´ı formalismu . . . . . . . . . . . . . . . . . . . . . . . 4 Systém SET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Návrh systému . . . . . . . . . . . . . . . . . . . . . . . . . .

3 4 4 5 6 7 7 8 9 10 10 10 11 11 12 14 14 14 15 15 17 18 18 19 20 23 23 24 24 25 26 26 1

Implementace . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Modul grammar . . . . . . . . . . . . . . . . . 4.2.2 Modul token . . . . . . . . . . . . . . . . . . . 4.2.3 Modul segment . . . . . . . . . . . . . . . . . 4.2.4 Modul matcher . . . . . . . . . . . . . . . . . 4.2.5 Modul parser . . . . . . . . . . . . . . . . . . 4.2.6 Dalˇs´ı moduly . . . . . . . . . . . . . . . . . . . 4.3 Systém pravidel . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Formát zápisu pravidel . . . . . . . . . . . . . 4.3.2 Formát zápisu znaˇcek sˇ ablony . . . . . . . . . 4.3.3 Znaˇcky s vˇetˇs´ım rozsahem . . . . . . . . . . . . 4.3.4 Znaˇcky bound a rbound . . . . . . . . . . . . 4.3.5 Formát akc´ı . . . . . . . . . . . . . . . . . . . . 4.3.6 Reálné pˇr´ıklady pravidel . . . . . . . . . . . . 4.4 Pouˇzit´ı programu . . . . . . . . . . . . . . . . . . . . . 4.4.1 Formát vstupu . . . . . . . . . . . . . . . . . . 4.4.2 Formát vystupu . . . . . . . . . . . . . . . . . . ´ 5 Dosaˇzené vysledky a dalˇsı´ vyvoj . . . . . . . . . . . . . . . ´ ´ . . . . . . . . . . . . . 5.1 Pˇresnost závislostn´ıho vystupu ´ 5.1.1 Testovac´ı data . . . . . . . . . . . . . . . . . . . 5.1.2 Vysledky a interpretace . . . . . . . . . . . . . ´ 5.2 Analyza ´ chyb . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Nepˇresnosti v PDT . . . . . . . . . . . . . . . . 5.2.2 Ménˇe cˇ asté syntaktické jevy . . . . . . . . . . . 5.2.3 Nedostateˇcná lexikáln´ı informace . . . . . . . ˇ 5.3 Casov´ a nároˇcnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Dalˇs´ı vyvoj ´ 5.4.1 Analyza ´ v´ıceznaˇcnych ´ morfologickych ´ vstupu˚ 5.4.2 Vyuˇzit´ı korpusovych ´ statistik . . . . . . . . . . 6 Závˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A Pˇr´ıloha A: Ukázka spuˇstˇen´ı programu . . . . . . . . . . . . 4.2

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27 27 27 28 28 29 29 29 30 31 34 34 35 36 37 38 38 40 40 40 41 42 42 43 45 45 46 46 46 48 52

2

Kapitola 1

´ Uvod Automatická analyza ´ pˇrirozeného jazyka je odvˇetv´ım, které s rozmachem informaˇcn´ı spoleˇcnosti nabyv´ Vzniká potˇreba au´ a stále vˇetˇs´ıho vyznamu. ´ tomaticky analyzovat velká mnoˇzstv´ı dokumentu˚ v pˇrirozeném jazyce, dostupnych ˚ ejˇs´ıch databáz´ıch novinovych ´ volnˇe na Internetu, v nejruznˇ ´ cˇ i odbornych ˚ jazykovych ´ cˇ lánku, ´ korpusech apod. Tyto dokumenty je tˇreba dále tˇr´ıdit, z´ıskávat z nich informace a inteligentn´ımi metodami v nich vyhledávat tak, aby cˇ tenárˇ hledaj´ıc´ı informaci strávil minimum cˇ asu zbyteˇcnym ˚ které jsou pro nˇej neuˇziteˇc´ cˇ ten´ım textu, né. Ve vzdálenˇejˇs´ı budoucnosti mohou vznikat stroje, které se na základˇe textu˚ v pˇrirozeném jazyce budou uˇcit fakta, budovat a rozˇsiˇrovat svou znalostn´ı bázi a slouˇzit jako specializované dialogové systémy, pˇr´ıpadnˇe dokonce inferenˇcn´ı stroje a generátory novych ´ teori´ı. V cestˇe za takto vyspˇelymi inteligentn´ımi systémy jsme vˇsak zat´ım na ´ samém poˇca´ tku. Vˇetˇsina ze souˇcasnych ´ ,,inteligentn´ıch” pˇr´ıstupu˚ vyuˇz´ıvá pouze jednoduché statistické informace z´ıskané ze slov, pˇr´ıpadnˇe z morfologické analyzy ˚ tohoto stavu ´ slov obsaˇzenych ´ ve vstupn´ım textu. Duvodem je nedostateˇcná kvalita nástroju˚ pro analyzu jazyka na vyˇssˇ´ıch urovn´ ´ ıch – ´ pˇredevˇs´ım syntaktické a sémantické. Kvalita takovychto nástroju˚ je kl´ıcˇ ová, ´ chceme-li analyzovat texty skuteˇcnˇe do hloubky, tj. dosáhnout stavu, kdy pˇr´ısluˇsny´ stroj (napˇr´ıklad vyhledávac´ı) obsahu zpracovávanych ´ dokumentu˚ de facto rozum´ı. Tato práce se zabyv´ vˇet ´ a problémem automatické syntaktické analyzy ´ v pˇrirozeném jazyce, konkrétnˇe v cˇ eˇstinˇe, jako jedn´ım z kroku˚ komplexn´ı automatické analyzy jazyka. V uvodn´ ´ ıch cˇ a´ stech jsou na základˇe dostup´ nych ´ pramenu˚ shrnuty základn´ı pˇr´ıstupy pouˇz´ıvané k syntaktické analyze ´ cˇ eˇstiny a problémy, s nimiˇz se tyto pˇr´ıstupy potykaj´ ´ ı. Dalˇs´ı cˇ a´ sti jsou vˇenovány hlavn´ımu pˇr´ınosu práce, j´ımˇz je metoda postupné segmentace vˇety. Zminujeme ˇ myˇslenky, které k navrhovanému konceptu vedly, vysvˇetlujeme principy metody a pˇredstavujeme systém pro automatickou syntaktickou analyzu cˇ eˇstiny SET, ktery´ je na metodˇe postupné segmentace vˇety ´ zaloˇzen. 3

Kapitola 2

Syntaktická analyza ´ pˇrirozenych ´ jazyku˚ ´ Ukolem syntaktické analyzy pˇrirozenych je od´ ´ jazyku˚ (dále jen analyzy) ´ halit povrchovou strukturu vˇety, tj. vztahy mezi slovy i vˇetˇs´ımi jednotkami (konstituenty) a zpusob, ˚ jakym ´ se tyto jednotky skládaj´ı do vˇetného celku. Takto z´ıskaná informace je kl´ıcˇ ová v následuj´ıc´ım procesu sémantické (ˇci logické) analyzy ´ dané vˇety, pˇr´ıpadnˇe pro extrakci d´ılˇc´ıch informac´ı z textu. V souˇcasnosti existuj´ı dva základn´ı pˇr´ıstupy k syntaktické analyze ´ cˇ eskych ´ vˇet. Prvn´ım z nich je pˇr´ıstup závislostn´ı, jenˇz je rozv´ıjen v praˇzském ´ ´ Ustavu formáln´ı a aplikované lingvistiky (UFAL). Na jeho základech je mimo jiné postaven Praˇzsky´ závislostn´ı korpus (Prague Dependency Treebank, nebo tézˇ PDT [3], [4]) a mnoˇzstv´ı analyzátoru˚ (napˇr. [5], [9], [10]). Druhym ´ je pˇr´ıstup sloˇzkovy, ´ na jehoˇz základˇe pracuj´ı analyzátory vyv´ıjené v Centru zpracován´ı pˇrirozeného jazyka na Fakultˇe informatiky Masarykovy univerzity, jejichˇz nejvyznamnˇ ejˇs´ım reprezentantem je analyzátor ´ synt [12]. V této kapitole struˇcnˇe pop´ısˇ eme charakteristické vlastnosti obou zm´ınˇenych ˇ ı vyraz´ pˇr´ıstupu˚ a nast´ın´ıme problémy, které prozat´ım znemoˇznuj´ ´ nˇejˇs´ı nasazen´ı vyv´ıjenych ´ analyzátoru˚ na vyˇssˇ´ıch vrstvách analyzy ´ jazyka, jako je logická analyza ´ cˇ i extrakce informac´ı.

2.1

Závislostn´ı pˇr´ıstup

´ Práce prob´ıhaj´ıc´ı na UFAL vycház´ı z tradice praˇzské lingvistické sˇ koly, která zahrnuje pomˇernˇe komplexn´ı analyzu jazyka na rovinˇe morfologické, ´ syntaktické a cˇ a´ steˇcnˇe i sémantické. Na základˇe tˇechto tradiˇcn´ıch teori´ı, upravenych v oblasti poˇc´ıtaˇcové lingvis´ pro potˇreby souˇcasného vyzkumu ´ tiky, jsou anotována rozsáhlá korpusová data a vyv´ıjeny analyzátory vyuzˇ ´ıvaj´ıc´ı ruzn ˚ ych ´ pˇr´ıstupu˚ (viz dále). V závislostn´ım formalismu je za syntaktickou analyzu vˇety povaˇzován ´ koˇrenovy´ strom vˇety (acyklicky´ orientovany´ graf s vyznaˇcenym ´ koˇreno4

2. S YNTAKTICK A´

´ ZA P Rˇ IROZEN Y´ CH JAZYK U˚ ANAL Y

Obrázek 2.1: Pˇr´ıklad závislostn´ıho stromu pro vˇetu Slunce vyjde na západˇe? vym ´ vrcholem), jehoˇz vrcholy tvoˇr´ı právˇe slova vstupn´ı vˇety,1 spolu s jedn´ım pˇridanym ´ pomocnym ´ vrcholem, ktery´ je vˇzdy koˇrenem stromu. S vy´ jimkou tohoto pomocného vrcholu nejsou do vˇety pˇridávány zˇ a´ dné dalˇs´ı strukturn´ı informace, vˇse je kodov´ ´ ano do vzájemnych ´ vztahu˚ slov ve vstupn´ı vˇetˇe. Vztahy mezi slovy jsou zachyceny hranami v grafu vˇety, pˇriˇcemˇz kaˇzdá hrana vyjadˇruje závislost jednoho slova na jiném. Kaˇzdá hrana je dále ohodnocena syntaktickou funkc´ı,2 jeˇz urˇcuje typ závislosti dané hrany (napˇr. funkce Attr vyjadˇruje závislost pˇr´ıvlastku na rˇ´ıd´ıc´ım slovˇe). Plat´ı, zˇ e z kaˇzdého vrcholu s vyjimkou koˇrene vede právˇe jedna závislostn´ı hrana, ´ tj. kaˇzdé slovo je závislé na právˇe jednom dalˇs´ım slovˇe (nebo koˇrenovém uzlu). Pˇr´ıklad závislostn´ıho stromu muˇ ˚ zeme vidˇet na obrázku 2.1.3 2.1.1 Praˇzsky´ závislostn´ı korpus ´ Jiˇz zm´ınˇeny´ Praˇzsky´ závislostn´ı korpus (PDT [3]), vytvárˇeny´ na UFAL, je korpus cˇ eˇstiny, manuálnˇe anotovany´ na v´ıce urovn´ ´ ıch analyzy ´ jazyka podle 1. Za slova zde povaˇzujeme vˇsechny tzv.tokeny tj. slova, cˇ´ısla a interpunkci. 2. Technicky jsou touto syntaktickou funkc´ı ohodnoceny uzly stromu, pˇredstavu ohodnocenych ´ hran vˇsak povaˇzujeme za názornˇejˇs´ı. 3. Pˇrevzato z vizualizovanych ´ pˇr´ıkladu˚ pro PDT 2.0, http://ufal.mff.cuni.cz/pdt2.0/visual-data/sample/sample3_a_26.htm

5

2. S YNTAKTICK A´


principu˚ praˇzské lingvistické sˇ koly. Jeho celkovy´ rozsah je témˇerˇ dva miliony slovn´ıch jednotek. V této práci je pro nás podstatná syntakticky oznaˇckovaná cˇ a´ st korpusu, tzv. analytická rovina anotace, která v nynˇejˇs´ı verzi PDT 2.0 obsahuje 87 913 vˇet s celkovym ´ poˇctem 1 503 739 slovn´ıch jednotek. Tato cˇ a´ st korpusu je tvoˇrena syntaktickymi stromy cˇ eskych ´ ´ vˇet manuálnˇe vytvoˇrenymi ´ podle závislostn´ıho formalismu pˇredstaveného vyˇ ´ se. Je to jediny´ manuálnˇe syntakticky oznaˇckovany´ korpus cˇ eˇstiny srovnatelné velikosti (jediny´ zdroj ,,správnych” syntaktickych dat) a je tedy velmi duleˇ ˚ zity´ z hlediska tes´ ´ tován´ı kvality vyv´ıjenych ˚ ´ automatickych ´ analyzátoru.

2.1.2 Závislostn´ı analyzátory Spolu s PDT je na stejném pracoviˇsti vyv´ıjeno mnoˇzstv´ı automatickych ´ závislostn´ıch analyzátoru, ˚ které korpus pouˇz´ıvaj´ı jako trénovac´ı a testovac´ı data. Tyto analyzátory vesmˇes pracuj´ı ve dvou fáz´ıch. V prvn´ı, trénovac´ı fázi se analyzátor z oznaˇckovanych ˚ ych ´ dat nauˇc´ı pravidla (v ruzn ´ formách podle konkrétn´ıho analyzátoru), která následnˇe pouˇz´ıvá ve druhé fázi, kdy podle z´ıskanych ´ pravidel analyzuje vstupn´ı vˇetu. Na tomto principu pracuj´ı napˇr´ıklad analyzátory popsané v [5], [8] a také McDonnald’s maximum spanning tree parser [22], jenˇz dosahuje nejlepˇs´ıch vysledk u˚ v mˇerˇen´ı pˇres´ nosti analyzy kombinace analyzátoru, ˚ viz dále). ´ (s vyjimkou ´ ´ Ne vˇsechny analyzátory, se kterymi se pracuje na UFAL, jsou ale tohoto ´ charakteru. Uvedeme zde dva pˇr´ıklady odliˇsného pˇr´ıstupu k závislostn´ı analyze. Prvn´ım z nich je Holanuv ˚ parser ANALOG [9], ktery´ nemá tréno´ vac´ı fázi a ve fázi analyzy ´ vyhledává takovou lokáln´ı konfiguraci, která je nejv´ıce podobná datum ˚ v trénovac´ı mnoˇzinˇe. ˇ Druhym analyzátorem je Zabokrtsk´ eho pravidlovy´ závis´ ,,atypickym” ´ lostn´ı analyzátor, popsany´ v [10], ktery´ analyzuje vstupn´ı vˇetu s pomoc´ı ruˇcnˇe vytvoˇrenych ´ transformaˇcn´ıch pravidel, nevyuˇz´ıvá tedy zˇ a´ dnou informaci z trénovac´ıch dat. Pravidla jsou implementována pˇr´ımo jako funkce v programovac´ım jazyce Perl, nen´ı vyuˇzito zˇ a´ dného známého gramatického formalismu. Vˇsechny uvedené analyzátory pˇredpokládaj´ı na vstupu morfologicky jednoznaˇcnˇe oznaˇckovanou (desambiguovanou) vˇetu, pˇred jejich pouˇzit´ım je tedy tˇreba aplikovat morfologicky´ analyzátor a desambiguátor (tagger). 6

2. S YNTAKTICK A´


4 i s pˇ ´ Seznam dostupnych r´ısluˇs´ taggeru˚ je zveˇrejnˇen na stránkách UFAL nym ´ komentárˇem a odkazy.

2.1.3 Mˇerˇen´ı uspˇ ´ esˇ nosti závislostn´ı analyzy ´ ´ esˇ nost závislostn´ı analyzy Uspˇ vˇety je dána poˇctem správnˇe urˇcenych ´ ´ závislost´ı, hran ve stromu vˇety (za správnˇe urˇcené povaˇzujeme samozˇrejmˇe ty hrany, které se shoduj´ı s anotac´ı v korpusu). Pro kaˇzdou vˇetu urˇcujeme pˇresnost (precision) a pokryt´ı (recall) hran urˇcenych ´ analyzátorem. Vzhledem k tomu, zˇ e poˇcet hran je pro danou vˇetu vˇzdy stejny´ (závislostn´ı strom obsahuje právˇe tolik hran, kolik je slov ve vˇetˇe), pˇresnost ´ esˇ nost i pokryt´ı budou pro danou vˇetu vˇzdy nabyvat stejné hodnoty. Uspˇ ´ analyzátoru na jedné vˇetˇe muˇ ˚ zeme tedy vyjádˇrit jedinym ´ cˇ ´ıslem, v dalˇs´ım ´ textu nazyvan ym ´ ´ pouze pˇresnost. Uspˇesˇ nost analyzátoru na testovac´ı sadˇe je pak vyjádˇrena prumˇ ˚ erem (v nˇekterych ´ pˇr´ıpadech pˇr´ıpadnˇe mediánem) pˇresnost´ı analyzy ´ pro jednotlivé vˇety. Pˇresnost analyzátoru˚ uvedenych ´ v pˇredchoz´ı cˇ a´ sti se pohybuje od 53 do 84 procent [10]. Nejuspˇ ´ esˇ nˇejˇs´ım samostatnym ´ analyzátorem je jiˇz zm´ınˇeny´ McDonnald’s maximum spanning tree parser, dosahuj´ıc´ı pˇresnosti 83.98 %. Zaj´ımavy´ je experiment s kombinac´ı nˇekolika ruzn ˚ ych analyzátoru˚ ´ (tézˇ [10]), v nˇemˇz se podaˇrilo zvyˇ ´ sit dosahovanou pˇresnost o dalˇs´ı témˇerˇ ˇ dvˇe procenta na 85.84 %. Pˇresnost Zabokrtsk´ eho pravidlového analyzátoru 5 je 75.93 %.

2.2

Sloˇzkovy´ pˇr´ıstup

Druhym ´ z hlavn´ım proudu˚ v automatické syntaktické analyze ´ je pˇr´ıstup sloˇzkovy, ´ rozv´ıjeny´ v Centru zpracován´ı pˇrirozeného jazyka na Fakultˇe informatiky Masarykovy univerzity (CZPJ FI MU). Narozd´ıl od závislostn´ıho, sloˇzkovy´ formalismus operuje pˇri vyznaˇcován´ı syntaktickych ´ vztahu˚ i s vˇetˇs´ımi celky, neˇz jsou slova. V procesu analyzy ´ jsou rozpoznávány konstituenty ve vstupn´ı vˇetˇe a je odhalován zpusob, ˚ jakym ´ se tyto konstituenty skládaj´ı do vˇetného celku. Sloˇzkové stromy, vystup ze sloˇzkové analyzy, pak tento proces názornˇe ´ ´ reflektuj´ı – je explicitnˇe vyznaˇceno, které cˇ a´ sti vˇety formuj´ı jmenné skupiny, které jmenné skupiny se poj´ı se slovesem apod. Jak jiˇz je z pˇredchoz´ıho patrné, sloˇzkové stromy pouˇz´ıvaj´ı netermináln´ı symboly pro oznaˇcen´ı rozpo4. http://ufal.mff.cuni.cz/czech-tagging/ 5. Vˇsechna uvádˇená cˇ´ısla se vztahuj´ı k mˇerˇ en´ı na odd´ılu PDT, ktery´ je k urˇcen ke ,,slepému” testován´ı uspˇ ´ esˇ nosti vyv´ıjenych ´ analyzátoru˚ – e-test.

7

2. S YNTAKTICK A´


Obrázek 2.2: Pˇr´ıklad sloˇzkového stromu pro vˇetu Slunce vyjde na západˇe?

znanych ´ struktur, jsou tedy bohatˇs´ı a sloˇzitˇejˇs´ı neˇz stromy závislostn´ı. Jejich podoba odpov´ıdá odvozen´ı podle formáln´ı gramatiky bezkontextového typu a koresponduje s teoriemi syntaxe podle Noama Chomského. Pˇr´ıklad sloˇzkového stromu muˇ ˚ zeme vidˇet na obrázku 2.2.

2.2.1 Analyzátor Synt Na základˇe sloˇzkového pˇr´ıstupu je v CZPJ FI MU vyv´ıjen analyzátor synt [12]. Tento analyzátor je zaloˇzen na bezkontextové gramatice obohacené o kontextové akce; tato gramatika je pˇritom nejednoznaˇcná, takˇze na vystup jsou pˇredávány mnoˇziny moˇznych ´ ´ stromu˚ pro danou vˇetu, nikoli jeden strom. Nicménˇe, stromy v této mnoˇzinˇe jsou ohodnoceny a setˇr´ıdˇeny a algoritmy implementované v analyzátoru dovoluj´ı vybrat N nejlepˇs´ıch stromu˚ v polynomiáln´ım cˇ ase, i kdyˇz celkovy´ poˇcet stromu˚ muˇ ˚ ze byt ´ aˇz exponenciáln´ı. 8

2. S YNTAKTICK A´


Vzhledem k tomu, zˇ e gramatika cˇ eˇstiny je velmi rozsáhlá (zejména kvuli ˚ relativnˇe volnému poˇra´ dku slov), je vyv´ıjena ve formˇe tzv. metagramatiky [14], jeˇz umoˇznuje ˇ zhustit informaci obsaˇzenou v gramatice do rˇ a´ dovˇe 200 pravidel, která jsou poté automaticky rozgenerována do gramatického formalismu pouˇz´ıvaného analyzátorem. Rozgenerovaná forma gramatiky jiˇz obsahuje tis´ıce pravidel. Pro samotny´ proces analyzy je pak pouˇz´ıván algoritmus head-driven ´ chart parsing [17], ktery´ je velmi efektivn´ı i pro rozsáhlé gramatiky. Po proveden´ı analyzy ı mnoˇzina stromu˚ dále proˇrezávána a tˇr´ıdˇena ´ je vystupn´ ´ s vyuˇzit´ım ruzn ˚ ych ´ metod ([15], [18], [19]). Narozd´ıl od vˇetˇsiny závislostn´ıch analyzátoru˚ zm´ınˇenych vyˇ ´ ´ se, analyzátor synt dokázˇ e zpracovat i text s v´ıceznaˇcnym ´ morfologickym ´ oznaˇckován´ım, bez vyrazn´ eho nárustu ˚ cˇ asové nároˇcnosti analyzy. ´ ´ V návaznosti na vysledky programu synt jsou tézˇ rozpracovány me´ tody analyzy jazyka na vyˇssˇ´ıch vrstvách, zejména logická analyza ´ ´ v transparentn´ı intenzionáln´ı logice [11]. Popis tˇechto metod by vˇsak byl jiˇz nad rámec této práce. 2.2.2 Mˇerˇen´ı uspˇ ´ esˇ nosti sloˇzkové analyzy ´ Pro mˇerˇen´ı uspˇ ´ esˇ nosti sloˇzkové analyzy ´ je pouˇz´ıváno podobnostn´ıch metrik na sloˇzkovych ´ stromech. V souˇcasnosti je pravdˇepodobnˇe nejrozˇs´ırˇenˇejsˇ´ı z nich metrika PARSEVAL a jej´ı varianty, v posledn´ı dobˇe je vˇsak poukazováno na jej´ı nedostateˇcnost [7] a jsou navrhovány metriky nové. Velmi nadˇejnym ´ návrhem se jev´ı technika Leaf Ancestor Assessment (LAA), navrˇzená v roce 2000 [24]. Problémem v pˇr´ıpadˇe mˇerˇen´ı uspˇ ´ esˇ nosti sloˇzkové analyzy ´ cˇ eˇstiny je neexistence rozsáhlého korpusu sloˇzkovych ´ stromu˚ pro cˇ eˇstinu. Protoˇze existuj´ı techniky pˇrevodu závislostn´ıch stromu˚ na sloˇzkové a naopak [2], bylo by moˇzné vyuˇz´ıt PDT, jsou vˇsak problémy s pˇrevodem neprojektivn´ıch konstrukc´ı, které nelze zachytit ve sloˇzkovém formalismu. (O neprojektivn´ı konstrukci v závislostn´ım stromˇe mluv´ıme tehdy, kdyˇz mnoˇzina závislost´ı jednoho uzlu netvoˇr´ı souvisly´ usek ´ v rámci vˇety, viz napˇr. [27].) Problém s pˇrevodem závislostn´ıch a sloˇzkovych ´ reprezentac´ı syntaxe je také hlavn´ı pˇr´ıcˇ inou toho, zˇ e se dosud nepodaˇrilo uspokojivˇe srovnat kvalitu praˇzskych závislosn´ıch analyzátoru˚ s analyzátorem synt. Vysledky ´ ´ zat´ım jediného pokusu o srovnán´ı je moˇzno nalézt v [13]. Na základˇe vy´ sledku˚ zde uvedenych ´ lze soudit, zˇ e pˇresnost analyzátoru synt (mˇerˇeno metrikou LAA) se pohybuje mezi 70 a 90 procenty. Tento udaj ´ je vˇsak velmi neurˇcity. ´ 9

2. S YNTAKTICK A´

2.3


Parciáln´ı syntaktická analyza ´

V pˇredcházej´ıc´ıch cˇ a´ stech jsme se zabyvali syntaktickou analyzou uplnou, ´ ´ ´ jej´ımˇz c´ılem je z´ıskat upln ´ y´ syntakticky´ strom vstupn´ı vˇety. C´ılem parciáln´ı syntaktické analyzy ´ (tézˇ shallow parsing ) je z´ıskat z vˇety pouze nˇekteré syntaktické informace, napˇr. hranice jmennych ych ´ fráz´ı a jinych ´ vyznamn ´ ´ vˇetnych ´ skupin, nikoli kompletn´ı strom vˇety. Základn´ı techniky parciáln´ı syntaktické analyzy ´ jsou shrnuty v [1], parciáln´ı syntaktickou analyzou cˇ eˇstiny a jej´ım vyuˇzit´ım se zabyv´ ´ ´ a práce [26]. Za jednu z technik parciáln´ı analyzy ˚ zeme oznaˇcit i formalismus ´ jazyka muˇ pro tzv. word sketches, urˇceny´ zejména pro vyhledáván´ı cˇ astych ´ kolokac´ı v jazykovych korpusech [23]. ´ V této práci se zabyv´ ´ syntaktickou analyzou, ne´ ame pˇredevˇs´ım uplnou ´ budeme tedy zab´ıhat do vˇetˇs´ıch detailu. ˚ Metoda analyzy, kterou v dalˇ s ´ıch ´ kapitolách navrhujeme, má vˇsak s technikami parciáln´ı analyzy nˇekteré ´ rysy spoleˇcné, jak uvid´ıme dále. V návrhu vyuˇz´ıváme nˇekterych d´ılˇc´ıch ´ (parciáln´ıch) syntaktickych ´ informac´ı v nˇekolika vrstvách k tomu, abychom z´ıskali uplnou ´ analyzu vstupn´ı vˇety. Navrˇzeny´ systém se dokonce dá cˇ a´ s´ teˇcnˇe pro parciáln´ı syntaktickou analyzu pouˇz´ıt, i kdyˇz to nebylo primár´ n´ım c´ılem.

2.4

Problémy v syntaktické analyze ´

Kromˇe jiˇz zm´ınˇenych ´ problému˚ s mˇerˇen´ım pˇresnosti a jej´ım srovnáván´ım existuje v oblasti syntaktické analyzy ´ rˇada dalˇs´ıch. Nˇekteré z nich jsou omezeny na jednotlivé pouˇzité formalismy, jiné lze chápat jako komplexn´ı problémy analyzy ˚ V této sekci nˇekteré z takovych ´ pˇrirozenych ´ jazyku. ´ problému˚ zm´ın´ıme. 2.4.1 N´ızká pˇresnost analyzy ´ N´ızká uspˇ ´ esˇ nost je kl´ıcˇ ovym ´ problémem v oblasti syntaktické analyzy ´ pˇrirozenych jazyku. ˚ Nejlepˇs´ı dosahované vysledky se pro cˇ eˇstinu pohybuj´ı ´ ´ okolo 85 procent, coˇz pˇri prumˇ ˚ erné délce vˇety 17 slov6 znamená zhruba 2,5 chyby na kaˇzdou vˇetu. Takováto chybovost je neunosn´ ´ a témˇerˇ pro vˇsechny dalˇs´ı potenciáln´ı aplikace vystup u˚ analyzy. Z tohoto duvodu ˚ jsou také vyv´ıjeny stále nové ´ ´ pˇr´ıstupy k syntaktické analyze ˚ mimo jiné vznikla i tato ´ a z tohoto duvodu práce. 6. Mˇerˇ eˇ no na PDT.

10

2. S YNTAKTICK A´


2.4.2 V´ıceznaˇcnost analyzy ´ V´ıceznaˇcnost (ambiguita) je problémem na vˇsech urovn´ ´ ıch analyzy pˇriro´ zeného jazyka. Na urovni ´ syntaxe je cˇ asto dokonce nemoˇzné rozhodnout, které ze dvou moˇznych ´ cˇ ten´ı je správné. Jako pˇr´ıklad nám muˇ ˚ ze poslouˇzit vˇeta: ,,Karel pronásledoval muˇze na kole.” Z takto samostatnˇe uvedené vˇety nelze urˇcit, zda se fráze na kole poj´ı se jménem muˇz cˇ i s dˇejem pronásledován´ı. V tomto pˇr´ıpadˇe by cˇ lovˇeku patrnˇe pomohl sˇ irˇs´ı kontext textu, ten ale syntaktické analyzátory zpravidla nevid´ı. V pˇr´ıpadˇe brnˇenského analyzátoru synt zpusobuje ˚ problém v´ıceznaˇcnosti extrémn´ı mnoˇzstv´ı stromu˚ na vystupu (aˇz miliardy) pro nˇekteré vˇety. ´ Duvodem ˚ nen´ı jen vnitˇrn´ı v´ıceznaˇcnost syntaxe, ale i fakt, zˇ e princip analy´ zy implementovany´ v systému zohlednuje ˇ pouze morfologickou informaci vstupn´ıch slov – tedy napˇr. fráze ,,d´ıvka od rána zp´ıvala” je pro nˇej nerozeznatelná od fráze ,,d´ıvka z vesnice zp´ıvala” a urˇcuje tedy vˇzdy vˇsechny moˇznosti, coˇz ve vysledku muˇ ˚ ze zpusobit ˚ exponenciáln´ı nárust ˚ poˇctu stro´ mu. ˚ Praˇzské závislostn´ı analyzátory v´ıceznaˇcnost prakticky neuvaˇzuj´ı, jejich vystupem je vˇzdy jediná analyza. Pro vˇsechny souˇcasné myslitelné aplikace ´ ´ to asi dostaˇcuje, nicménˇe v budoucnu se patrnˇe bude muset vyˇreˇsit problém zpˇetné aplikace informac´ı z vyˇssˇ´ıch vrstev analyzy syn´ jazyka na analyzu ´ taktickou, nebot’ syntaktické cˇ ten´ı muˇ ˚ ze byt e ovlivnˇeno sémanti´ vyznamnˇ ´ kou vypovˇ edi, sémantikou kontextu, situac´ı promluvy a podobnˇe. Vubec ˚ ´ zde pˇritom neuvaˇzujeme takové pˇr´ıpady jako je v´ıceznaˇcnost zamyˇ ´ slená, objevuj´ıc´ı se napˇr´ıklad v anekdotách cˇ i v poezii, nebot’ analyza ´ takovychto ´ jevu˚ je záleˇzitost´ı sp´ısˇ e vzdálenˇejˇs´ı budoucnosti. 2.4.3 Subjektivita syntaxe Tento problém se dá s trochou nadsázky formulovat jako ,,co cˇ lovˇek, to názor”. Tento princip plat´ı i v syntaxi – i v rámci jednoho projektu cˇ i jedné pracovn´ı skupiny se lidé cˇ asto neshodnou, jak má vypadat správná analyza ´ nˇekterych ˚ Napˇr´ıklad pro vˇetu ,,Faxu sˇ kod´ı pˇredevˇs´ım ´ syntaktickych ´ jevu. pˇret´ızˇ ené telefonn´ı linky” 7 nen´ı zcela jasné, zda se slovo pˇredevˇs´ım poj´ı sp´ısˇ e ke slovu linky, ke slovesu sˇ kodit, cˇ i dokonce k adjektivu pˇret´ızˇ ené. Vˇetˇs´ı skupina lid´ı se na správném rozhodnut´ı jednoduˇse neshodne.8 7. Uvedeny´ pˇr´ıklad je reálnou vˇetou z PDT. 8. Podkladem pro toto tvrzen´ı je autorovi diskuse, která probˇehla v listopadu 2008 mezi cˇ leny CZPJ FI MU a drobny´ pruzkum ˚ této otázky, ktery´ si následnˇe provedl ve svém okol´ı.

11

2. S YNTAKTICK A´


ˇ asteˇcVyˇ ´ se uvedené bohuˇzel plat´ı i o pracovn´ı skupinˇe anotátoru˚ PDT. C´ nym ´ rˇeˇsen´ım v tomto konkrétn´ım pˇr´ıpadˇe bylo sepsán´ı rozsáhlého manuálu pro anotátory [6], ktery´ urˇcuje, jak maj´ı byt ´ rˇeˇseny nˇekteré sporné a nejednoznaˇcné situace pˇri anotaci. Manuál bohuˇzel ponechává anotátorum ˚ znaˇcnou volnost v rozhodován´ı, nav´ıc ani zdaleka nepokryv´ ´ a vˇsechny sporné pˇr´ıpady (coˇz je také v principu zˇrejmˇe nemoˇzné), napˇr´ıklad pro slovo pˇredevˇs´ım z vˇety v pˇredchoz´ım odstavci v nˇem zˇ a´ dné rˇeˇsen´ı nenajdeme. Ve vysledku se tedy v manuálnˇe anotovanych ´ ´ korpusovych ´ datech mohou vyskytnout (a vyskytuj´ı) pomˇernˇe vyrazn´ e nekonzistence. ´ Vyvstává tedy otázka, zda je námi zvoleny´ (a vˇseobecnˇe pouˇz´ıvany) ´ pˇr´ıstup k syntaxi správny. ´ Pˇrestoˇze se totiˇz lidé neshodnou na tom, co dˇelat se slovem pˇredevˇs´ım z diskutovaného pˇr´ıkladu, evidentnˇe jsou schopni pro uˇ ´ cely bˇezˇ né komunikace vˇetu správnˇe pochopit a porozumˇet j´ı (podobnˇe jako je tomu u mnoha dalˇs´ıch bˇezˇ nych ´ jevu˚ v jazyce, které se obt´ızˇ nˇe vyjadˇruj´ı v tradiˇcn´ıch formalismech pro syntaxi a které zde pro nedostatek prostoru neuvád´ıme). Na tomto m´ıstˇe se spokoj´ıme s prohlásˇ en´ım, zˇ e zˇ a´ dné lepˇs´ı pojet´ı syntaxe zat´ım bohuˇzel neexistuje a návrh nového je ukolem, ´ ktery´ znaˇcnˇe pˇresahuje moˇznosti a rámec této práce. Nicménˇe, téma této sekce je jistˇe hodno dalˇs´ıho zpracován´ı. V dalˇs´ım textu práce se k tomuto tématu cˇ a´ steˇcnˇe vrát´ıme v cˇ a´ sti 5.2.1. 2.4.4 Urˇcován´ı spornych ´ a nadbyteˇcnych ´ jevu˚ Tento posledn´ı zminovan ˇ y´ nedostatek souˇcasného pˇr´ıstupu k syntaktické analyze ´ je znaˇcnˇe pˇr´ıbuzny´ pˇredchoz´ım dvˇema. Jádrem problému je fakt, zˇ e zvoleny´ syntakticky´ formalismus nás nut´ı nˇejakym ˚ rozhodo´ zpusobem vat o struktuˇre jevu, ˚ u nichˇz je sporné cˇ i irelevantn´ı, která z nab´ızej´ıc´ıch se moˇznost´ı je správná. Pˇr´ıkladem muˇ ˚ ze byt ´ slovo pˇredevˇs´ım z pˇredchoz´ı podkapitoly; tento problém jsme jiˇz zm´ınili a jeho rˇeˇsen´ı oznaˇcili v rámci této práce za nedosaˇzitelné. Existuj´ı vˇsak i jiné typy struktur, u kterych ´ se problém urˇcován´ı nadbyteˇcnych eji a jejichˇz rˇeˇsen´ı mohou byt ´ jevu˚ objevuje vyraznˇ ´ ´ pˇr´ımoˇcarˇejˇs´ı – jedno z nich navrhujeme v sekci 3.2.4. Následuj´ı pˇr´ıklady z jednotlivych ˚ ´ formalismu. Za pˇr´ıklad nadbyteˇcné informace v pˇr´ıpadˇe závislostn´ıho formalismu muˇ ˚ zeme bez rozpaku˚ oznaˇcit témˇerˇ vˇsechny problémy rozeb´ırané v odd´ılu 3.7.2. Návodu pro anotátory [6]. Jedná se zde o zachycen´ı struktury textu adres, názvu˚ firem vˇcetnˇe telefonn´ıch cˇ ´ısel apod. Poˇzadavek formalismu, podle nˇehoˇz má byt ´ kaˇzdé slovo (vˇcetnˇe interpunkce) zavˇesˇ eno právˇe na 12

2. S YNTAKTICK A´


Obrázek 2.3: Instrukce pro anotaci vˇety ,,Vˇred, tel. / fax : (069) 23 13 98, l. 260.” v PDT. Pˇrevzato z Návodu pro anotátory. jednom dalˇs´ım slovˇe, zde vytvárˇ´ı komplexn´ı struktury, které jsou vˇsak v drtivé vˇetˇsinˇe pˇr´ıpadu˚ zbyteˇcné a pro cˇ lovˇeka naprosto neintuitivn´ı. Napˇr. v pˇr´ıpadˇe vˇety ,,Vˇred, tel. / fax : (069) 23 13 98, l. 260.” – viz obrázek 2.3 – nám závislostn´ı analyza ´ zˇrejmˇe nedává témˇerˇ zˇ a´ dnou smysluplnou informaci. Je otázkou, zda by takovéto ,,vˇety” vubec ˚ mˇely byt ´ zaˇrazovány do jazykového korpusu typu PDT. Pˇr´ıkladem nadbyteˇcné informace ve sloˇzkovém formalismu je struktura sloˇzitˇejˇs´ıch jmennych ´ fráz´ı. V pˇr´ıpadˇe fráze ,,n´ızká rychlost pˇrenosu” nás formalismus (alesponˇ v jeho souˇcasné podobˇe v analyzátoru synt) nut´ı zvolit mezi dvˇema moˇznymi uzávorkován´ımi – (n´ızká rychlost) pˇrenosu ´ vs. n´ızká (rychlost pˇrenosu). Je zˇrejmé, zˇ e obˇe uzávorkován´ı jsou ekvivalentn´ı, cˇ lovˇek nen´ı schopen rozhodnout, které z nich je lepˇs´ı. Takovychto pˇr´ıkladu˚ je v obou pˇredstavenych formalismech v´ıce. Je´ ´ jich dusledkem ˚ jsou mj. nekonzistence v anotovanych ´ datech, a následnˇe sn´ızˇ ená objektivita hodnocen´ı vysledk u˚ analyzátoru. ˚ Jiinak rˇ eˇceno, v tˇech´ to pˇr´ıpadech nejsou lidé schopni správné rˇeˇsen´ı urˇcit, pˇresto ale chceme po analyzátorech, aby volily správnˇe.

13

Kapitola 3

Metoda postupné segmentace vˇety V této kapitole pop´ısˇ eme základn´ı principy nového pˇr´ıstupu k syntaktické analyze, zaloˇzeného na postupné segmentaci vˇety. Nejprve uvedeme nˇeko´ lik pozorován´ı o analyze ´ jazyku˚ a vyslov´ıme neformáln´ı závˇery, ke kterym ´ nás tato pozorován´ı pˇrivedla. Následnˇe pop´ısˇ eme navrhovanou metodu v´ıce podrobnˇe a uvedeme jej´ı vztahy k ostatn´ım formalismum. ˚ Konkrétn´ı aplikace metody, analyzátor SET, bude nápln´ı kapitoly následuj´ıc´ı.

3.1

´ Uvodn´ ı pozorován´ı o syntaxi

V této sekci uvedeme nˇekolik pozorován´ı o syntaxi nejen pˇrirozenych ´ jazyku, ˚ která nám poslouˇz´ı jako evidence pro nˇekteré závˇery, které následnˇe pˇredstav´ıme. V dalˇs´ıch sekc´ıch pak rozvedeme návrh metody analyzy, k n´ızˇ ´ nás tyto závˇery pˇrivedly. 3.1.1 Pozorován´ı prvn´ı: Obt´ızˇ e v návrhu gramatiky Jak jiˇz cˇ a´ steˇcnˇe vyplynulo z udaj ´ u˚ uvedenych ´ v cˇ a´ sti 2.4, formulace pravidel v tradiˇcn´ıch formalismech je velmi nároˇcnym ´ Sloˇzitost jevu˚ ´ ukolem. v pˇrirozeném jazyce nám neumoˇznuje ˇ obsáhnout plny´ rozsah jazyka relativnˇe jednoduchou gramatikou bez vedlejˇs´ıch efektu, ˚ které se následnˇe projevuj´ı n´ızkou pˇresnost´ı cˇ i vysokou v´ıceznaˇcnost´ı vystupu analyzy. Velkou ´ ´ komplikac´ı v pˇr´ıpadˇe cˇ eˇstiny je tézˇ relativnˇe volny´ poˇra´ dek slov ve vˇetˇe. Pro analyzátory zaloˇzené na statistickém uˇcen´ı z korpusovych ˚ ´ dat muzˇ eme uˇcinit podobny´ závˇer; tyto nástroje v trénovac´ı fázi (zjednoduˇsenˇe rˇeˇceno) vyv´ıjej´ı svou sadu pravidel, která pak aplikuj´ı ve fázi analyzy. Z vy´ ´ sledné n´ızké pˇresnosti lze soudit, zˇ e trénovac´ı data nebo formalismus pouzˇ ity´ pro nauˇcená pravidla (pˇr´ıpadnˇe oboj´ı) jsou nedostateˇcné. Pro ilustraci uvaˇzme následuj´ıc´ı pˇr´ıklad návrhu jednoduché bezkontextové gramatiky pro analyzu cˇ eskych ´ ´ jmennych ´ fráz´ı (pˇr´ıklad je vykonstruován a znaˇcnˇe zjednoduˇsen, pˇresto vˇsak reflektuje reálny´ problém – v tomto pˇr´ıpadˇe problém analyzátoru synt): 14

3. M ETODA •

NP → N

•

N P → ADJ

•

N P → ADJ N P

•

NP → NP NP

´ SEGMENTACE V Eˇ TY POSTUPN E

(napˇr. ,,pes”) (napˇr. ,,ˇcervená (je pˇekná barva)”) (napˇr. ,,velky´ pes”) (napˇr. ,,královna krásy”)

Tato gramatika dává pro analyzu elementárn´ı fráze ,,velky´ cˇ erny´ pes” ´ v principu 5 moˇznych ´ analyz. ´ Pokud nam´ısto fráze o tˇrech slovech budeme uvaˇzovat dvacetislovnou vˇetu, exponenciáln´ı poˇcet stromu˚ na vystupu ne´ bude jiˇz zˇ a´ dnym ´ pˇrekvapen´ım. Gramatiku by samozˇrejmˇe bylo moˇzno optimalizovat, ovˇsem za cenu nárustu ˚ jej´ı velikosti a sloˇzitosti, ktery´ by komplikoval jej´ı dalˇs´ı vyvoj. ´ 3.1.2 Pozorován´ı druhé: Negramatické konstrukce Jak v pˇr´ıpadˇe formálnˇe definovanych ˚ tak ´ (napˇr. programovac´ıch) jazyku, v pˇr´ıpadˇe jazyku˚ pˇrirozenych je známou pravdou, zˇ e lidé bez problému˚ ´ dokázˇ ´ı analyzovat informaci obsaˇzenou v negramatickych ´ kostrukc´ıch, tj. takovych, ve kterych ´ ´ jsou formáln´ı chyby. Bez této dovednosti by napˇr´ıklad programátoˇri nemohli opravovat chyby ve vytvoˇreném kodu ´ a stejnˇe tak ’ práce jazykovych ´ korektoru˚ by byla zcela nemoˇznou, nebot jedni ani druz´ı by nebyli schopni pochopit zamyˇ opravovaného textu. ´ sleny´ vyznam ´ Samozˇrejmˇe, tato schopnost je omezena jen na jisté druhy gramatickych ´ chyb – jak ve formáln´ıch, tak v pˇrirozenych ´ jazyc´ıch existuj´ı chyby, které podstatnˇe zmˇen´ı vyznam textu a znemoˇzn´ı cˇ tenárˇi textu v puvodn´ ˚ ım vy´ ´ znamu porozumˇet. Dovolujeme si vˇsak tvrdit, zˇ e takovychto chyb je v pˇri´ rozenych ´ jazyc´ıch menˇsina. Pro ilustraci uvád´ıme pˇr´ıklad dvou negramatickych ´ konstrukc´ı, kterym ´ lidé ovládaj´ıc´ı dany´ jazyk bez problému˚ porozum´ı (a pˇr´ıpadnˇe dokázˇ ´ı pˇr´ıtomné chyby opravit). Prvn´ı pˇr´ıklad se tyk´ ´ a jazyka C jako reprezentanta formáln´ıch jazyku, ˚ druhá konstrukce je v cˇ eˇstinˇe: •

if i % 3 == 0 printf(i);

•

Kdyˇz to neudˇelásˇ zbiju tˇe.

3.1.3 Pozorován´ı tˇret´ı: Kl´ıcˇ ová slova ve formáln´ıch jazyc´ıch V tomto pozorován´ı si vezmeme opˇet jazyk C jako reprezentanta formáln´ıch jazyku. ˚ Uvaˇzujme následuj´ıc´ı jednoduchy´ program: 15

3. M ETODA


int i = 20; while (i > 0) { if (i % 3 == 0) printf("%d", i); i--; }

Pokusme se nyn´ı o interpretaci procesu, jakym ´ cˇ lovˇek, ktery´ do jisté m´ıry ovládá jazyk C, cˇ te dany´ program. Na prvn´ım rˇa´ dku podle kl´ıcˇ ového slova int pozná, zˇ e se zavád´ı nová promˇenná. Podle dalˇs´ıch informac´ı na tomtézˇ rˇa´ dku usoud´ı, zˇ e promˇenná se jmenuje i a jej´ı iniciáln´ı hodnota je 20. V dalˇs´ım rˇa´ dku s pomoc´ı kl´ıcˇ ového slova while rozezná, zˇ e na tomto m´ıstˇe zaˇc´ıná cyklus; podle pˇr´ısluˇsnych ´ sloˇzenych ´ závorek pak urˇc´ı jeho rozsah. Podle podm´ınky v kulatych ´ závorkách zase muˇ ˚ ze udˇelat závˇer o tom, kdy tento cyklus skonˇc´ı. Takto bychom mohli dále pokraˇcovat aˇz do upln´ ´ eho porozumˇen´ı programu. Nyn´ı si poloˇzme otázku, jakym ˚ provád´ı analyzu stejného ´ zpusobem ´ programu kompilátor (poˇc´ıtaˇc). Bezpochyby implementuje nˇejakou formu LR cˇ i LALR analyzátoru, coˇz znamená, zˇ e naˇc´ıtá jedno vstupn´ı slovo (token) po druhém a postupnˇe nad nimi stav´ı syntakticky´ strom podle gramatiky pro jazyk C. O pˇresné podobˇe procesu lidského chápán´ı programu by se jistˇe dalo dlouze diskutovat, nicménˇe muˇ ˚ zeme s velkou m´ırou jistoty rˇ´ıci, zˇ e je znaˇcnˇe odliˇsná od procesu, jakym ´ programu rozum´ı kompilátor. Kdyby tomu tak nebylo, programátoˇri by nedˇelali chyby. Dále muˇ ˚ zeme rˇ´ıci, zˇ e lidské cˇ ten´ı programu je daleko v´ıce závislé na kl´ıcˇ ovych int, while, if a printf spolu s pˇr´ısluˇsnymi ´ slovech jazyka. Vyrazy ´ ´ závorkami vyznaˇcuj´ıc´ımi rozsah pˇrisp´ıvaj´ı k celkovému pochopen´ı struktury programu, zat´ımco napˇr´ıklad podm´ınky v kulatych závorkách jsou ´ relativnˇe druhoˇradé a pro rámcové pochopen´ı vypoˇ ´ cetn´ıho toku programu nejsou zapotˇreb´ı. Pro zaj´ımavost srovnejme informaˇcn´ı hodnotu programu s vypuˇstˇenymi kl´ıcˇ ovymi slovy s hodnotou programu, obsahuj´ıc´ı pouze ´ ´ kl´ıcˇ ová slova: 16

3. M ETODA


xxx i = 20; xxx (i > 0) xxx (i % 3 == 0) xxx("%d", i); i--; ================================== int xxx; while xxx { if xxx printf xxx; xxx; } Pokud muˇ ˚ zeme mluvit o m´ırˇe pochopen´ı u tˇechto ,,programu”, ˚ je tato m´ıra u druhého z nich jistˇe vyˇssˇ´ı, pˇrestoˇze tento obsahuje daleko menˇs´ı zlomek textu puvodn´ ˚ ıho programu (poˇc´ıtáno v tokenech). Pro upln´ ´ e pochopen´ı samozˇrejmˇe potˇrebujeme informace upln´ ´ e, nicménˇe vyˇ ´ se uvedenym ´ pˇr´ıkladem jsme ukázali, zˇ e v procesu lidského porozumˇen´ı programu mohou m´ıt ruzn´ ˚ e tokeny ruznou ˚ váhu. Zejména je tˇreba vˇs´ımat si nejprve kl´ıcˇ ovych slov programu a teprve potom zbylych kon´ ´ strukc´ı. Z tohoto duvodu ˚ je také ve vyvojov ych ´ ´ prostˇred´ıch pro vˇetˇsinu programovac´ıch jazyku˚ hojnˇe vyuˇz´ıváno zvyraznˇ en´ı syntaxe, které vyznamnˇ e ´ ´ pomáhá programátorovi pˇri cˇ ten´ı a analyze ´ programu. ´ zdrojového kodu

3.1.4 Pozorován´ı cˇ tvrté: Kl´ıcˇ ová slova v pˇrirozenych ´ jazyc´ıch Název této kapitoly muˇ ˚ ze byt kl´ıcˇ ová slova ´ ponˇekud zavádˇej´ıc´ı – vyrazem ´ se v souvislosti s pˇrirozenym ´ jazykem obvykle m´ın´ı souhrn nˇekolika slov urˇcuj´ıc´ıch téma textu. Zde budeme tento vyraz pouˇz´ıvat pro slova syn´ takticky vyznamn´ a, tj. ve stejném vyznamu jako v pˇredchoz´ı podkapitole, ´ ´ tykaj´ ˚ ´ ıc´ı se programovac´ıch jazyku. Kl´ıcˇ ová slova v pˇrirozenych jazyc´ıch funguj´ı ve skuteˇcnosti obdobnˇe ´ jako kl´ıcˇ ová slova ve formáln´ıch jazyc´ıch – aniˇz bychom vidˇeli celou vˇetu, dokázˇ eme jej´ı rámcovou strukturu urˇcit pomoc´ı nˇekolika málo typu˚ slov. Pˇr´ıklad vˇety:

Aˇz pˇrijdete domu, ˚ udˇelejte si malou modn´ ´ ı pˇrehl´ıdku. 17

3. M ETODA


A jej´ı pˇrepis pouze s ,,kl´ıcˇ ovymi slovy” ve dvou moˇznych podobách ´ ´ (podle toho, která slova jeˇstˇe povaˇzujeme za kl´ıcˇ ová):

Aˇz xxx , xxx . Aˇz pˇrijdete xxx , udˇelejte xxx . Pomˇernˇe zˇretelnˇe vid´ıme, zˇ e znaˇcnou cˇ a´ st struktury vˇety lze odhalit pouze na základˇe nˇekterych cnych slov ve vˇetˇe (to, jestli slovesa ´ vyznaˇ ´ ´ (kl´ıcˇ ovych) ´ povaˇzujeme za kl´ıcˇ ová slova, je v tuto chv´ıli nepodstatné). Pˇritom identifikace tˇechto kl´ıcˇ ovych ´ slov je cˇ asto v mnohych ´ ohledech jednoznaˇcná (coˇz je v analyze ´ jazyka velmi pˇr´ıjemná vyjimka). ´ Detekc´ı a pouˇzit´ım nˇekterych ´ kl´ıcˇ ovych ´ slov v naˇsem pojet´ı se zabyvali ´ autoˇri v [21]. Zde byla kl´ıcˇ ová slova pouˇz´ıvána k segmentaci komplexn´ıch vˇet na menˇs´ı celky. Bylo ukázáno, zˇ e proces segmentace je popsatelny´ nˇekolika jednoduchymi pravidly a je do velké m´ıry jednoznaˇcny. ´ ´ Tento cˇ lánek se cˇ a´ steˇcnˇe stal inspirac´ı k naˇsemu pˇr´ıstupu, popisovanému n´ızˇ e. V dalˇs´ım textu budeme pracovat s hypotézou, podle n´ızˇ si lidsky´ mozek pˇri cˇ ten´ı textu nejprve vˇs´ımá syntakticky kl´ıcˇ ovych ´ slov, jak byla pˇredstavena, a na jejich základˇe rozpoznává jisté strukturáln´ı informace ve vˇetˇe obsaˇzené. Teprve potom analyzuje dalˇs´ı, podrobnˇejˇs´ı strukturu vˇety, podobnˇe jako v pˇr´ıpadˇe analyzy ´ programovac´ıch jazyku˚ z pˇredchoz´ı podkapi´ kodu toly. Tato hypotéza zde nebyla nijak formálnˇe dokázána (formáln´ı dukaz ˚ je patrnˇe v otázkách pruzkumu ˚ procesu˚ v lidském mozku nemoˇzny), ´ nicménˇe byla pˇredloˇzena evidence dokládaj´ıc´ı, zˇ e nˇekteré prvky textu jsou pro lidsky´ mozek vyznamnˇ ejˇs´ı neˇz jiné, at’ jiˇz máme na mysli formáln´ı jazyky cˇ i ´ jazyky pˇrirozené.

3.2

Syntaktická analyza ´ s vyuˇzit´ım postupné segmentace vˇety

Formulace právˇe uvedené hypotézy nám nyn´ı jiˇz relativnˇe snadno pomuˇ ˚ ze vyjádˇrit principy, jichˇz chceme vyuˇz´ıt v návrhu nové metody syntaktické analyzy ´ cˇ eˇstiny. V této sekci pop´ısˇ eme návrh techniky analyzy ´ sp´ısˇ e obecnˇe, genericky, konkrétn´ı realizac´ı se zabyv´ ´ ame v následuj´ıc´ı kapitole. Zaˇcneme nácˇ rtem obecnych principu, ˚ následnˇe budeme naˇsi pˇredstavu postupnˇe ´ konkretizovat. 3.2.1 Základn´ı principy Závˇery z pozorován´ı a základn´ı principy metody v bodech: 18

3. M ETODA


•

ˇ Clovˇ ek pˇri analyze bodu˚ ve vˇetˇe, ´ jazyka vyuˇz´ıvá detekci kl´ıcˇ ovych ´ na základˇe z´ıskanych ´ informac´ı analyzuje vˇetu ,,nahrubo” a poté pokraˇcuje v detekci jemnˇejˇs´ıch podstruktur.

•

Je velmi obt´ızˇ né popsat tento proces tradiˇcn´ımi formalismy, viz pozorován´ı prvn´ı.

•

Architektura budouc´ıho systému by se tedy mˇela co nejv´ıce bl´ızˇ it hypotéze o fungován´ı lidského mozku pˇri analyze ´ jazyka.

•

Nejprve se soustˇred´ıme na prvky textu, které lze urˇcit relativnˇe snadno a jednoznaˇcnˇe, dále pokraˇcujeme komplikovanˇejˇs´ı analyzou. ´

•

Detekce kl´ıcˇ ovych ´ ıch; v kaˇz´ bodu˚ prob´ıhá v nˇekolika fáz´ıch cˇ i urovn´ dé dalˇs´ı fázi vyuˇz´ıváme vysledk u˚ pˇredchoz´ı analyzy ´ ´ (napˇr. postupná segmentace vˇety podle nalezenych ´ kl´ıcˇ ovych ´ bodu˚ zajist´ı menˇs´ı rozsah nalezenych ´ segmentu˚ a snazˇs´ı dalˇs´ı zpracován´ı jednotlivych ´ segmentu). ˚

•

Detekci kl´ıcˇ ovych ´ slov a vyznaˇcován´ı nalezenych ´ syntaktickych ´ vztahu˚ v segmentu obstarávaj´ı pˇredevˇs´ım manuálnˇe vytvoˇrená pravidla. Syntaktické vztahy jsou vyznaˇcovány referencemi mezi slovy segmentu a pˇridáván´ım sloˇzkovych ´ elementu˚ do segmentu (viz dále).

•

Na kaˇzdé urovni ´ analyzy pˇripouˇst´ıme v´ıceznaˇcnost jako normáln´ı ´ jev provázej´ıc´ı pˇrirozené jazyky – tuto v´ıceznaˇcnost budeme jistym ´ zpusobem ˚ prom´ıtat i do vystupu. ´

•

Na kaˇzdé urovni ´ analyzy ´ vˇsak také zavedeme tˇr´ıd´ıc´ı (hodnot´ıc´ı) funkce, které vyberou nejpravdˇepodobnˇejˇs´ı z rozpoznanych struktur a ´ v dalˇs´ıch urovn´ ´ ıch pak pracujeme jen s touto nejlepˇs´ı analyzou (duvo˚ ´ dem tohoto postupu je efektivita vysledn´ eho algoritmu, vˇetˇs´ı samo´ statnost jednotlivych ´ vrstev a transparentnost celého postupu analy´ zy)

•

Pˇri implementaci pravidel a tˇr´ıd´ıc´ıch funkc´ı se budeme snaˇzit o maximáln´ı pˇrehlednost, deklarativnost, modularitu a rozˇsiˇritelnost programu.

3.2.2 Schéma algoritmu Nyn´ı pˇristoup´ıme k v´ıce formáln´ımu popisu algoritmu analyzy. ´ 19

3. M ETODA


Uvaˇzujme posloupnost U = [U1 , U2 , ..., Un ] urovn´ ´ ı analyzy. Kaˇzdá z u´ ´ rovn´ı Ui pˇredstavuje mnoˇzinu pravidel dané urovnˇ ´ e, tedy Ui = {Pi,1 , Pi,2 , ..., Pi,m } Necht’ na vstupu je vˇeta (segment) S. Algoritmus analyzy procház´ı jednu ´ urove ´ nˇ po druhé a snaˇz´ı se naj´ıt realizaci (tézˇ match ) kaˇzdého pravidla z pˇr´ısluˇsné mnoˇziny v daném segmentu. Pokud jsou nalezeny realizace, jsou vybrány nejlepˇs´ı nekonfliktn´ı z nich a v segmentu jsou vyznaˇceny pˇr´ısluˇsné syntaktické vztahy. Podle aktuáln´ı urovnˇ ´ e Ui mohou byt ´ v segmentu vytvoˇreny subsegmenty Si,1 , Si,2 ..., Si,p , na kterych spouˇst´ıme rekurzivnˇe. Du˚ ´ pak analyzu ´ sledkem vytvoˇren´ı subsegmentu˚ je mj. to, zˇ e nemohou byt ´ pˇridávány zˇ a´ dné dalˇs´ı vztahy mezi prvky z odliˇsnych ´ subsegmentu˚ Sa,b , Sc,d , kde a 6= c nebo b 6= d. Toto muˇ ˚ ze byt ´ uˇziteˇcné napˇr. pˇri analyze ´ vsuvek cˇ i relativn´ıch vˇet – vytvoˇren´ı subsegmentu pro relativn´ı vˇetu zpusob´ ˚ ı jej´ı oddˇelen´ı od zbytku vˇety, ktery´ dále nen´ı v analyze uvaˇ z ov´ a n (a symetricky, relativn´ı vˇeta nen´ı ´ dále uvaˇzována v analyze ´ zbytku segmentu). Preciznˇeji ve formˇe pseudokodu ´ je idea algoritmu znázornˇena na obrázku 3.1.

3.2.3 Pravidla a realizace V této cˇ a´ sti upˇresn´ıme pojem pravidla a jeho realizace v daném segmentu. Jako motivaˇcn´ı pˇr´ıklad nám poslouˇz´ı následuj´ıc´ı pˇredstava. Chceme, aby zápis typu adj ... noun

AGREE 0 2 gnc

MARK 0

DEP 2

umoˇznil nalézt ve vstupn´ım segmentu vˇsechna pˇr´ıdavná jména následovaná (ne nutnˇe bezprostˇrednˇe) podstatnym ´ jménem taková, zˇ e obˇe slova se shoduj´ı v rodˇe, cˇ ´ısle a pádˇe. Zárovenˇ má uvedeny´ zápis vyznaˇcit závislost pˇr´ıdavného jména na pˇr´ısluˇsném substantivu. Nyn´ı formálnˇeji. Kaˇzdé pravidlo Pi,j se skládá ze sˇ ablony Ti,j a mnoˇziny akc´ı Ai,j . 20

3. M ETODA


function parse(segment S): -------------------------init(U);

// inicializuj mnoˇ zinu ´ urovn´ ı

for level in U˜do begin found_matches := {}; for rule in level do begin new_matches := find_matches(rule, S); // najdi realizace pravidla v˜segmentu found_matches := found_matches + new_matches; end; best_matches := select_best_matches( found_matches, level); // vyber nejlepˇ s´ ı nekonfliktn´ ı realizace for match in best_matches do begin // pˇ ridej do segmentu pˇ r´ ısluˇ sn´ e vztahy add_relationships(S, match); if creates_subsegments(level) then begin SS := create_subsegment(S, match); parse(SS); end; end; end; Obrázek 3.1: Pseudokod ´ algoritmu analyzy ´

21

3. M ETODA


ˇ Sablona je posloupnost znaˇcek [z1 , z2 , ..., zn ], kde kaˇzdá znaˇcka reprezentuje jedno nebo v´ıce slov segmentu (u kaˇzdé znaˇcky je pˇritom pevnˇe urˇceno, zda muˇ ˚ ze cˇ i nemuˇ ˚ ze reprezentovat v´ıce slov). Kaˇzdá znaˇcka dále definuje podm´ınky urˇcuj´ıc´ı, která slova muˇ ˚ ze reprezentovat. Tyto podm´ınky mohou omezovat tvar slova, lemma, morfologickou znaˇcku a pˇr´ıpadnˇe dalˇs´ı atributy dostupné pro prvky vstupn´ıho segmentu. Pˇred objasnˇen´ım pojmu akce nejprve definujeme realizaci pravidla. Budeme uvaˇzovat segment S jako posloupnost vstupn´ıch slov [s1 , s2 , ..., sm ]. Realizace pravidla je pak poslounost uspoˇra´ danych ´ dvojic [(zi1 , sj ), (zi2 , sj+1 ), ..., (ziq , sj+q−1 )] taková, zˇ e i1 = 1, iq = n, dále ik+1 = ik + 1 (pokud zik reprezentuje právˇe jedno vstupn´ı slovo) nebo ik+1 = ik (jen pokud zik reprezentuje v´ıce vstupn´ıch slov) a koneˇcnˇe pro kaˇzdou dvojici posloupnosti (z, s) plat´ı, zˇ e s splnuje ˇ vˇsechny podm´ınky definované znaˇckou z. Definovali jsme tedy relaci, která souvislé podposloupnosti vstupn´ıch slov pˇriˇrad´ı podle urˇcitych ´ pravidel znaˇcky ze sˇ ablony pravidla. Tuto relaci budeme nazyvat realizace. ´ Mnoˇzina akc´ı A obsahuje akce provádˇené nad realizac´ı pravidla, resp. nad prvky segmentu, kterym ´ je v realizaci pˇriˇrazena nˇejaká znaˇcka. Akce mohou byt ´ troj´ıho typu: •

Dalˇs´ı omezen´ı na realizaci. Takováto pravidla vyjadˇruj´ı dalˇs´ı podm´ınky, které mus´ı realizace splnovat ˇ a které nelze vyjádˇrit sˇ ablonou pravidla. Pˇr´ıkladem je test na gramatickou shodu u nˇekterych ´ prvku˚ vstupn´ıho segmentu.

•

Vyznaˇcen´ı dalˇs´ıch atributu˚ realizace. Tyto akce mohou z realizace vybrat nˇekterá (duleˇ ˚ zitá) vstupn´ı slova nebo nastavit pravdˇepodobnostn´ı ohodnocen´ı pˇr´ısluˇsného pravidla. Atributy vyznaˇcené tˇemito akcemi mohou byt ´ dále pouˇzity v tˇr´ıd´ıc´ıch funkc´ıch a mohou je tézˇ vyuˇz´ıvat akce tˇret´ıho typu –

•

Akce pˇridávaj´ıc´ı vztahy do segmentu. Tyto akce rˇ´ıd´ı cˇ innost algoritmu v pˇr´ıpadˇe, zˇ e je pˇr´ısluˇsná realizace vybrána do dalˇs´ı analyzy ´ vybˇ ´ erovou funkc´ı select best matches. Mohou reprezentovat pˇridán´ı závislosti do segmentu nebo pˇridán´ı sloˇzkového uzlu do segmentu (viz tézˇ dále).

Na tomto m´ıstˇe se spokoj´ıme s takto obecnou podobou definice pravidel a jejich realizac´ı. Aktuáln´ı reprezentace pravidel v programu je popsána 22

3. M ETODA


v cˇ a´ sti 4.3, je vˇsak moˇzné, zˇ e konkrétn´ı podoba jejich formátu se bude dále vyv´ıjet, proto povaˇzujeme za vhodné uvést ji oddˇelenˇe. 3.2.4 Formy vystupu ´ V této cˇ a´ sti konkretizujeme formy vystupu navrhovaného analyzátoru. ´ Hybridn´ı syntaktické stromy Vystupem z algoritmu pˇredstaveného v pˇredchoz´ım textu bude segment ´ obohaceny´ o strukturn´ı vztahy mezi jeho prvky, dle realizac´ı pravidel vybranych Abychom se v maximáln´ı m´ırˇe vyhnuli problé´ v procesu analyzy. ´ mum ˚ popsanym kombinaci ´ v cˇ a´ sti 2.4.4, navrhli jsme jako formát vystupu ´ závislostn´ıho a sloˇzkového formátu syntaktickych ˚ v dalˇs´ım textu ´ stromu, hybridn´ı formát. jej budeme nazyvat ´ Syntakticky´ strom v hybridn´ım formátu obsahuje dva typy uzlu: ˚ povrchové, které pˇredstavuj´ı slova vstupn´ı vˇety, a sloˇzkové, pˇredstavuj´ıc´ı sloˇzkové elementy. Jeho hrany se rovnˇezˇ dˇel´ı do dvou skupin. Hrany závislostn´ı vyznaˇcuj´ı závislostn´ı vztahy mezi uzly, stejnˇe jako je tomu u praˇzského závislostn´ıho pˇr´ıstupu. Hrany sloˇzkové vyznaˇcuj´ı pˇr´ısluˇsnost uzlu do sloˇzˇ ıd´ıc´ı uzel sloˇzkové hrany mus´ı byt ky. R´ ´ vˇzdy sloˇzkovy. ´ T´ımto hybridn´ım formátem se snaˇz´ıme reflektovat ruznorodost ˚ syntaktickych ˚ ktery´ je pro nˇej vhodnˇej´ jevu˚ a kaˇzdy´ z nich zachycovat zpusobem, sˇ´ı. Tedy napˇr´ıklad pro analyzu ´ jmenné skupiny (jakou je napˇr. ,,n´ızká rychlost pˇrenosu” ) zvol´ıme závislostn´ı formalismus. Vyhneme se tak problému s dvoj´ım moˇznym ´ uzávorkován´ım, jak byl popsán v cˇ a´ sti 2.4.4. Naopak pro informace typu adres, kod ´ u, ˚ jmen firem a osob apod. vol´ıme formát sloˇzkovy´ (motivace opˇet pocház´ı z cˇ a´ sti 2.4.4). Vˇerˇ´ıme, zˇ e dobry´ analyzátor nemus´ı umˇet urˇcit vnitˇrn´ı strukturu vˇsech moˇznych oznaˇcen´ı ´ kodov´ ´ eho charakteru, jako to vyˇzaduje závislostn´ı formalismus (zabyv´ ´ ame pˇrirozeného jazyka), staˇc´ı, kdyˇz v textu kodov´ ´ a oznaˇcen´ı rozse analyzou ´ pozná a oznaˇc´ı (napˇr. pˇripojen´ım vˇsech slov kodov´ ´ eho oznaˇcen´ı pod jeden pˇridany´ sloˇzkovy´ element). Sloˇzkovy´ pˇr´ıstup pouˇz´ıváme i v pˇr´ıpadˇe analyzy ´ koordinac´ı, nebot’ vyznaˇcen´ı koordinace závislost´ı na spojovac´ım vyrazu (jako je tomu v PDT) ´ povaˇzujeme za znaˇcnˇe matouc´ı jak pro cˇ lovˇeka, jenˇz cˇ te vysledky analyzy, ´ ´ tak pro vlastn´ı analyzátor. Ukázku hybridn´ıho stromu muˇ ˚ zeme vidˇet na obrázku 3.2. Závislostn´ı hrany jsou vyznaˇceny cˇ ernˇe, sloˇzkové modˇre. Sloˇzkové uzly jsou vyznaˇceny rovnˇezˇ modrou barvou a názvem v lomenych ´ závorkách. 23

3. M ETODA


Obrázek 3.2: Ukázka hybridn´ıho stromu pro vˇetu ,,Poˇcet kopi´ı z jedné kazety se pohybuje kolem 9 aˇz 10 tis´ıc.”

Závislostn´ı vystup ´ Protoˇze je velmi zˇ a´ douc´ı, aby správnost vystup u˚ z navrhovaného analyzá´ toru bylo moˇzno zmˇerˇit na korpusu PDT, bude analyzátor schopen poskytovat vystup i v cˇ istˇe závislostn´ım formátu. Toho doc´ıl´ıme tak, zˇ e u kaˇzdého ´ sloˇzkového elementu, pˇridaného do segmentu, urˇc´ıme nejduleˇ ˚ zitˇejˇs´ı slovo (hlavu) tohoto elementu a pˇri pˇrevodu do závislostn´ıho formátu zavˇes´ıme vˇsechny prvky dané sloˇzky na tuto hlavu.

V´ıceznaˇcnost ve vystupu ´ Kromˇe jednoznaˇcného vystupu ve formˇe nejlepˇs´ıch vybranych ´ ´ realizac´ı a syntaktického stromu, ktery´ je jimi urˇcen, chceme na vystupu zachytit i in´ formaci o v´ıceznaˇcnostech v segmentu. Toho dosáhneme vypisem vˇsech nalezenych ´ ´ realizac´ı následovanym ´ vy´ stupem z funkce select best matches, vyb´ıraj´ıc´ı nejlepˇs´ı z nich. Tento pˇr´ıstup nám umoˇzn´ı velmi názorny´ pohled na proces analyzy ´ a kromˇe zachycen´ı pˇr´ıpadnych ´ v´ıceznaˇcnost´ı umoˇzn´ı efektivn´ı ladˇen´ı pravidel a tˇr´ıd´ıc´ıch funkc´ı. 24

3. M ETODA

3.3


Zaˇrazen´ı formalismu

Z pˇredchoz´ıho textu, v nˇemˇz jsme pˇredstavili pˇrevod stromu˚ na vystupu ´ navrhovaného analyzátoru do závislostn´ıho formalismu, jiˇz vyplyv´ ´ a, zˇ e vˇsechny struktury, které lze reprezentovat závislostn´ım formalismem, mu˚ zˇ eme reprezentovat i v námi navrhovaném formalismu. V opaˇcném smˇeru tato pˇrevoditelnost nutnˇe platit nemus´ı – námi pˇredstaveny´ formalismus dovoluje kodovat ´ vztah mezi tˇremi a v´ıce slovy bez nutnosti rozliˇsen´ı jemnˇejˇs´ı struktury tˇechto vztahu˚ (pomoc´ı sloˇzkovych ´ elementu), ˚ zat´ımco závislostn´ı formát syntaktickych ´ stromu˚ povoluje pouze binárn´ı vztahy. Podobnˇe násˇ formalismus narozd´ıl od závislostn´ıho umoˇznuje ˇ vyjádˇrit souˇradny´ vztah, opˇet pomoc´ı sloˇzkovych ˚ V pˇr´ıpadˇe ´ elementu. anotace PDT se tyto nedostatky cˇ a´ steˇcnˇe rˇ eˇs´ı zaveden´ım syntaktickych ´ (analytickych) funkc´ ı , jak bylo pops´ a no v sekci vˇ e novan´ e z´ a vislostn´ ı mu forma´ lismu, závislostn´ı analyzátory vˇsak se syntaktickymi funkcemi nepracuj´ı. ´ Srovnán´ı naˇseho formalismu s formalismem sloˇzkovym ´ vycház´ı obdobnˇe jako srovnán´ı formalismu˚ závislostn´ıho a sloˇzkového (viz uvodn´ ´ ı kapitoly). Pˇrednost´ı naˇseho návrhu oproti sloˇzkovému formalismu je zejména schopnost kodovat ´ neprojektivn´ı konstrukce. Pˇrevoditelnost mezi obˇema formáty je moˇzná v jistych ´ mez´ıch, stejnych ´ jako jsou meze pˇrevodu mezi formátem závislostn´ım a sloˇzkovym ´ [2].

25

Kapitola 4

Systém SET V této kapitole pˇredstavujeme konkrétn´ı aplikaci metody popsané v kapitole pˇredchoz´ı – systém pro automatickou syntaktickou analyzu cˇ eˇstiny ´ SET. Pop´ısˇ eme celkovy´ návrh systému, konkrétn´ı formát pravidel a implementaci hodnot´ıc´ıch funkc´ı s vazbou na teoreticky´ popis z pˇredchoz´ı kapitoly. V závˇeru kapitoly podáme struˇcnou informaci o pouˇzit´ı vysledn´ eho ´ programu, ktery´ je pˇriloˇzen na CD.

4.1

Návrh systému

Základn´ı cˇ innost systému spoˇc´ıvá v realizaci algoritmu specifikovaného v pˇredchoz´ı kapitole. Návrh oddˇeluje znalosti ve formˇe pravidel od vy´ konného kodu ´ programu, pravidla jsou z tohoto duvodu ˚ uchovávána ve vyhrazeném textovém souboru, oddˇelenˇe od zdrojovych ´ u˚ programu. ´ kod V návrhu systému jsme si stanovili nˇekolik prakticky motivovanych ´ omezen´ı rˇeˇseného problému. Pˇrednˇe se budeme vˇenovat analyze ´ cˇ eˇstiny; návrh pravidel a pˇr´ıpadná uzpusoben´ ˚ ı programu pro jiné jazyky ponecháváme dalˇs´ımu vyvoji. Dále, na vstupu programu oˇcekáváme správnˇe ´ utvoˇrenou cˇ eskou vˇetu. Nechceme se zabyvat ani rozliˇsován´ım, zda je daná ´ vˇeta správnˇe utvoˇrena,1 ani opravami chyb ve vˇetách cˇ i hledán´ı správnych ´ analyz chybami algoritmus samozˇrej´ vˇet s chybami. Vˇety s gramatickymi ´ mˇe zpracuje, na vystupu ovˇsem mohou byt ˚ e chy´ ´ nepˇresnosti zpusoben´ bami ve vstupn´ı vˇetˇe. Posledn´ım praktickym ´ omezen´ım je rozhodnut´ı analyzovat pouze vˇety, které jsou jednoznaˇcnˇe morfologicky oznaˇckovány. Pˇred pouˇzit´ım programu je tedy tˇreba aplikovat morfologicky´ analyzátor a desambiguátor, stejnˇe jako je tomu u praˇzskych ˚ Vzhledem k tomu, zˇ e ´ závislostn´ıch analyzátoru. desambiguátor nutnˇe mus´ı provádˇet alesponˇ základn´ı povrchovou syntaktickou analyzu, docház´ı zde k cˇ a´ steˇcnému pˇrekryvu rˇeˇsenych ´ V cˇ a´ s´ ´ uloh. 1. Rozhodován´ı správnosti, pˇr´ısluˇsnosti danych ´ vˇet do jazyka, narázˇ ´ı opˇet na problém nenalezen´ı shody mezi vˇetˇs´ı skupinou lid´ı.

26

4. S YST E´ M SET ti 5.4.1 proto navrhujeme rozˇs´ırˇen´ı analyzátoru o analyzu morfologicky ´ v´ıceznaˇcnych ´ vstupu˚ a aplikaci navrhovaného algoritmu na desambiguaci morfologické informace. Vlastn´ı cˇ innost analyzátoru – aplikace pravidel na vstupn´ı segment – je rozdˇelena do nˇekolika modulu, ˚ které popisujeme v následuj´ıc´ı cˇ a´ sti. Byl navrˇzen objektovy´ model reprezentace vˇety, pravidel, i vlastn´ı analyzy. ´ Z duvodu ˚ rozˇsiˇritelnosti, rychlosti vyvoje, cˇ itelnosti zápisu a celkové ´ pˇrehlednosti programu byl pro implementaci zvolen jazyk Python. Tato volba se muˇ ˚ ze negativnˇe projevit na rychlosti analyzy, která vˇsak pro nás ´ v souˇcasné fázi vyvoje nen´ı prioritou, nav´ıc je problém rychlosti v pˇr´ıpadˇe ´ potˇreby relativnˇe snadno rˇeˇsitelny´ reimplementac´ı nˇekterych kl´ıcˇ ovych ´ ´ modulu˚ napˇr. v jazyce C.

4.2

Implementace

V této cˇ a´ sti pop´ısˇ eme vlastn´ı implementaci systému. Popis budeme organizovat podle rozdˇelen´ı systému do jednotlivych ˚ ´ modulu. 4.2.1 Modul grammar Tento modul zajiˇst’uje naˇc´ıtán´ı pravidel z definiˇcn´ıho souboru a jejich organizaci do jednotlivych ´ ı analyzy. Obsahuje definici tˇr´ıdy Rule, repre´ urovn´ ´ zentuj´ıc´ı pravidlo, a tˇr´ıdy Grammar, jeˇz pˇredstavuje soubor vˇsech pravidel rozˇclenˇenych ´ ı analyzy. ´ do jednotlivych ´ urovn´ ´ Souˇca´ st´ı tˇechto tˇr´ıd je mj. analyzátor syntaxe pravidel, ktery´ pˇrevád´ı textovou podobu pravidel do pamˇet’ovych ´ struktur. Struktura pravidla je dána sˇ ablonou, tj. seznamem znaˇcek, a mnoˇzinou akc´ı. Kaˇzdá znaˇcka je vnitˇrnˇe reprezentována jako mnoˇzina podm´ınek zapsanych instanc´ı ob´ jektu slovn´ık (Python Dictionary). Akce jsou rovnˇezˇ reprezentovány slovn´ıkovymi objekty, kde kl´ıcˇ i jsou jména akc´ı, hodnotami seznamy argumentu˚ ´ akce. 4.2.2 Modul token Modul token modeluje základn´ı prvky vstupn´ı vˇety – slova neboli tokeny. Obsahuje definici základn´ı tˇr´ıdy Token a tˇr´ı odvozenych ´ tˇr´ıd: SurfaceToken, pouˇz´ıvané pro reprezentaci skuteˇcnych vstupn´ıch slov, PhrToken, repre´ zentuj´ıc´ı pˇridávané sloˇzkové elementy, a LinkToken, jej´ızˇ instance zajiˇst’uj´ı vazby mezi segmentem a vytvoˇrenymi subsegmenty. ´ 27

4. S YST E´ M SET Kaˇzdá instance tˇr´ıdy Token obsahuje odkaz na mateˇrsky´ segment cˇ i subsegment, dále pak odkaz na token, na nˇemˇz závis´ı, a odkaz na seznam vˇsech potomku˚ (tokenu, ˚ které závis´ı na tomto tokenu). Tyto dva posledn´ı udaje ´ jsou na poˇca´ tku prázdné, jsou naplnov´ ˇ any v prubˇ ˚ ehu analyzy. Na ´ základˇe udaj ´ u˚ v nich obsaˇzenych vykreslován vy´ je po skonˇcen´ı analyzy ´ ´ sledny´ syntakticky´ strom. Kde je to smysluplné, instance tˇr´ıdy Token maj´ı atributy word, lemma a tag urˇcuj´ıc´ı pˇr´ısluˇsné morfologické kategorie. Morfologická znaˇcka (tag ) je oˇcekávána v atributovém formátu, jaky´ pouˇz´ıvá morfologicky´ analyzátor ajka [25], vyvinuty´ v CZPJ FI MU, a v principu nen´ı omezena na morfologickou informaci jednotlivych ´ slov. Vnitˇrn´ı struktura analyzátoru s konkrétn´ı podobou znaˇcky nijak nepracuje a pˇrizpusoben´ ˚ ı analyzátoru pˇr´ıpadnym ´ mnoˇziny pravidel. ´ novym ´ znaˇckám by tedy znamenalo pouze upravu 4.2.3 Modul segment Tento modul reprezentuje vstupn´ı vˇetu, je v nˇem definována tˇr´ıda Segment. Instance této tˇr´ıdy obsahuj´ı seznam instanc´ı tˇr´ıdy Token (slov, prvku˚ segmentu) a (zpoˇca´ tku prázdny) ˚ ´ seznam svázanych ´ subsegmentu. Jeho metody pokryvaj´ ´ ı naˇc´ıtán´ı slov z vertikáln´ıho souboru ve formátu brief a tisk vystupn´ ıch stromu˚ v závislostn´ım nebo hybridn´ım formátu na ´ základˇe vztahu˚ mezi obsaˇzenymi instancemi typu Token. Objekt také im´ plementuje nˇekteré pomocné metody vyuˇz´ıvané v procesu analyzy, jako ´ napˇr. pˇridán´ı závislosti mezi prvky segmentu nebo pˇridán´ı sloˇzkového elementu spolu s pˇr´ısluˇsnymi vazbami. ´ 4.2.4 Modul matcher ´ Ukolem modulu matcher je reprezentace a vyhledáván´ı realizac´ı pravidel v segmentu. Obsahuje definice tˇr´ıd Match a Matcher. Tˇr´ıda Match pˇredstavuje jednu konkrétn´ı realizaci pravidla v daném segmentu. Obsahuje vˇsechny informace potˇrebné pro vyznaˇcen´ı pˇr´ısluˇsnych ´ vztahu˚ v segmentu – pˇriˇrazen´ı jednotlivych ´ prvku˚ segmentu znaˇckám v sˇ ablonˇe pravidla a vysledky vypoˇ ´ ´ ctu akc´ı nad danou realizac´ı. Tˇr´ıda Matcher zajiˇst’uje vyhledáván´ı vˇsech realizac´ı daného pravidla nad segmentem a vypoˇ ´ cet akc´ı pravidla nad nalezenymi ´ realizacemi. Zde je nutno poznamenat, zˇ e cˇ asová nároˇcnost vyhledán´ı vˇsech realizac´ı muˇ ˚ ze byt ´ aˇz kvadratická vzhledem k délce segmentu. Duvodem ˚ je jednoduchy´ fakt, zˇ e i poˇcet nalezenych ˚ ze byt ˚ zité ´ realizac´ı muˇ ´ v principu kvadraticky. ´ Duleˇ vˇsak je, zˇ e se jedná pouze o extrémn´ı pˇr´ıpady a u vˇsech rozumnˇe defino28

4. S YST E´ M SET vanych ´ pravidel je sloˇzitost nalezen´ı realizac´ı lineárn´ı (algoritmus je zalozˇ en na pruchodu ˚ segmentem a testován´ı, zda vstupn´ı slova splnuj´ ˇ ı podm´ınky znaˇcek sˇ ablony daného pravidla). Modul matcher tézˇ obsahuje pomocné funkce, jeˇz testuj´ı, zda urˇcité slovo vstupn´ıho segmentu splnuje ˇ podm´ınky dané urˇcitou znaˇckou sˇ ablony pravidla. 4.2.5 Modul parser Tento modul integruje cˇ innost vˇsech dˇr´ıve popsanych ´ modulu˚ a realizuje vlastn´ı cˇ innost algoritmu popsaného v cˇ a´ sti 3.2.2. Je v nˇem definována tˇr´ıda Parser se základn´ı metodou parse(), pˇridávaj´ıc´ı strukturáln´ı vztahy do segmentu. Obsahem tˇr´ıdy Parser jsou tézˇ hodnot´ıc´ı funkce pro kaˇzdou z urovn´ ´ ı analyzy. Tyto funkce jsou vesmˇes zaloˇzeny na jednoduchém vypoˇ ´ ´ ctu zahrnuj´ıc´ım velikost realizace (poˇcet slov segmentu, která jsou pokryta danou realizac´ı) a pravdˇepodobnost pravidla (vysledek jedné z pravidlovych ´ ´ akc´ı). Podle vysledku tˇechto hodnot´ıc´ıch funkc´ı jsou vˇsechny realizace se´ tˇr´ıdˇeny a do dalˇs´ı analyzy ´ jsou vyb´ırány nejlepˇs´ı z nich, které nejsou v konfliktu (vztahy v segmentu jimi urˇcené nekoliduj´ı). 4.2.6 Dalˇs´ı moduly Implementaci doplnuj´ ˇ ı moduly set, tree view a utils. Modul set je koˇrenovym ´ modulem celého programu, obsahuje analyzu ´ pˇr´ıkazové rˇa´ dky (pro tento ukol ´ byl pouˇzit modul getopt) a spouˇstˇen´ı analyzy podle za´ danych ˚ ´ parametru. Modul tree view slouˇz´ı ke zobrazen´ı jednoduchého grafického vystu´ pu vysledn ych i v textové po´ ´ stromu˚ (program samozˇrejmˇe dává vystup ´ dobˇe, tento vˇsak nen´ı pro cˇ lovˇeka pˇr´ıliˇs pˇrehledny). ´ Koneˇcnˇe modul utils obsahuje nˇekolik pomocnych ´ generickych ´ funkc´ı, zejména pro usnadnˇen´ı vypis ´ u˚ programu.

4.3

Systém pravidel

V této sekci pop´ısˇ eme konkrétn´ı implementaci systému pravidel podle principu˚ uvedenych ´ v cˇ a´ sti 3.2.3. Definice pravidel pro cˇ eˇstinu ve formátu popisovaném v této kapitole jsou uchovávány v souboru grammar.set a jsou dostupné na pˇriloˇzeném CD. 29

4. S YST E´ M SET V analyzátoru SET jsme se rozhodli implementovat pravidla v sˇ esti vrstvách. Kaˇzdá z vrstev odhaluje odliˇsnou strukturn´ı informaci. Popisujeme zde puvodn´ ˚ ı návrh pravidel, v dalˇs´ım vyvoji se muˇ ˚ ze ukázat, zˇ e nˇekteré ´ z vrstev jsou nepotˇrebné, cˇ i naopak je tˇreba pˇridat dalˇs´ı. Prvn´ı tˇri vrstvy popisuj´ı jevy relativnˇe jednoduché, dalˇs´ı tˇri se postupnˇe zabyvaj´ ´ ı sloˇzitˇejˇs´ımi a sloˇzitˇejˇs´ımi fenomény. Analyza ´ podle jednotlivych ´ vrstev pravidel prob´ıhá následovnˇe: 1.

Detekce tzv. ,,tvrdych” (jednoznaˇcnych) vsuvek. Tyto vsuvky vytvoˇr´ı ´ ´ subsegment závisly´ na vrcholovém uzlu hlavn´ı vˇety. Mohou to byt ´ napˇr. dodatky uvedené v závorkách.

2.

Detekce vˇetnych ´ ukonˇcen´ı. Ukonˇcen´ı umist’ujeme do jedné sloˇzky s vrcholovym ´ uzlem hlavn´ı vˇety.

3.

Detekce ,,tvrdych” (jednoznaˇcnych) oddˇelovaˇcu. ˚ Tyto oddˇelovaˇce roz´ ´ dˇel´ı vˇetu (segment) na subsegmenty souˇradnˇe spojené sloˇzkovym ´ elementem. Mohou to byt ´ napˇr. stˇredn´ıky.

4.

Detekce vedlejˇs´ıch vˇet. Vedlejˇs´ı vˇety opˇet vytvárˇ´ı subsegmenty.

5.

Detekce koordinac´ı, ménˇe jednoznaˇcnych ´ vsuvek (napˇr. oddˇelenych ´ cˇ a´ rkami) a oznaˇcen´ı kodov´ ´ eho charakteru (data, telefonn´ı cˇ ´ısla). Tyto struktury jsou reprezentovány sloˇzkovymi elementy. ´

6.

Zbylé závislostn´ı (a tedy binárn´ı) vztahy ve vˇetˇe. Tyto struktury jsou reprezentovány závislostmi mezi prvky segmentu.

V následuj´ıc´ı sekci pop´ısˇ eme konkrétn´ı formát pravidel analyzátoru, tedy kodov´ ´ an´ı sˇ ablon a akc´ı pravidel, vˇcetnˇe vyˇ ´ ctu vˇsech dostupnych ´ akc´ı. 4.3.1 Formát zápisu pravidel Pravidla zapisujeme jako sˇ ablonu následovanou seznamem akc´ı. Celá sˇ ablona mus´ı byt ´ na jednom rˇ a´ dku a mus´ı byt ´ uvedena kl´ıcˇ ovym ´ slovem TMPL: (vˇcetnˇe dvojteˇcky). Seznam akc´ı muˇ ˚ ze byt ´ rozdˇelen v m´ıstˇe pˇred kl´ıcˇ ovym ´ slovem (viz dále) tak, aby novy´ rˇa´ dek zaˇc´ınal kl´ıcˇ ovym ´ slovem. V dalˇs´ım textu podrobnˇe pop´ısˇ eme formát zápisu jednotlivych kom´ ˇ ast 4.3.6 je vˇenována konkrétn´ım pˇr´ıkladum ponent pravidla. C´ ˚ pravidel, s nimiˇz muˇ ˚ ze cˇ tenárˇ obecny´ popis srovnávat. 30

4. S YST E´ M SET 4.3.2 Formát zápisu znaˇcek sˇ ablony Jak jiˇz bylo rˇeˇceno, sˇ ablona je seznam znaˇcek; takto ji také zapisujeme. Kaˇzdá znaˇcka muˇ ˚ ze byt ´ zapsána v nˇekolika formách: •

Jediná podm´ınka. Takováto znaˇcka se zapisuje v hranatych závor´ kách; levou závorku bezprostˇrednˇe následuje atribut, na ktery´ je podm´ınka kladena, mezera (pˇr´ıpadnˇe jiny´ b´ıly´ znak) a omezen´ı uveideného atributu bezprostˇrednˇe následované pravou hranatou závorkou. Schéma: [atribut podm´ ınka] Pˇr´ıklad: [lemma tˇ reba] – tato znaˇcka bude vyhovovat vstupn´ım slovum, ˚ jejichˇz základn´ı tvar je tˇreba.

•

Pojmenovaná promˇenná. Tato znaˇcka se zapisuje jako znak dolar ($ ) bezprostˇrednˇe následovany´ názvem promˇenné. Jméno promˇenné muˇ ˚ ze obsahovat alfanumerické znaky, teˇcku a podtrˇz´ıtko. Podm´ınky dané znaˇcky jsou pak vyjádˇreny na zvlásˇ tn´ıch rˇa´ dc´ıch pod vlastn´ı definic´ı pravidla. Tyto rˇa´ dky (nazyvejme je definice promˇennych ´ ´ ) maj´ı následuj´ıc´ı formát: $jm´ eno[atribut]: seznam omezen´ ı oddˇ elen´ y mezerami Pˇr´ıklad: $SPOJKA – tato znaˇcka bude vyhovovat slovum ˚ a, i, ani, nebo, pokud jeden z dalˇs´ıch rˇa´ dku˚ bude $SPOJKA[word]: a i ani nebo

•

Alias. Tato znaˇcka je jednou z mnoˇziny znaˇcek pˇreddefinovanych ´ v modulu grammar. Zapisuje se svym je dán ´ jménem a jej´ı vyznam ´ definic´ı (vˇzdy jako jediná podm´ınka) v uvedeném modulu. Seznam vˇsech aliasu˚ dostupnych ´ v souˇcasnosti uvád´ıme v tabulce 4.1, seznam je vˇsak velmi flexibiln´ı (pˇridán´ı nového aliasu se provede pˇridán´ım jedné rˇa´ dky kodu ´ v souboru grammar.py). Pˇr´ıklad: infinitive – vyjadˇruje totézˇ jako [tag k5mF], sloveso v infinitivn´ım tvaru.

Doplnuj´ ˇ ıc´ı informace k prvn´ımu zpusobu ˚ zápisu. V tomto pˇr´ıpadˇe mu˚ zˇ e byt ´ podm´ınka uvedena také jako disjunkce omezen´ı. Jednotlivá omezen´ı jsou oddˇelena znakem ,,|”. Napˇr´ıklad znaˇcka [word a|i|ani|nebo] bude m´ıt stejny´ vyznam jako znaˇcka $SPOJKA z pˇr´ıkladu ve druhé odrázˇ ce. ´ 31

4. S YST E´ M SET Alias comma like noun verb verb all adj noun prep num adv infinitive

Ekvivalent [word ,|-] [tag k1|k2|k3] [tag k5m(IBRAP)] [tag k5] [tag k2] [tag k1] [tag k7] [tag k4] [tag k6] [tag k5mF]

Slovn´ı popis cˇ a´ rka nebo pomlˇcka substantivum, adjektivum cˇ i zájmeno sloveso v urˇcitém tvaru sloveso v jakémkoli tvaru adjektivum substantivum pˇredloˇzka cˇ ´ıslovka pˇr´ıslovce sloveso v infinitivu

Tabulka 4.1: Seznam aliasu˚ pro sˇ ablony pravidel s pˇr´ısluˇsnou sémantikou Speciáln´ı moˇznost vyjádˇren´ı je u omezen´ı atributu tag – po uveden´ı libovolného atributu morfologické znaˇcky lze m´ısto jediné hodnoty zapsat seznam hodnot v kulatych ´ závorkách. Tento seznam je opˇet chápán jako disjunkce omezen´ı. Tedy napˇr´ıklad znaˇcka sˇ ablony [tag k(123)c2] vyjadˇruje substantivum, adjektivum nebo zájmeno, vˇzdy vˇsak ve druhém pádˇe. Doplnuj´ ˇ ıc´ı informace ke druhému zpusobu ˚ zápisu. K promˇenné v sˇ ablonˇe pravidla se vˇzdy vztahuje prvn´ı vyskyt definice dané promˇenné násle´ duj´ıc´ı dané pravidlo. Definice promˇennych ´ lze tedy sd´ılet v´ıce sˇ ablonami, coˇz muˇ ˚ ze v nˇekterych e zestruˇcnit zápis pravidel. V de´ pˇr´ıpadech vyraznˇ ´ finici promˇenné je moˇzno uvést omezen´ı na v´ıce atributu, ˚ a to zápisem na v´ıce rˇa´ dku. ˚ Vˇsechny rˇa´ dky s definic´ı jedné promˇenné mus´ı následovat bezprostˇrednˇe za sebou, v pˇr´ıpadˇe pˇreruˇsen´ı jinym ´ rˇ a´ dkem (napˇr. definic´ı ˇ adky s dejiné promˇenné) je podstatná pouze prvn´ı souvislá cˇ a´ st definice. R´ finicemi jsou brány jako konjunkce podm´ınek (dané slovo mus´ı vyhovovat vˇsem rˇa´ dkum ˚ definice). Je tézˇ moˇzno uvádˇet negativn´ı podm´ınky, tedy hodnoty, kterych nesm´ı. Pˇr´ıklad: ´ dany´ atribut nabyvat ´ $SPOJKA ... 32

4. S YST E´ M SET $SPOJKA[tag]: k8xC $SPOJKA[word not]: a i ani nebo Tato znaˇcka reprezentuje vˇsechny souˇrad´ıc´ı spojky (k8xC) s vyjimkou slov ´ a, i, ani, nebo. Seznam vˇsech atributu˚ pouˇzitelnych ´ v zápisu pomoc´ı pojmenovanych ´ promˇennych ´ je následuj´ıc´ı (s pˇr´ısluˇsnou sémantikou omezen´ı): •

word – tvar slova mus´ı byt ´ jedn´ım z rˇetˇezcu˚ ze seznamu

•

lemma – základn´ı tvar slova mus´ı byt ´ jedn´ım ze seznamu

•

tag – morfologická znaˇcka mus´ı souhlasit alesponˇ s jednou morf. znaˇckou ze seznamu

•

word not – tvar slova nesm´ı byt ´ v seznamu

•

lemma not – základn´ı tvar slova nesm´ı byt ´ v seznamu

•

tag not – morfologická znaˇcka nesm´ı souhlasit s zˇ a´ dnou ze seznamu

V závˇeru popisu znaˇcek sˇ ablony zm´ın´ıme konstrukt, ktery´ je rozˇs´ırˇen´ım teoretického modelu z pˇredchoz´ı kapitoly. V nˇekterych ˚ zeme cht´ıt nˇekteré znaˇcky v sˇ ablonˇe prová´ pˇr´ıpadech muˇ zat, napˇr. chceme-li rozpoznávat koordinace a vyjádˇrit, zˇ e v koordinaci mohou byt ´ dvˇe substantiva, dvˇe adjektiva, ale nikoli substantivum a adjektivum. Tohoto doc´ıl´ıme pouˇzit´ım konstruktu MATCH, kterym ´ je moˇzno definovat v´ıce promˇennych ´ najednou a provázat seznamy jejich podm´ınek. ˇ sen´ı pro uvedeny´ pˇr´ıklad dostaneme následovnˇe: Reˇ $C1 [word a] $C2 ... MATCH $C1[tag] $C2[tag] k1 k1 k2 k2 END Konstrukce MATCH plnˇe nahrazuje definice obou zahrnutych ´ promˇennych. ´ 33

4. S YST E´ M SET 4.3.3 Znaˇcky s vˇetˇsı´m rozsahem Doposud jsme pˇredstavili znaˇcky sˇ ablony, které reprezentuj´ı pouze jedno vstupn´ı slovo. V následuj´ıc´ıch odstavc´ıch pˇredstav´ıme takové znaˇcky sˇ ablony, které mohou reprezentovat zˇ a´ dné nebo v´ıce slov vstupn´ıho segmentu. Vyznam tˇechto znaˇcek tkv´ı v moˇznosti vyjádˇrit jevy, kdy mezi dvˇema slovy ´ v nˇejakém vztahu (ktery´ dané pravidlo odhaluje) jsou jiná slova, pˇriˇcemˇz neum´ıme zachytit jejich pˇresnou podobu. Základn´ı znaˇckou, reprezentuj´ıc´ı nula nebo v´ıce vstupn´ıch slov, jsou tˇri teˇcky (...). Vyznam této znaˇcky je ,,libovolny´ poˇcet libovolnych ´ ´ slov”. V praxi vˇsak potˇrebujeme tyto ,,mezery” v pravidle omezovat ruzn ˚ ymi ´ podm´ınkami. Napˇr´ıklad nechceme, aby v mezerách mezi prvky koordinace byly dalˇs´ı souˇrad´ıc´ı spojky. Toho doc´ıl´ıme speciáln´ı formou znaˇcky pro pojmenovanou promˇennou: $SPACE* Hvˇezdiˇcka za pojmenován´ım promˇenné znaˇc´ı libovolny´ poˇcet vyskyt u. ˚ ´ V jednom z dalˇs´ıch rˇa´ dku˚ pak uvedeme definici této promˇenné (hvˇezdiˇcka je brána jako souˇca´ st názvu promˇenné, proto se vyskytuje i zde): $SPACE*[tag not]: k8xC T´ımto zpusobem ˚ jsme tedy definovali mezeru, která neobsahuje souˇrad´ıc´ı spojku. Jej´ı vyuˇzit´ı v pravidle pro koordinaci dvou substantiv muˇ ˚ ze vypadat napˇr´ıklad takto: TMPL: noun $SPACE* [word a] $SPACE* noun $SPACE*[tag not]: k8xC

4.3.4 Znaˇcky bound a rbound Z praktické potˇreby vyplynula nutnost definovat znaˇcky, kterymi lze vy´ jádˇrit zaˇca´ tek a konec segmentu bez vazby na konkrétn´ı slova v segmentu. Tyto znaˇcky tedy opˇet pˇrekraˇcuj´ı teoreticky´ rámec pravidla, definovany´ v pˇredchoz´ı kapitole. Jsou to znaˇcky se speciáln´ımi aliasy, bound a rbound. Prvn´ı z nich oznaˇcuje zaˇca´ tek segmentu, druhá z nich jeho konec. Kromˇe hranic segmentu se tyto znaˇcky mohou vázat také na oddˇelovaˇce, napˇr. cˇ a´ rku. 34

4. S YST E´ M SET 4.3.5 Formát akc´ı Deklarace akc´ı následuje v zápisu pravidla deklaraci sˇ ablony. Akc´ı muˇ ˚ ze byt ´ libovolny´ poˇcet a vˇzdy jsou zapsány ve formˇe kl´ıcˇ ového slova (jména akce) následovaného seznamem argumentu˚ akce. Nˇekteré akce se mohou odkazovat na znaˇcky sˇ ablony – dˇeje se tak indexy pˇr´ısluˇsnych ´ znaˇcek (tedy celymi cˇ ´ısly, vyjadˇruj´ıc´ımi poˇrad´ı dané znaˇcky v sˇ ablonˇe), poˇc´ıtáno od nuly. ´ Odkazovány mohou byt ´ pouze znaˇcky reprezentuj´ıc´ı jedno slovo segmentu. Poˇcet argumentu˚ akce muˇ ˚ ze byt ´ promˇenny, ´ kaˇzdá akce má vˇsak minimálnˇe jeden argument. Následuje seznam vˇsech v souˇcasnosti implementovanych ˚ komentárˇem k sémantice akce ´ akc´ı spolu s popisem argumentu, a pˇr´ıklady: •

MARK – tato akce je pouˇz´ıvána pro vyznaˇcen´ı slov segmentu. Moˇznosti pouˇzit´ı jsou dvˇe: prvn´ı z nich zpusob´ ˚ ı pˇridán´ı sloˇzkového elementu do segmentu, v takovém pˇr´ıpadˇe je posledn´ım argumentem jméno nové sloˇzky, pˇredchoz´ı argumenty vyznaˇcuj´ı indexy slova budouc´ı sloˇzky. Druhy´ zpusob ˚ pouˇzit´ı je vyznaˇcen´ı jediného prvku segmentu. Vysledku akce (oznaˇcenému slovu cˇ i sloˇzkovému elementu) se poté ´ pˇridává závislost akc´ı DEP. Pˇr´ıklad: MARK 0 2 4 – vyznaˇc´ı koordinaci na slovech odpov´ıdaj´ıc´ıch znaˇckám s indexy 0, 2 a 4.

•

AGREE – test na gramatickou shodu. Argumenty jsou tˇri: dva indexy znaˇcek, jimˇz pˇr´ısluˇsná slova maj´ı byt ´ testována na shodu, tˇret´ım argumentem je rˇetˇezec tvoˇreny´ názvy atributu˚ morfologickych ´ znaˇcek. Seznam argumentu˚ muˇ ˚ ze v pˇr´ıpadˇe potˇreby obsahovat i v´ıce trojic. Pˇr´ıklad: AGREE 0 2 gnc – vyjadˇruje shodu v pádˇe, v cˇ ´ısle a rodˇe na slovech odpov´ıdaj´ıc´ıch znaˇckám 0 a 2.

•

DEP – vyznaˇc´ı závislost vysledku akce MARK. Má jediny´ argument, ´ j´ımˇz je index rˇ´ıd´ıc´ıho slova. Pˇr´ıklad: DEP 5 – pˇridá závislost vysledku akce MARK na slovu od´ pov´ıdaj´ıc´ımu znaˇcce 5.

•

PROB – vyjadˇruje váhu pravidla, dále pouˇz´ıvanou hodnot´ıc´ımi funkcemi. Má jediny´ argument, j´ımˇz je kladné pˇrirozené cˇ ´ıslo (pˇr´ıpadnˇe 0 pro nˇekteré speciáln´ı uˇ ´ cely). Pˇr´ıklad: PROB 5 – sn´ızˇ ´ı váhu pravidla na 5 (vychoz´ ı hodnota je 100). ´

•

HEAD – vyznaˇc´ı hlavu sloˇzkového elementu, ktery´ byl vytvoˇren akc´ı MARK. Má opˇet jediny´ argument, j´ımˇz je index slova, které má byt ´ 35

4. S YST E´ M SET oznaˇceno jako hlava. Pˇr´ıklad: HEAD 2

•

IMPORTANT – oznaˇcuje nˇekterá slova segmentu za ,,duleˇ ˚ zitá”. Tato slova se dále mohou vyuˇz´ıvat v hodnot´ıc´ıch funkc´ıch nebo podle nich mohou byt ´ vytvárˇeny subsegmenty. Argumenty akce je libovolny´ pocˇ et indexu˚ znaˇcek. Pˇr´ıklad: IMPORTANT 2 4

4.3.6 Reálné pˇrı´klady pravidel V tomto odd´ılu uvedeme nˇekolik pˇr´ıkladu˚ reálnych pravidel systému se ´ struˇcnym ´ komentárˇem. Kompletn´ı soubor pravidel je pˇriloˇzen spolu s programem na CD (soubor grammar.set). Následuj´ı pˇr´ıklady pravidel: TMPL: noun $...* comma [tag k3yR] $...* verb $...* rbound MARK 2 7 DEP 0 AGREE 0 3 gn $...*[tag not]: k3yR Toto pomˇernˇe komplexn´ı pravidlo pokryv´ ˚ ´ a vedlejˇs´ı vˇetu vztaˇznou. Muzˇ eme z nˇej vyˇc´ıst, zˇ e rˇ´ıd´ıc´ım prvkem vztaˇzné vˇety je podstatné jméno a zˇ e vˇeta samotná je uvozena cˇ a´ rkou a vztaˇznym ´ zájmenem a obsahuje sloveso v urˇcitém tvaru. Akce vytvárˇ´ı sloˇzkovy´ element relclause, ktery´ závis´ı na rˇ´ıd´ıc´ım substantivu. Tézˇ mus´ı byt ´ splnˇena shoda v rodˇe a cˇ ´ısle mezi vztaˇznym ´ zájmenem a rˇ´ıd´ıc´ım substantivem. Pˇr´ıpadná dalˇs´ı slova v mezerách jsou zachycena znaˇckou $...* s libovolnym ´ rozsahem; podle definice pˇr´ısluˇsné promˇenné se v mezerách nemohou vyskytovat jiná vztaˇzná zájmena. TMPL: $1 num MARK 0 1 $1[word]: A B C D T HEAD 0 Toto pravidlo je o poznán´ı jednoduˇssˇ´ı a pˇrehlednˇejˇs´ı (podobnˇe jako vˇetˇsina ostatn´ıch). Rozpoznává nˇekterá kodov´ ´ a oznaˇcen´ı, napˇr. A 4 pro formát pap´ıru. Vid´ıme, zˇ e obˇe detekovaná slova jsou pˇridána do sloˇzkového elementu code a hlavou je zvoleno prvn´ı z nich (podle pˇr´ısluˇsné konvence v PDT). 36 4. S YST E´ M SET TMPL: verb ... $AND ... verb MARK 0 2 4 HEAD 2 IMPORTANT 2 4 $AND[word]: , a ani nebo Pravidlo vyjadˇruj´ıc´ı koordinaci dvou sloves pomoc´ı nˇekterych ´ spojek. Vid´ıme, zˇ e obˇe slovesa jsou i se spojkou pˇridána do sloˇzkového elementu pro koordinaci a zˇ e hlavou této koordinace je zvolena (opˇet podle konvenc´ı PDT) spojka. Akce IMPORTANT vyznaˇcuje slova, která budou pouˇzita jako argumenty hodnot´ıc´ı funkce; hodnot´ıc´ı funkce v tomto konkrétn´ım pˇr´ıpadˇe zohlednuje ˇ vzdálenost mezi vyznaˇcenymi slovy. Pro pˇr´ıpadná vypl ˇ a ´ ´ nov´ slova je pouˇzita obecná znaˇcka tˇr´ı teˇcek. TMPL: noun $...* [tag k1c2] $...*[tag not]: k5 MARK 2 DEP 0 PROB 500 Typické závislostn´ı pravidlo. Vyjadˇruje genitivn´ı vazbu (napˇr. ,,ministr sˇ kolstv´ı” ) závislost´ı druhého slova na prvn´ım. Váha pravidla je zvyˇ ´ sena na 500, nebot’ se jedná o jev velmi frekventovany. ´ Pˇripouˇst´ı se, aby fráze byla rozdˇelena slovem, které nen´ı slovesem (resp. v´ıce takovymi slovy). ´ Aˇckoliv nám obecny´ popis pravidlového formalismu zabral mnoho m´ısta, z uvedenych ´ pˇr´ıkladu˚ lze vidˇet, zˇ e pravidla maj´ı velmi vysokou expresivitu a relativnˇe dobrou cˇ itelnost. Fungován´ı pravidel na principu hledán´ı realizac´ı v segmentu (lidovˇe rˇeˇceno ,,napasován´ı” pravidla na segment) poskytuje velmi dobrou pˇredstavu o tom, co vlastnˇe pravidla se vstupn´ım segmentem dˇelaj´ı. 4.4 Pouˇzit´ı programu V této podkapitole uvedeme nˇekolik praktickych ´ instrukc´ı k pouˇzit´ı programu SET. Struˇcnˇe tézˇ pop´ısˇ eme formát vstupu a vystupu programu. ´ Program se spouˇst´ı z pˇr´ıkazové rˇa´ dky pˇr´ıkazem set.py a jako jediny´ (povinny) ´ argument oˇcekává jméno souboru se vstupn´ı vˇetou. Pˇred spuˇstˇen´ım nen´ı tˇreba provádˇet zˇ a´ dnou instalaci, je pouze nutné m´ıt nainstalován interpret jazyka Python a knihovnu Tkinter (dostupnou volnˇe v bal´ıcˇ ku python-tk ). Repertoár pˇrep´ınaˇcu˚ je pomˇernˇe maly, ´ vzhledem k tomu, zˇ e c´ılem práce bylo vytvoˇrit prototypovou implementaci metody postupné segmentace vˇety, nikoli sˇ iroce pouˇzitelny´ program. Ve vychoz´ ım nastaven´ı bez pˇre´ p´ınaˇcu˚ program provede analyzu vstupn´ı vˇety a na vystup vyp´ısˇ e hyb´ ´ 37 4. S YST E´ M SET ˇ Setˇ rete ˇ setˇ rit k5eAp2nPt_mRaP pen´ ıze pen´ ıze k1gInPc4 , , kI netelefonujte telefonovat k5eNp2nPt_mRaP , , kI faxujte faxovat k5eAp2nPt_mRaP ! ! kI ˇ rete pen´ıze, neteleObrázek 4.1: Ukázka vstupu ve formátu brief – vˇeta Setˇ fonujte, faxujte! ridn´ı strom v textovém formátu. Pˇrep´ınaˇc -d pˇrepne vystup na závislostn´ı ´ formát. Pˇrep´ınaˇc -g zpusob´ ˚ ı po vypsán´ı stromu v textové podobˇe graficky´ vystup v podobˇe jednoduchého okna s vykreslenym ´ ´ stromem (závislostn´ım nebo hybridn´ım). V prubˇ ˚ ehu analyzy program vypisuje na standardn´ı chybovy´ vystup ´ ´ podrobné informace o vypoˇ ´ nˇ analyzy, nalezené reali´ ctu: aktuáln´ı urove ´ zace, nejlepˇs´ı vybrané realizace, vytvoˇrené subsegmenty. Tento vypis dává ´ vyvoj´ ´ arˇi pravidel znaˇcnou kontrolu nad vypoˇ ´ ctem programu a poskytuje velmi uˇziteˇcnou a podrobnou informaci o moˇznych ´ nedostatc´ıch v praviˇ dlech. Ukázka spuˇstˇen´ı programu na vˇetˇe Setˇrete pen´ıze, netelefonujte, faxujte! (4. vˇeta v PDT 1.0) je obsahem pˇr´ılohy A. 4.4.1 Formát vstupu Jak jiˇz bylo naznaˇceno, soubor se vstupn´ı vˇetou je oˇcekáván ve vertikáln´ım formátu brief. Tento formát je tvoˇren tˇremi sloupci. Prvn´ı z nich obsahuje slovn´ı tvar, jak byl ve vˇetˇe pouˇzit (atribut word ). Ve druhém je uveden základn´ı tvar, lemma, uvozené znaˇckou . Tˇret´ı, posledn´ı sloupec obsahuje morfologickou znaˇcku slova a je uvozen znaˇckou . Pˇr´ıklad vˇety v uvedeném formátu muˇ ˚ zeme vidˇet na obrázku 4.1. 4.4.2 Formát vystupu ´ Formát grafického vystupu programu i vypisu prubˇ ˚ ehu analyzy na stan´ ´ ´ dardn´ı chybovy´ vystup povaˇzujeme za intuitivn´ı. Zastav´ıme se zde krátce ´ jen u formátu vystupn´ ıch stromu˚ v textové podobˇe. ´ Závislostn´ı i hybridn´ı stromy jsou popisovány stejnym ´ formátem. Jedná se o cˇ tyˇri tabulátorem oddˇelené sloupce, na kaˇzdém rˇa´ dku je popis jednoho 38 4. S YST E´ M SET vrcholu vystupn´ ıho stromu. Prvn´ı sloupec urˇcuje identifikátor daného vr´ cholu, pˇrirozené cˇ ´ıslo. Druhy´ obsahuje rˇ etˇezec popisuj´ıc´ı vrchol – u slovn´ıch vrcholu˚ je to tvar slova, u sloˇzkovych ´ elementu˚ jejich pojmenován´ı. Ve tˇret´ım sloupci je uveden identifikátor vrcholu, na nˇemˇz aktuáln´ı vrchol závis´ı (-1 je pouˇz´ıváno pro koˇrenovy´ vrchol). Posledn´ı sloupec vyjadˇruje typ této závislosti, obsahuje znak p pro sloˇzkovy´ typ vztahu, d pro závislosti. 39 Kapitola 5 Dosaˇzené vysledky a dalˇs´ı vyvoj ´ ´ V této kapitole pop´ısˇ eme experimenty a mˇerˇen´ı, které jsme s navrˇzenym ´ systémem SET provádˇeli. Pokus´ıme se lokalizovat cˇ asté chyby, jichˇz se analyzátor dopouˇst´ı, a navrhnout zpusoby ˚ rˇeˇsen´ı. Naznaˇc´ıme tézˇ moˇzné smˇery dalˇs´ıho vyvoje programu. ´ 5.1 Pˇresnost závislostn´ıho vystupu ´ V této cˇ a´ sti prezentujeme mˇerˇen´ı pˇresnosti závislostn´ıho vystupu analyzá´ toru ve srovnán´ı s dostupnymi syntakticky anotovanymi daty. V následu´ ´ j´ıc´ım textu nejprve popisujeme mnoˇziny dat, které jsme zahrnuli do testován´ı, následnˇe uvád´ıme a interpretujeme dosaˇzené vysledky. ´ 5.1.1 Testovac´ı data Základn´ı testovac´ı mnoˇzinou je pro nás podmnoˇzina PDT, urˇcená k slepému testován´ı analyzátoru˚ – PDT e-test. Vzhledem k tomu, zˇ e PDT obsahuje vˇety, o nichˇz je diskutabiln´ı, zda jsou vubec ˚ vˇetami (seznamy fotbalovych u, ˚ pˇr´ıklad uvedeny´ v cˇ a´ s´ vysledk ´ ti 2.4.4), rozhodli jsme se do vyhodnocen´ı zahrnout dalˇs´ı testovac´ı mnoˇziny vˇet. Prvn´ı z nich je tvoˇrena vˇetami odd´ılu PDT e-test takovymi, které obsa´ huj´ı alesponˇ jedno sloveso v urˇcitém tvaru (u tˇechto je vˇetˇs´ı pravdˇepodobnost, zˇ e budou správnymi cˇ eskymi vˇetami). Tuto testovac´ı sadu budeme ´ ´ v dalˇs´ım oznaˇcovat jako e-test-sel. Dalˇs´ı dodateˇcnou mnoˇzinou, kterou jsme se rozhodli zahrnout do vyhodnocen´ı, je prvn´ıch 2000 vˇet z malého brnˇenského korpusu sloˇzkovych ´ stromu. ˚ Tento korpus byl vytvoˇren pro uˇ ´ cely testován´ı analyzátoru synt [20] a mezi jeho vlastnosti patˇr´ı mj. to, zˇ e byl s pomoc´ı analyzátoru synt vytvoˇren a obsahuje pouze vˇety, které tento analyzátor akceptoval. Zdrojem vˇet je PDT, je tedy moˇzné vˇety brnˇenského korpusu v datech identifikovat a zmˇerˇit pˇresnost jejich závislostn´ı analyzy. Motivac´ı pro tuto tes´ tovac´ı mnoˇzinu je nám povaha vˇet akceptovanych analyzátorem synt – ´ 40 5. D OSA Zˇ EN E´ Testovac´ı sada PDT e-test e-test-sel BPT2000 PDT100 Pˇresnost – prumˇ ˚ er 75,55 % 76,21 % 81,99 % 84,08 % ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY Pˇresnost – medián 77,27 % 77,27 % 85,71 % 88,56 % Tabulka 5.1: Pˇresnost závislostn´ıho vystupu programu SET na ruzn ˚ ych ´ ´ testovac´ıch sadách jeho pravidlovy´ formalismus by mˇel akceptovat pouze správnˇe utvoˇrené cˇ eské vˇety a tedy korpus pravdˇepodobnˇe obsahuje ve znaˇcné m´ırˇe ,,uˇcesanou” cˇ eˇstinu (bez krkolomnych konstrukc´ı typu sportovn´ıch vysledk u˚ ´ ´ apod.). Tuto sadu vˇet dále oznaˇcujeme BPT2000. Posledn´ı testovac´ı mnoˇzinou je 100 prvn´ıch vˇet z PDT 1.0. Duvodem ˚ této volby je skuteˇcnost, zˇ e mnoˇzina pravidel analyzátoru SET byla s pomoc´ı tˇechto vˇet vyv´ıjena. Mˇerˇen´ım pˇresnosti proti takovéto mnoˇzinˇe tedy muˇ ˚ zeme odhadnout pˇresnost, jaké muˇ ˚ ze analyzátor potenciálnˇe na danych ´ datech dosáhnout bez podstatnych ´ rozˇs´ırˇen´ı, napˇr´ıklad t´ım, zˇ e by ve vyvoji ´ pravidel byli angaˇzováni lingvistiˇct´ı specialisté, nebo dalˇs´ım studiem korpusovych ´ dat. Tuto testovac´ı sadu znaˇc´ıme PDT100. Pro vˇsechny testovac´ı mnoˇziny jsme vyuˇz´ıvali dostupnou morfologickou anotaci, nebot’ jsme nechtˇeli do vysledk u˚ mˇerˇen´ı zanásˇ et chyby niˇzsˇ´ıch ´ vrstev analyzy. Chtˇeli jsme se omezit cˇ istˇe na mˇerˇen´ı kvality analyzy ´ ´ syntaxe, nikoli komplexn´ı analyzy ´ jazyka s vyuˇzit´ım naˇseho syntaktického modulu. 5.1.2 Vysledky a interpretace ´ V tabulce 5.1 jsou shrnuty vysledky mˇerˇen´ı pˇresnosti vytvoˇreného ana´ lyzátoru na uvedenych ´ testovac´ıch mnoˇzinách. Vid´ıme, zˇ e pˇresnost závislostn´ıho vystupu se v souhrnu pohybuje mezi 75 a 90 procenty. ´ Rovnˇezˇ muˇ ˚ zeme vypozorovat, zˇ e pˇresnost je vyˇssˇ´ı na tˇech mnoˇzinách, z nichˇz jsou odfiltrovány nˇekteré typy vˇet a potenciál navrhovaného analyzátoru bez vyrazn ych rozˇs´ırˇen´ı (pˇresnost na vyvojov´ e mnoˇzinˇe vˇet) je ´ ´ ´ témˇerˇ 90 procent. Z vyˇssˇ´ıch hodnot mediánu˚ lze soudit, zˇ e problémy zpu˚ sobuje sp´ısˇ e malé mnoˇzstv´ı vˇet, s nimiˇz má analyzátor vˇetˇs´ı problémy. To muˇ ˚ ze byt ´ zapˇr´ıcˇ inˇeno absenc´ı nˇekterych ´ potˇrebnych ´ pravidel, viz tézˇ dále. Ve srovnán´ı s ostatn´ımi závislostn´ımi analyzátory se pˇresnost programu ˇ SET nejv´ıce bl´ızˇ ´ı Zabokrtsk´ eho pravidlovému analyzátoru [10]. To muˇ ˚ ze 41 5. D OSA Zˇ EN E´ ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY souviset s faktem, zˇ e oba programy stav´ı na stejnych ´ základech – pro analyzu ˚ zeme z citovaného ´ pouˇz´ıvaj´ı cˇ lovˇekem vytvoˇrená pravidla a pokud muˇ cˇ lánku soudit, jejich pravidlové systémy byly vyv´ıjeny srovnatelnou dobu. Dovolujeme si vˇsak tvrdit, zˇ e námi navrˇzeny´ pravidlovy´ formalismus má ˇ oproti Zabokrtsk´ eho analyzátoru vyhodu snadnˇejˇs´ı rozˇsiˇritelnosti. Vzhle´ dem k tomu, zˇ e pravidla jsou relativnˇe cˇ itelná, je tézˇ moˇzné do procesu jejich vyvoje zapojit lingvistické odborn´ıky, kterym ´ ´ by psan´ı pravidel jako ˇ procedur v jazyce Perl (jak jsou implementovány v Zabokrtsk´ eho analyzátoru) patrnˇe dˇelalo nemalé problémy. Nˇekteré z analyzátoru˚ zaloˇzenych na uˇcen´ı z anotovanych dat dosa´ ´ huj´ı lepˇs´ıch vysledk u˚ neˇz oba pravidlové analyzátory. Domn´ıváme se, zˇ e ´ je to zpusobeno ˚ pˇrevázˇ nˇe nekonzistencemi v datech, vuˇ ˚ ci nimˇz jsou automaticky se uˇc´ıc´ı algoritmy mnohem odolnˇejˇs´ı neˇz manuálnˇe vytvoˇrené systémy pravidel (nekonzistencemi a chybami v datech se dále zabyv´ ´ ame v dalˇs´ı cˇ a´ sti, vˇenované analyze chyb). Tato odolnost je vˇ s ak vyv´ a z ena t´ım, ´ ˇ zˇ e zm´ınˇené analyzátory jsou velmi svázány s uˇc´ıc´ımi daty, je obt´ızˇ né je dále rozˇsiˇrovat a zpˇresnovat ˇ a je nemoˇzné je pouˇz´ıt k jinym ´ celum, ˚ neˇz je ´ uˇ analyza ´ syntaxe podle konvenc´ı oznaˇckovanych ´ dat (PDT). Jsme pˇresvˇedcˇ eni o tom, zˇ e nepˇr´ıtomnost tˇechto nedostatku˚ kompenzuje niˇzsˇ´ı pˇresnost na testovac´ım odd´ılu PDT. 5.2 Analyza ´ chyb Pˇri analyze ´ chyb jsme respektovali pˇra´ n´ı anotátoru˚ PDT, aby odd´ıl e-test nebyl pˇr´ıstupny´ pˇri vyvoji programu a podrobné vysledky analyzátoru na ´ ´ tˇechto datech jsme nezkoumali. Nam´ısto toho jsme se dukladnˇ ˚ eji vˇenovali analyze chyb na testovac´ıch datech z PDT 1.0. V následuj´ıc´ıch podkapi´ tolách se podrobnˇeji vˇenujeme nejˇcastˇejˇs´ım typum ˚ chyb, s nimiˇz jsme se pˇri testován´ı setkali. 5.2.1 Nepˇresnosti v PDT Pomˇernˇe velká cˇ a´ st chybnˇe urˇcenych ˚ jinde neˇz v sa´ závislost´ı má puvod motném analyzátoru – v testovac´ıch datech, PDT 1.0. Muˇ ˚ ze se jednat o chybnˇe urˇcenou morfologickou znaˇcku slova, chybnˇe urˇcenou závislost, pˇr´ıpadnˇe nedodrˇzen´ı konvenc´ı anotace definovanych ´ v Návodu pro anotátory [6] nebo nekonzistence v anotaci nˇekterych ´ syntaktickych ˚ ´ jevu. 42 5. D OSA Zˇ EN E´ ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY Prvn´ı dva pˇr´ıpady jsou relativnˇe rˇ´ıdké; poˇcet zjevnych chyb v datech ´ netvoˇr´ı statisticky vyznamn´ e procento, i kdyˇz chyby jsou samozˇrejmˇe pˇr´ı´ tomny. Podstatnˇe závaˇznˇejˇs´ı jsou problémy s nedodrˇzován´ım danych ´ konvenc´ı a s nekonzistencemi v anotaci spornych ˚ pro které konvence neexis´ jevu, ˇ rete pen´ıze, netetuj´ı. Jako pˇr´ıklad si vezmˇeme cˇ tvrtou vˇetu PDT 1.0, ,,Setˇ lefonujte, faxujte!”. Vystup z analyzátoru SET je znázornˇen na obrázku 5.1 ´ a tuto analyzu muˇ ˚ zeme bez rozpaku˚ oznaˇcit za stoprocentn´ı a správnou. ´ Podle konvenc´ı uvedenych ´ v Návodu pro anotátory je uvedeny´ hybridn´ı strom pˇreveden do cˇ istˇe závislostn´ı formy, jak je vidˇet na obrázku 5.2. Na obrázku 5.3 vid´ıme reprezentaci uvedené vˇety v PDT. Jak je vidˇet, anotátor nerespektoval doporuˇcen´ı Návodu (znázornˇen´ı koordinace), coˇz má v tomto pˇr´ıpadˇe destruktivn´ı vliv na hodnocen´ı naˇs´ı analyzy ˚ ci ´ – jej´ı pˇresnost vuˇ uvedené reprezentaci v PDT je pouhych ´ 57 procent. Dalˇs´ım pˇr´ıkladem nekonzistence jsou pˇr´ıpady pˇr´ısudku vyjádˇreného v trpném rodˇe, jako napˇr. ,,je nakupován” (vˇeta PDT cˇ . 28) nebo ,,je uvádˇen” (vˇeta 13). Nekonzistence je v oznaˇcen´ı rˇ´ıd´ıc´ıho slova pˇr´ısudkové fráze; nˇek˚ zitosti dy je oznaˇcen tvar slovesa byt ´ , jindy pˇr´ıcˇ est´ı trpné. Vzhledem k duleˇ pˇr´ısudkové fráze ve vˇetˇe muˇ ˚ ze tato nekonzistence postihnout i dalˇs´ı závislostn´ı hrany (mnoho vˇetnych e ovlivnit ´ cˇ lenu˚ závis´ı na pˇr´ısudku) a vyraznˇ ´ celkové hodnocen´ı správnosti analyzy. ´ Vyskyt chyb a nekonzistenc´ı podobnych vyˇ ´ ´ ´ se uvedenym ´ je pomˇernˇe cˇ asty, ´ zde uvád´ıme pouze sˇ piˇcky ledovce. Velmi hrubym ´ odhadem (odvozenym ˚ ehu nˇekolikatydenn´ ı práce s korpusem) mohou ´ z pozorován´ı v prubˇ ´ chyby, nekonzistence a sporné závislosti pokryvat aˇz 10, moˇzná dokonce ´ 15 procent celkového poˇctu závislostn´ıch hran v korpusu. Odpov´ıdaj´ıc´ım zpusobem ˚ jsou potom zkresleny vysledky vyhodnocen´ı pˇresnosti syntak´ tické analyzy. ´ Za tohoto stavu maj´ı vyhodu algoritmy zaloˇzené na strojovém uˇcen´ı, ´ nebot’ tyto se s nekonzistencemi v datech dokázˇ ´ı nˇejak vyrovnat. Radˇeji bychom ovˇsem dali pˇrednost konzistentnˇejˇs´ımu obrazu syntaxe a konzistentn´ım korpusovym ˚ Takovéto rˇeˇsen´ı je ale bohuˇzel zat´ım v nedo´ datum. hlednu. 5.2.2 Ménˇe cˇ asté syntaktické jevy Druhy´ typ chyb, kterych se analyzátor dopouˇst´ı, je zpusoben ˚ omezenou ´ dobou vyvoje pravidel. Pravidla v souˇcasné podobˇe pokryvaj´ ´ ´ ı vˇsechny zásadn´ı syntaktické jevy v cˇ eˇstinˇe, precizn´ı pokryt´ı vˇsech fenoménu˚ by vˇsak vyˇzadovalo mnohem delˇs´ı vyvoj, pokud je vubec ˚ v principu dosaˇzitelné. ´ 43 5. D OSA Zˇ EN E´ ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY ˇ rete pen´ıze, Obrázek 5.1: Hybridn´ı vystup analyzátoru SET pro vˇetu ,,Setˇ ´ netelefonujte, faxujte!” ˇ rete pen´ıze, Obrázek 5.2: Závislostn´ı vystup analyzátoru SET pro vˇetu ,,Setˇ ´ netelefonujte, faxujte!” ˇ rete pen´ıze, netelefonujte, faxujte!” Obrázek 5.3: Reprezentace vˇety ,,Setˇ v PDT 1.0 44 5. D OSA Zˇ EN E´ ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY ˇ sen´ı tˇechto chyb muˇ Reˇ ˚ ze byt ´ dvoj´ıho charakteru: • Dalˇs´ı vyvoj pravidel. Vzhledem k tomu, zˇ e základn´ı syntaktické jevy ´ jazyka jsou jiˇz pokryty, pˇridáván´ı dalˇs´ıch pravidel by dále zvyˇsovalo pˇresnost jen velmi pomalu. Pˇr´ınosem by jistˇe byla spolupráce s jazykovymi odborn´ıky, nebot’ ti maj´ı o cˇ eském jazyce mnohem vˇetˇs´ı zna´ losti a pˇrehled, neˇz autor práce. • Automatické uˇcen´ı z korpusovych ´ dat. Pro málo frekventované jevy muˇ ˚ zeme v budoucnu vyuˇz´ıt techniky uˇcen´ı z pˇr´ıkladu˚ pro natrénován´ı novych ˇ an´ı ´ pravidel z oznaˇckovanych ´ dat a automatické doplnov´ pravidlové mnoˇziny. 5.2.3 Nedostateˇcná lexikáln´ı informace Tento typ chyb je zpusoben ˚ faktem, zˇ e na vstupu syntaktické analyzy u´ vaˇzujeme pouze informace z analyzy ´ morfologické. V nˇekterych ´ pˇr´ıpadech totiˇz potˇrebujeme informac´ı v´ıce. Napˇr´ıklad k tomu, abychom mohli správnˇe analyzovat vˇetu ,,Skákal pes pˇres oves.” potˇrebujeme nˇejaky´ typ informace o tom, zˇ e ,,pes pˇres oves” je jiny´ typ fráze neˇz napˇr. ,,pes od sousedu” ˚ . Informaci tohoto druhu muˇ ˚ zeme v principu z´ıskat z ruzn ˚ ych zdroju: ˚ ´ lze vyuˇz´ıt napˇr. kolokaˇcn´ı statistiky z korpusu, ˚ data z valenˇcn´ıch slovn´ıku, ˚ sémantické typy a vztahy zachycené v sémantickych ´ s´ıt´ıch typu WordNetu cˇ i FrameNetu a dalˇs´ı. Je samozˇrejmˇe otázkou, jak velky´ vliv na pˇresnost analyzy ˚ zeme zde uvést ´ bude integrace konkrétn´ıho zdroje dat m´ıt. Nemuˇ zˇ a´ dny´ rozumny´ odhad, nebot’ nemáme k dispozici informace o zˇ a´ dnych ´ podobnych ´ experimentech. Odpovˇed’ je tak pravdˇepodobnˇe otázkou budouc´ıch experimentu. ˚ 5.3 ˇ Casov´ a nároˇcnost Pˇri testován´ı systému na korpusovych ´ datech byla mˇerˇena i doba analyzy. ´ Jak jiˇz bylo rˇeˇceno dˇr´ıve, efektivita programu v cˇ asové oblasti pro nás nen´ı prvoˇradou prioritou, proto jen krátce: Asymptotická sloˇzitost algoritmu je O ( N R + R log R ), kde N je délka segmentu, R celkovy´ poˇcet pravidel. Za (rozumného) pˇredpokladu, zˇ e kaˇzdé pravidlo má konstantn´ı poˇcet realizac´ı, pro kaˇzdé pravidlo procház´ıme cely´ segment (prvn´ı sloˇzka souˇctu). Nalezené realizace poté tˇr´ıd´ıme podle hodnot´ıc´ıch funkc´ı s konstantn´ı sloˇzitost´ı (druhá sloˇzka souˇctu). Reálnˇe spotˇrebovany´ cˇ as byl mˇerˇen na stroji s procesorem Intel Xeon na frekvenci 2,0 GHz a s RAM pamˇet´ı 2 GB. Pro 10 148 vˇet z testovac´ı 45 5. D OSA Zˇ EN E´ ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY mnoˇziny PDT e-test trval vypoˇ ˚ erny´ ´ cet celkem 23 minut. To znamená prumˇ cˇ as analyzy 0,14 sekundy na jednu vˇetu; inverznˇe za jednu sekundu pro´ gram analyzuje v prumˇ ˚ eru 7,35 vˇety, coˇz odpov´ıdá pˇribliˇznˇe 125 slovum. ˚ 5.4 Dalˇs´ı vyvoj ´ V této cˇ a´ sti krátce rozvedeme nˇekteré dˇr´ıve zm´ınˇené myˇslenky tykaj´ ´ ıc´ı se rozˇs´ırˇen´ı programu a navrhneme tak moˇzné cesty dalˇs´ıho vyvoje analyzá´ toru v bl´ızké budoucnosti. 5.4.1 Analyza ´ v´ıceznaˇcnych ´ morfologickych ´ vstupu˚ Aby nebylo nutné pˇred samotnou syntaktickou analyzou zanásˇ et do vstu´ pu˚ chybu ve formˇe automaticky zjednoznaˇcnˇeného morfologického oznaˇckován´ı, je tˇreba pˇrizpusobit ˚ analyzátor pro práci s v´ıceznaˇcnou morfologickou informac´ı. Tato uprava ´ tézˇ odstran´ı cˇ a´ steˇcnˇe duplicitn´ı práci na syntaktické analyze, kterou nutnˇe provád´ı desambiguátor. ´ Technická uprava ´ analyzátoru pro práci s v´ıceznaˇcnymi vstupy je po´ mˇernˇe jednoduchy´ ukol. ´ Staˇc´ı pˇri hledán´ı realizac´ı zohlednit vˇsechny moˇzné morfologické znaˇcky slov na vstupu. Pro zachován´ı pˇresnosti bude vˇsak patrnˇe tˇreba upravit funkce vyb´ıraj´ıc´ı nejlepˇs´ı realizace a zahrnout do nich také informaci o pravdˇepodobnosti dané morfologické znaˇcky (napˇr. ve formˇe frekvence v korpusu). Podle toho, které realizace budou ve vysledku vybrány, muˇ ˚ zeme dále ´ zpˇetnˇe zpˇresnovat ˇ vysledky morfologické analyzy, podobnˇe jak je to pop´ ´ sáno v [16] pro analyzátor synt. Vzhledem k jednoznaˇcnému vystupu ana´ lyzátoru SET muˇ ˚ zeme pravdˇepodobnˇe oˇcekávat vyraznˇ ejˇs´ı zjednoznaˇcnˇen´ı ´ morfologické analyzy, neˇz je uvedeno v odkazovaném cˇ lánku, ovˇsem také ´ o nˇeco vˇetˇs´ı chybovost. 5.4.2 Vyuˇzit´ı korpusovych ´ statistik Kolokaˇcn´ı statistiky slov z´ıskané z korpusu˚ mohou tvoˇrit velmi zaj´ımavy´ zdroj dat pro zpˇresnˇen´ı syntaktické analyzy. Základn´ı myˇslenka je jedno´ duchá: cˇ ´ım cˇ astˇeji se slova vyskytuj´ı v korpusu bl´ızko sebe, t´ım vˇetˇs´ı je pravdˇepodobnost, zˇ e maj´ı vztah i na syntaktické urovni. ´ Modifikace analyzátoru by tedy spoˇc´ıvala pouze v upravˇ ´ e hodnot´ıc´ıch funkc´ı pro realizace. Bylo by ovˇsem také tˇreba vyˇreˇsit moˇzny´ technicky´ problém s velikost´ı kolokaˇcn´ı databáze a efektivitou vyhledáván´ı v n´ı. 46 5. D OSA Zˇ EN E´ ´ SLEDKY A DAL Sˇ Í V Y´ VOJ VY Pouˇzitá statistika pro vyhledáván´ı kolokac´ı by pˇritom nemusela byt ´ kl´ıcˇ ová – lze vyzkouˇset jednoduché frekvenˇcn´ı statistiky, data z tzv. word sketch tabulek [23] nebo dokonce vyuˇz´ıt v´ıceznaˇcná data z prubˇ ˚ ehu analy´ zy pro z´ıskán´ı korpusovych ´ kolokac´ı. Podstatné u vˇsech tˇechto moˇznost´ı je, zˇ e pouˇzity´ korpus nemus´ı byt ˚ ze tedy byt ´ syntakticky oznaˇckován a muˇ ´ dostateˇcnˇe velky´ na to, aby z nˇej bylo moˇzné extrahovat statisticky vyznamn´ e ´ vysledky. ´ 47 Kapitola 6 Závˇer C´ılem práce bylo ovˇerˇit moˇznosti vyuˇzit´ı postupné segmentace vˇety v syntaktické analyze ´ pˇrirozeného jazyka, konkrétnˇe cˇ eˇstiny, a navrhnout systém pro syntaktickou analyzu, ktery´ tuto metodu bude vyuˇz´ıvat. ´ Práce obsahuje tˇri hlavn´ı celky. Prvn´ım z nich je obecny´ pˇrehled o soucˇ asnych ´ hlavn´ıch proudech v syntaktické analyze ´ cˇ eˇstiny. V této cˇ a´ sti jsme uvedli formalismy pouˇz´ıvané k zachycen´ı syntaxe cˇ eˇstiny, diskutovali jejich vyhody i nedostatky a pˇredstavili nˇekteré analyzátory vyv´ıjené na základˇe ´ zm´ınˇenych ˚ ´ formalismu. Ve druhém tematickém celku popisujeme teoreticky´ rámec novˇe navrhované metody pro syntaktickou analyzu, pouˇceni z nedostatku˚ diskuto´ vanych ´ v cˇ a´ sti prvn´ı. V posledn´ı rámcové cˇ a´ sti se zabyv´ ´ ame návrhem konkrétn´ıho systému pro syntaktickou analyzu cˇ eˇstiny. Popisujeme jeho celkovy´ návrh a imple´ mentaci, pouˇzity´ pravidlovy´ systém a pouˇzit´ı vysledn´ eho programu. V zá´ vˇeru se zabyv´ ´ ame mˇerˇen´ım pˇresnosti, rozborem chyb analyzy ´ a pˇredj´ımáme smˇery dalˇs´ıho vyvoje programu. ´ Za hlavn´ı pˇr´ınos práce povaˇzujeme návrh a realizaci nového pˇr´ıstupu k syntaktické analyze ´ pˇrirozeného jazyka. Navrhovany´ pˇr´ıstup má cˇ etné vyhody; jmenujme zde alesponˇ pˇrehledny´ a souˇcasnˇe velmi expres´ıvn´ı pra´ vidlovy´ formalismus, rozˇsiˇritelnou a pˇrehlednou implementaci a univerzáln´ı pouˇzitelnost. Z vysledk u˚ mˇerˇen´ı tézˇ vyplyv´ ´ ´ a, zˇ e navrˇzeny´ analyzátor je srovnatelny´ se souˇcasnymi analyzátory cˇ eˇstiny a po implementaci nˇekte´ rych ˚ ze soupeˇrit o prvn´ı m´ısto mezi nimi. ´ navrhovanych ´ rozˇs´ırˇen´ı muˇ Sekundárn´ım pˇr´ınosem práce jsou obsaˇzené diskuse o reprezentaci syntaxe, vhodnosti jednotlivych ´ an´ı syntaxe pˇrirozenych ´ formalismu˚ pro kodov´ ´ jazyku˚ a pˇripomenut´ı obecného problému subjektivity syntaxe. P´ısˇ eme zejména o potˇrebˇe konzistentnˇejˇs´ıho pohledu na reprezentaci syntaxe pˇrirozenych ´ jazyku˚ a ukazujeme konkrétn´ı pˇr´ıklady, kdy souˇcasné pˇr´ıstupy selhávaj´ı. Vˇerˇ´ıme, zˇ e podobné uvahy ´ povedou ke zkvalitnˇen´ı formáln´ıho pˇr´ıstupu k pˇrirozenym ˚ a zˇ e nás opˇet o kruˇ ˚ cek pˇribl´ızˇ ´ı ideálu umˇelé ´ jazykum inteligence. 48 Literatura [1] S. Abney. Part-of-speech tagging and partial parsing. Corpus-Based Methods in Language and Speech Processing, 2, 1997. [2] M. Collins. dep2phr – conversion between dependency and phrase structures, 1998. http://ufal.mff.cuni.cz/pdt/Utilities/dep2phr/. [3] J. Hajiˇc. Complex Corpus Annotation: The Prague Dependency Treeˇ ura, bank. Bratislava, Slovakia, 2004. Jazykovedny´ ustav ´ L’. St ´ SAV. [4] J. Hajiˇc. Building a syntactically annotated corpus: The Prague Dependency Treebank. In Issues of Valency and Meaning, pages 106–132, Prague, 1998. Karolinum. [5] J. Hajiˇc, M. Collins, L. Ramshaw, and C. Tillmann. A Statistical Parser for Czech. In Proceedings ACL’99, Maryland, USA, 1999. ˇ epánek, P. Pajas, [6] J. Hajiˇc, J. Panevová, E. Buránov´ ˇ a, Z. Ureˇsová, J. Stˇ and J. Kárn´ık. Anotace na analytické rovinˇe – Návod pro anotátory, 2005. http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer. [7] P. Harrison, S. Abney, E. Black, D. Flickinger, C. Gdaniec, R. Grishman, D. Hindle, R. Ingria, M. Marcus, B. Santorini, and T. Strzalkowski. Evaluating syntax performance of parser/grammars of English. In J. G. Neal and S. M. Walter, editors, Natural Language Processing Systems Evaluation Workshop: Final Technical Report RL-TR-91-362, pages 71– 77, Griffiss Air Force Base, NY, 1991. Rome Laboratory. [8] T. Holan. Tvorba závislostn´ıho syntaktického analyzátoru. In Sborn´ık seminárˇe MIS 2004. Matfyzpress, Prague, Czech Republic, 2004. [9] T. Holan. Genetické uˇcen´ı závislostn´ıch analyzátoru. ˚ In Sborn´ık seˇ minárˇe ITAT 2005. UPJS, Koˇsice, 2005. 49 ´ Eˇ R 6. Z AV ˇ [10] T. Holan and Z. Zabokrtsk y. ´ Combining Czech Dependency Parsers. In Lecture Notes in Artificial Intelligence, Proceedings of TSD 2006, pages 95–102, Brno, Czech Republic, 2006. Springer Verlag. [11] A. Horák. The Normal Translation Algorithm in Transparent Intensional Logic for Czech. PhD thesis, Masaryk University, 2002. [12] A. Horák. Computer Processing of Czech Syntax and Semantics. Librix.eu, Brno, Czech Republic, 2008. [13] A. Horák, T. Holan, V. Kadlec, and V. Kovárˇ. Dependency and Phrasal Parsers of the Czech Language: A Comparison. In Lecture Notes in Artificial Intelligence, Proceedings of Text, Speech and Dialogue 2007, pages 76–84, Plzen, ˇ Czech Republic, 2007. Springer-Verlag. [14] A. Horák and V. Kadlec. New Meta-grammar Constructs in Czech Language Parser synt. In Lecture Notes in Artificial Intelligence, Proceedings of Text, Speech and Dialogue 2005, pages 85–92, Karlovy Vary, Czech Republic, 2005. Springer-Verlag. [15] A. Horák and P. Smrˇz. Best analysis selection in inflectional languages. In Proceedings of the 19th international conference on Computational linguistics, pages 363–368, Taipei, Taiwan, 2002. Association for Computational Linguistics. [16] M. Jakub´ıcˇ ek. Extraction of syntactic structures based on the Czech parser synt. In Proceedings of Recent Advances in Slavonic Natural Language Processing 2008, pages 56–62, Brno, Czech Republlic, 2008. Masaryk University. [17] V. Kadlec. Syntactic analysis of natural languages based on contextfree grammar backbone. PhD thesis, Masaryk University, 2008. [18] V. Kovárˇ and A. Horák. Reducing the Number of Resulting Parsing Trees for the Czech Language Using the Beautified Chart Method. In Proceedings of 3rd Language and Technology Conference, pages 433– 437, Poznan, ´ 2007. Wydawnictwo Poznanskie. ´ [19] V. Kovárˇ, A. Horák, and V. Kadlec. New Methods for Pruning and Ordering of Syntax Parsing Trees. In Proceedings of Text, Speech and Dialogue 2008. In Lecture Notes in Artificial Intelligence, Proceedings of Text, Speech and Dialogue 2008, pages 125–131, Brno, Czech Republic, 2008. Springer-Verlag. 50 ´ Eˇ R 6. Z AV [20] V. Kovárˇ and M. Jakub´ıcˇ ek. Test suite for the Czech parser synt. In Proceedings of Recent Advances in Slavonic Natural Language Processing 2008, pages 63–70, Brno, Czech Republlic, 2008. Masaryk University. [21] V. Kubon, ˇ M. Lopatková, M. Plátek, and P. Pognan. Segmentation of complex sentences. In Proceedings of the 9th International Conference, TSD 2006, number 4188 in Lecture Notes In Computer Science, pages 151–158. Springer-Verlag Berlin Heidelberg, 2006. [22] R. McDonald. Discriminative learning and spanning tree algorithms for dependency parsing. PhD thesis, University of Pennsylvania, 2006. [23] P. Rychly´ and P. Smrˇz. Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs, pages 124–132, Saint-Petersburg, 2004. Saint-Petersburg State University Press. [24] G. Sampson. A Proposal for Improving the Measurement of Parse Accuracy. International Journal of Corpus Linguistics, 5(01):53–68, 2000. [25] R. Sedlácˇ ek. Morphemic Analyser for Czech. PhD thesis, Masaryk University, 2005. ˇ acˇ ková. Parciáln´ı syntaktická analyza [26] E. Z´ ´ (ˇceˇstiny). PhD thesis, Masaryk University, 2002. [27] D. Zeman. Neprojektivita v Praˇzském závislostn´ım korpusu (PDT). ´ Technical Report TR-2004-22, UFAL/CKL MFF UK, Prague, 2004. 51 Dodatek A Pˇrı´loha A: Ukázka spuˇstˇen´ı programu $ set.py -g ../pdt/brief/00004 Parsing segment 0: ˇ Setˇ rete pen´ ıze , netelefonujte , faxujte ! -------------interjections ... ends ... Match found: ! ıze , netelefonujte , faxujte rete pen´ Sub-segment created: ˇ Setˇ Sub-segment created: ! Phrase created: ::: <sentence> <ends> ::: head = <sente nce> Parsing segment 0.0: ˇ Setˇ rete pen´ ıze , netelefonujte , faxujte -------------interjections ... ends ... hard delimiters ... relative clauses ... coordinations and other constructs ... Match found: pen´ ıze , netelefonujte , Rule: noun $...* comma $...* verb $...* rbound MARK 2 4 6 intr> DEP 0 HEAD 4 IMPORTANT 0 2 4 PROB 2 Match found: ˇ Setˇ rete , netelefonujte Rule: [tag k5m(IBRAP)] ... $AND ... [tag k5m(IBRAP)] MARK 2 4 HEAD 2 IMPORTANT 2 4 PROB 10000 Match found: ˇ Setˇ rete , faxujte Rule: [tag k5m(IBRAP)] ... $AND ... [tag k5m(IBRAP)] MARK 2 4 HEAD 2 IMPORTANT 2 4 PROB 10000 rete , faxujte Match found: ˇ Setˇ Rule: [tag k5m(IBRAP)] ... $AND ... [tag k5m(IBRAP)] MARK 52 < 0 0 0 ´ A. P Rˇ Í LOHA A: U K AZKA ˇ NÍ PROGRAMU SPU Sˇ T E 2 4 HEAD 2 IMPORTANT 2 4 PROB 10000 Match found: netelefonujte , faxujte Rule: [tag k5m(IBRAP)] ... $AND ... [tag k5m(IBRAP)] MARK 0 2 4 HEAD 2 IMPORTANT 2 4 PROB 10000 Match found: ˇ Setˇ rete , netelefonujte Rule: $1 $...* comma $...* $3 MARK 0 2 4 HEAD 2 AGR EE 0 4 c PROB 0 Match found: netelefonujte , faxujte Rule: $1 $...* comma $...* $3 MARK 0 2 4 HEAD 2 AGR EE 0 4 c PROB 0 Match selected: netelefonujte , faxujte :: :: netelef onujte , faxujte Match selected: ˇ Setˇ rete , netelefonujte :: :: ˇ Setˇ rete , netelefonujte Phrase created: ::: ˇ Setˇ rete , netelefonujte , faxujte ::: head = , dependencies ... ıze rete pen´ Match found: ˇ Setˇ Rule: verb_all ... noun MARK 2 DEP 0 Match found: ˇ Setˇ rete pen´ ıze Rule: verb_all noun MARK 1 DEP 0 PROB 200 ıze netelefonujte Match found: pen´ Rule: noun ... verb_all MARK 0 DEP 2 PROB 80 Match found: pen´ ıze faxujte Rule: noun ... verb_all MARK 0 DEP 2 PROB 80 Match found: ˇ Setˇ rete pen´ ıze Rule: verb_all ... [tag k(13)c4] MARK 2 DEP 0 PROB 300 Match found: pen´ ıze netelefonujte Rule: [tag k(13)c4] ... verb_all MARK 0 DEP 2 PROB 150 Match found: pen´ ıze faxujte Rule: [tag k(13)c4] ... verb_all MARK 0 DEP 2 PROB 150 Match found: pen´ ıze , Rule: [tag k.] [tag kI] MARK 1 DEP 0 PROB 20 Match found: netelefonujte , Rule: [tag k.] [tag kI] MARK 1 DEP 0 PROB 20 Match selected: ˇ Setˇ rete pen´ ıze Rule: verb_all ... [tag k(13)c4] MARK 2 DEP 0 PROB 300 segment head selection ... Head selected: ======================= 53 ´ A. P Rˇ Í LOHA A: U K AZKA ˇ NÍ PROGRAMU SPU Sˇ T E Parsing segment 0.1: ! -------------interjections ... ends ... hard delimiters ... relative clauses ... coordinations and other constructs ... dependencies ... segment head selection ... Head selected: ! ======================= Back to segment 0: <sentence> <ends> -------------hard delimiters ... relative clauses ... coordinations and other constructs ... dependencies ... segment head selection ... Head selected: ======================= 0 ˇ Setˇ rete 6 p 1 pen´ ıze 0 d 2 , 6 p 3 netelefonujte 6 p 4 , 6 p 5 faxujte 6 p 6 7 p 7 <sentence>10 p 8 ! 9 p 9 <ends>10 p 10 -1 p 54

MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY. postupné segmentace věty

Recommend Documents