Hizkuntza:
eu
es
en
Elhuyar zientziaren komunikazioa

BASQUE RESEARCH
 Euskal ikerketa, garapena eta berrikuntzaren webgunea

Kontaktua:
Antton Gurrutxaga
Elhuyar Fundazioa
Harremanetarako datuak:
a.gurrutxaga@elhuyar.com
(+34) 943 363040
Elhuyar Fundazioa

2004/9/9

ERAUZTERM: euskarazko terminoak erauzteko tresna

IXA taldeak (EHU) eta Elhuyar Fundazioak euskarazko testuetatik terminoak erauzteko tresna bat garatu dute. Tresnak teknika linguistikoak eta estatistikoak erabiltzen ditu, eta XML teknologiaz inplementatu da. Erauzterm LREC 2004 eta GLAT 2004 nazioarteko biltzarretan aurkeztu da.

Erauzterm proiektua Hizking 21 proiektu estrategikoaren barruan dago. Hain zuzen ere, Hizking 21 proiektuak ingeniaritza linguistikoaren oinarrizko ikerketa bultzatu nahi du, eta beste hizkuntzetarako dauden tresna eta baliabideak garatu nahi ditu euskararako.

Euskara hizkuntza eranskaria da, eta, horregatik, informazio morfosintaktikoa kontuan hartzea ezinbestekoa da termino hautagaiak detektatzeko. Are gehiago, euskarak beste hizkuntza normalizatuago batzuek baino termino-sakabanatze handiagoa du.

Tresnaren diseinua eta oinarriak

Erauzterm tresnak, oraingoz, izen-sintagma egiturako terminoak erauzten ditu. Euskarazko izen-sintagmen egitura ohikoenak, eta, beraz, emankorrenak, hautatu dira. Horretarako abiapuntua IXA taldeak aurrez egindako lana izan da (Urizar et. Al. 2000), baina zenbait eredu gehitu ditugu. Horretarako, 50.000 hitzeko lagin bat eskuz prozesatu da. Lagina Elhuyar Fundazioaren Zientzia.net atarian argitaratutako informatika-alorreko 48 artikuluz osatua da. Terminologoek testu-lagin horretako terminoak erauzi dituzte, eta bakoitzaren egitura morfosintaktikoa ere zehaztu dute. Erreferentzia-lagin hori, termino ereduak zehazteko baliagarria izateaz gain, termino-erauzketaren emaitza ebaluatzeko erreferentzia ere izan da.

Erauzketa automatikoaren lehen urratsa jatorrizko dokumentuak XML formatura bihurtzea da. Ondoren, XML corpus gordina linguistikoki prozesatzen da, Euslem erabiliz. Horren ondorioz, testu-hitzaren, lemaren, kategoria morfosintaktikoaren eta flexioaren informazioa etiketatzen da corpusean.

Termino-ereduen araberako testu-kateak detektatzeko, ereduak gramatika baten bidez deskribatu eta hori egoera finituko transduktore batean konpilatu da. Transduktoreak Euslem-en irteera den corpus etiketatua hartzen du sarreratzat, eta morfosintaxi-ereduen araberako testu-kate luzeenak detektatzen ditu. Ondoren, azpisintagmen analisia egiten du, kate luzeenetan habiatuta dauden termino-hautagaiak ere erauzteko. Prozesu horren ondoren, termino hautagaiz osatutako zerrenda bat lortzen da, eta, azkenik, modulu estatistikoak zerrenda horretako terminoak sailkatu eta aukerarik gehien duten terminoak eskaintzen ditu. Hitz bakarreko zein hitz anitzeko terminoak tratatzen dira, eta, horretarako, hainbat teknika estatistiko erabiltzen dira. Termino bakunen kasuan, hizkuntza orokorreko datuekin konparatzen da terminoaren maiztasun erlatiboa. Hitz anitzeko terminoetarako, elkartze-neurriak erabiltzen ditu.

Testuen formatuei dagokienean, Erauzterm tresnak hainbat formatu onartzen ditu. Erauzten diren terminoen testuingurua jakiteko aukera du erabiltzaileak, baita terminoak balioesteko eta esportatzeko ere. Horretarako, hiru ataletan banatu da tresnaren arkitektura logikoa: erabiltzailearen interfazea, prozesatze-logika eta datuen kudeaketa. Diseinu fisikoari dagokionez, nabigatzaile bat, zerbitzari bat eta XML datu-basea erabili dira (Berkeley DB XML).

Ondorioak

Arlo honetako ikerketek adierazten dutenaren arabera, termino-erauzketaren estaldura/doitasuna erlazioa ezin da erabat optimizatu. Nolanahi ere, termino erauziak eskuz balioesteko aukera dagoen sistemetan, zentzuzkoena estaldura handiena eskaintzea da.

Erauztermek 60/35 estaldura/doitasun erlazioa eskaintzen du. Termino-erauzketan, diren

termino guztiak ez dira erauzten, eta estaldurak hori neurtzen du (testuan dauden terminoetatik, zenbat erauzten diren). Erauzten diren hautagai guztiak ere ez dira termino, eta doitasunak neurtzen du hori (erauzten diren unitateetatik, zenbat diren termino). Gure erauzketaren ebaluazioa egiteko, beharrezkoa da horien balioak jakitea.

Hurrengo urratsa erlazio hori hobetzea izango da, eta, bereziki, estaldura handitzea. Horretarako arazo nagusiak hauek dira: a) euskarazkoak ez diren hitzen tratamendua; b) Euslem-ek ezagutzen ez dituen testu-hitzen analisia hobetzea (lemaren eta kategoria morfosintaktikoa esleitzea eta desanbiguatzea), c) postposizioen tratamendua. Azken horiek arazo ugari sortzen dituzte (zarata), eta, horregatik, sistemaren gramatika egokitzen ari da. Bestalde, euskarazkoak ez diren terminoak bereizteko, etiketatzailea fintzeko lanetan ari da lantaldea. Aurrerantzean proiektua garatzeko asmoen artean, aipatzekoak dira termino-aldaeren tratamendua, ikasketa automatikoaren bidezko erauzketa eta terminoen arteko erlazio kontzeptualak ezartzea.

Beste hizkuntzetarako garatutako tresnek, euskarazko testuetatik terminoak erauzteko erabiltzen direnean, emaitza aski txarrak ematen dituzte, eta, ondorioz, alor honetan aurrerapauso handia da Erauzterm.

Itzuli orriaren hasierara
Oharrak
IXA taldea: ixa.si.ehu.es/Ixa
Interneteko helbidea
www.hizking21.org
Itzuli orriaren hasierara

Bilaketa bat egin

Basque Research-en bilatu [ Bilaketa aurreratua ]

Saioa hasi

Erabiltzaile-datuak

Erregistroa

Itzuli orriaren hasierara

Erabiltzaile erregistratuentzako menua

Itzuli orriaren hasierara

Zerbitzuak

Itzuli orriaren hasierara Itzuli orriaren hasierara

Babesleak:

Eusko Jaurlaritza FECYT SINC Ministerio de Ciencia

Webgune honetako edukiak ezin dira erabili baimenik gabe.

Copyright © 2007 Elhuyar Fundazioa

basqueresearch@elhuyar.com