#GaiNagusiak

Elhuyar Fundazioak web-corpusen ataria aurkeztu du, kontsultarako tresna gisa

Noiz argitaratua: 13/02/13 | Kategoria: Ikerketa | Gaiak: #Informatika #Hizkuntzalaritza
 Web-corpusen ataria

Elhuyar Fundazioak web-corpusen atari bat eratu du, eta kontsultagai jarri du. Erabiltzaileek hiru baliabide izango dituzte eskura: euskarazko corpus elebakar bat, 125 milioi hitzez osatua; euskara-gaztelania corpus paralelo bat, 18 milioi hitz inguru dituena; eta euskarazko corpusetik automatikoki erauzitako hitz-konbinazioak. Nabarmentzekoa da baliabide horiek guztiak Internetetik automatikoki eratuak izan direla, Elhuyar Fundazioko I+G taldeak garatutako teknologiari esker. Web-corpusen ataria http://webcorpusak.elhuyar.org webgunean dago kontsultagai.

Corpusak ezinbesteko baliabideak dira hizkuntzaren azterketan oro har, zein lexikografian, sintaxian, semantikan… eta antzeko arlo jakinetarako. Web-corpusen atari honen berezitasuna da Internet izan dela datu-bilketarako iturria, Elhuyar Fundazioak aldarrikatzen baitu “Internet oso datu-iturri garrantzitsua dela euskara aztertzeko, eta sarean euskararen erabilera nolakoa den jakitea denontzat dela interesgarria”.

Hiru baliabide

Web-corpusen ataria dagoeneko publikoa da, eta erabiltzaileek hiru baliabide dituzte eskura: euskarazko corpus elebakarra, euskara-gaztelania corpus paraleloa eta euskarazko corpusetik erauzitako hitz-konbinazioak. Euskarazko corpusari dagokionez, orain arte eratu den euskarazko corpusik handiena da, alde handiz gainera, 125 milioi hitz inguru jasotzen baititu. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta linguistikoki etiketatuta daude.

Web-corpus hori biltzeko tresnak urrats hauek ematen ditu: Interneteko euskarazko orriak lokalizatu, orri ez-egokiak iragazi, orri errepikatuak edo ia berdinak ezabatu eta orritik edukizkoak ez diren atalak kendu (izenburuak, menuak, nabigazio aukerak, oin-oharrak). Hala, testu nagusiarekin geratzen da.

Atari honetan kontsultagarri dagoen bigarren corpusa, euskara-gaztelania corpus paraleloa, Elhuyar Fundazioko I+G sailak garatutako PaCo2 tresna erabiliz sortu dute. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu. 18 milioi hitz inguru ditu corpusak, eta egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, linguistikoki etiketatuta dago. Oso baliagarria da hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.

Azkenik, Hitz-konbinazioak atalean, euskarazko corpusetik automatikoki erauzitako hiru motatako konbinazioak eskaintzen dira: izen+aditz, izen+izen eta izen+izenondo. Horren bidez, erabiltzaileak ikus dezake, esaterako, izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.

Iñaki San Vicente Elhuyar Fundazioko I+G saileko kideak nabarmendu duenez, “bilketa-prozesua automatikoa izateak abantaila argiak ditu, baina arazoak ere baditu. Alde batetik, corpus hau eskuz biltzeak suposatuko lukeen denbora eta ahalegina bideraezin egingo lukete proiektua. Bestalde, ordea, prozesua automatikoa izateak amaierako corpusaren kalitatea optimoa ez izatea dakar. Izan ere, ezin dugu bermatu lortutako segmentu guztien zuzentasuna, dokumentu batzuek itzulpen partzialak besterik ez baitituzte, zenbait dokumentu, paralelo gisa aurkezten diren arren, hizkuntza batean eta bestean agertzen den edukia ez baita berdina, eta abar”. Oro har, “gure corpus paraleloak eskaintzen dituen segmentuen % 90 da zuzena”, zehaztu du San Vicentek.

Informazio osagarria

  • Web-corpusen ataria, Elhuyar Fundazioa
Basque Research

Egilea: Basque Research (Elhuyar Fundazioa)

Laguntzailea: