#GaiNagusiak

UPV/EHUko ikertzaile-talde batek ahozko hizketa prozesatzen eta ulertzen duten sistemak garatzen dihardu euskararentzat

Noiz argitaratua: 08/03/10 | Kategoria: Ikerketa | Gaiak: #Teknologia
 UPV/EHUko Donostiako Unibertsitate Eskola Politeknikoko eta Informatika Fakultateko Sistemen Ingeniaritza eta Automatika  saileko ikertzaile-taldea.

UPV/EHUren Donostiako Unibertsitate Eskola Politeknikoko eta Informatika Fakultateko Sistemen Ingeniaritza eta Automatika saileko ikertzaile-talde batek, Miren Karmele López de Ipiña irakaslea buru duela, ahozko hizketa prozesatzen eta ulertzen duten sistema batzuk garatzen dihardu, bereziki euskal irratietatik eta telebistetatik informazioa automatikoki eskuratzeko.

Idatziz jasotakoa bilatzea erraza da sarean. Horretarako, kontsultatu nahi dugun hitza bilatzailean idaztea besterik ez dugu. Bilaketa horietan, ordea, audio-fitxategietan esandakoak galtzen ditugu besteak beste, betiere, audio-fitxategi horietan esandakoaren azalpenak testu idatzian jasotzen ez badira.

Ahozko hizketa ezagutzea eta hura testu bihurtzea ez da lan erraza. Hitzak ez dira ongi bereizten bata bestetik, intonazioa kontuan izan behar da, eta, gainera, seinale fisikoen zarata ere oztopo da. Horren harira, merkatu handia zabaldu da ahozko hizketa prozesatzen eta ulertzen duten sistementzat. Alegia, ahozkoa testu idatzi bihurtuko diguten tresnentzat. Sistema horiek batez ere telefono bidezko zerbitzuetan integratzen dira oraingoz: aurretiko hitzordua, produktu-eskaerak, ikuskizunetarako erreserba-eskea eta abar. Baina badaude bestelakoak ere: diktaketa automatikoa, adibidez. Alegia, esandakoa aldi berean testu bilakatzen duten sistemak. Azken horretan dihardute lanean, hain zuzen ere, UPV/EHUko Sistemen Ingeniaritza eta Automatika sailean, besteak beste.

Hizketaren tratamendua egiteko, sistema asko eta ongi trebatu behar da. Alegia, sistemak nolabaiteko entrenamendua jaso behar du, makina-ikasketa deritzona. Horretarako, batetik, telebista nahiz irratietako fitxategiak, audioak nahiz soinuak behar dira; eta bestetik, komunikabide horietan esan denaren erreferentziazko testuak. UPV/EHUko ikertzaileek, adibidez, ETBko Gaur Egun eta Teleberri programak erabiltzen dituzte maiz, sistema trebatzeko. Ez da beharrezkoa hitzez hitz zer esan den jakitea; bai, ordea, esandakoaren laburpen bat jasotzeko gai izatea sistema. Azken finean, soinu eta hitzen arteko erlazioa ulertzen saiatzen da.

Ikasketa-prozesua amaitu ostean, edozein Gaur Egun-etan edo Teleberri-tan esandakoa ulertzeko gai izan behar luke sistemak. Ikastea prozesu motela izan arren, sistemak behin arauak edo informazioa barneratuta duenean, hau da, erreferentziazko material egokia duenean, nahiko azkar erakusten du emaitza. Kasu honetan, ahoz esandakoaren testu idatzia.

Txikia handi

Egia da merkatuan aurki daitezkeen horrelako aplikazio gehienek hizkuntza ’handiak’ dituztela helburu; ingelesa, batik bat. Dena den, Donostiako Unibertsitate Eskola Politeknikoko ikertzaileek, UPV/EHUko IXA, GTTS eta Adimen Konputazionala taldeekin elkarlanean, euskararekin dihardute lanean. Hizkuntza ‘handi‘ eta ’txiki‘ horien arteko ageriko ezberdintasun nagusia erreferentziazko datu-kopuruan datza. Mota horretako ingelesezko tresnek ikaragarrizko datu piloa izaten dute; euskarazkoen erreferentziazko materiala, berriz, dezente txikiagoa da. Horren harira, datu gutxi horiek hobeto eta zehaztasun handiagoz aprobetxatzeko teknika berriak bilatzen ari dira ikertzaileak.

Zehaztasun-maila hori lortzeko, zenbait ekuazio matematiko erabiltzen dituzte. Datu-multzo eta audio-fitxategi horietatik informazio aproposa emango duten ezaugarri garrantzitsuenak aurkitzen saiatzen dira. Dena den, nahiko zaila da hautaketa hori egitea; alegia, jasoko den eta baztertuko den informazioa aukeratzea. Normalean, maiztasunarekin eta intonazioarekin lan egiten dute, une bakoitzean sistema jasotzen ari den informazio-mota bereizteko (galdera bat edo adierazpen-perpaus bat den bereizteko, adibidez).

Sistema horiek hizkuntzaren mende daude erabat, eta hizkuntza bakoitzak bere tresna du. Baina, UPV/EHUko ikertzaileek, adibidez, euskararekin ez ezik, gaztelaniarekin eta frantsesarekin ere egiten dute lan. Teleberri programak edo Infozazpi-ko saioak aztertzen dituztenean, esaterako, bi helburu nagusi dituzte: batetik, gaztelania eta frantsesa ulertu nahi dituzte —euskararekin batera—, eta, bestetik, mota horietako sistemetan euskararen eta beste bi hizkuntza horien artean dauden antzekotasunak bilatu nahi dituzte, euskarazko tresnak hobeto trebatu ahal izateko.

Bide horretan, gaur egun, tresna berean hizkuntza bat baino gehiago erabiltzeko aukera aztertzen duten hainbat saiakuntza egiten ari dira. Horixe da, hain zuzen ere, UPV/EHUko ikertzaileen etorkizuneko erronka: euskara, gaztelania eta frantsesa ulertzeko gai izango den sistema bat garatzea.

Informazio osagarria

Komunikazio Bulegoa

Egilea: Komunikazio Bulegoa (UPV/EHU)

Laguntzailea: