Euskaltzaindiak euskararen corpus "erakusgarria, orekatua eta kalitatekoa" aurkeztu du

Euskaltzaindiak euskararen corpus "erakusgarria, orekatua eta kalitatekoa" aurkeztu du
EUSKALTZAINDIA
Europa Press País Vasco
Actualizado: lunes, 31 marzo 2025 12:14

BILBO, 31 (EUROPA PRESS)

Euskaltzaindiak euskararen corpus "erakusgarria, orekatua eta kalitatekoa" aurkeztu du astelehen honetan, duela lau urte martxan jarritako Euskararen Erreferentzia Corpusa (EEC) egitasmoaren baitan.

Akademiaren Bilboko egoitzan egin den agerraldian izan dira, besteak beste, Ibone Bengoetxea Eusko Jaurlaritzako lehenengo lehendakariorde eta Kultura eta Hizkuntza Politikako sailburua, Andres Urrutia euskaltzainburua, Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduraduna eta Aitor Maritxalar Akademiaren aholkulari-teknologikoa.

Hizkuntza corpusa datu bilduma handi bat da, egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri legez erabiltzen dena. Era berean, erreferentzia corpusa deritzo hizkuntza baten garai zehatz baten ahalik eta erakusgarririk xeheena eta aldi berean zabalena izateko sortu den corpusari.

Euskararen Erreferentzia Corpusa diseinatzerakoan hiru irizpide nagusi erabili dira. 'Medioa' euskaraz idatzitako testuetan oinarritua dago (batez ere bertsio elektronikoetatik abiatuta). Ahozkoaren transkripziorik ez du oraingoz, baina ahozkorako prestatutakoa bai biltzen duela (serieak, filmak, gidoiak). Testuen % 48 liburuetatik dator corpusera, %48 aldizkako argitalpenetatik eta beste %4a, sarerako berariaz sortutako materialetik.

Bigarren irizpidea 'sailkapena' izan da: bi sail nagusitan sailkatu dira testuok, fikzioa (%25) eta ez-fikzioa (%75) multzoetan banatuta. Hirugarrenik 'kronologia' dago, azken 25 urteetako testuak jasoko baititu beti Euskararen Erreferentzia Corpusak: lehen bertsioak 2000. urtetik hasi eta 2023. urterainoko testuak barne hartu ditu, eta urtean-urtean eguneratuko da, corpus dinamikoa izanik.

"Irizpide horien guztien konbinazio orekatuak dakar erreferentzialtasuna. Horrexek definitzen du erreferentzia corpusa, orekari eustea beti erraza ez bada ere. Eta, aldi berean, irizpide horiek hiztegiko kontsultak beharren arabera mugatzeko aukera edo bidea ematen digute", azaldu du Miriam Urkiak.

Argitaratutako bertsioak 123.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema biltzen ditu, 2000tik 2023ra bitartean euskaraz idatzitako edo ekoitzitako testuetatik hartuak. Testu horiek guztiak lematizatuak eta sailkatuak izan dira aurretik. Horrela, lema, forma eta kategoria gramatikalen bidezko kontsultak egitea ahalbidetzen du.

Jatorriari erreparatuz: liburuetatik datozen testu-hitzak 68,42 milioi dira (%44,37), aldizkako argitalpenetatik 72,49 milioi (%47,01), sarerako berariaz idatzitakoak 4 milioi (%2,59) eta bestelako edukiak 9,3 milioi (%6,03). Testu motaren arabera, fikziozko testu-hitzak 39,67 milioi dira (%25,73) eta ez-fikziozko testuak 114,54 milioi (%74,27).

"IREKIA ETA KOLEKTIBOA"

Andres Urrutiak esan du corpus berria "erreferentzia corpusa" dela, "irekia eta kolektiboa". "Erreferentzia corpusa da, alegia, oreka baten bila doana, hizkuntzaren nondik norako zehatzak eta orekatuak bildu nahi dituena, arlo desberdinetako laginak bilduz, egungo euskararen isla emanez", adierazi du.

Bere hitzetan, corpus "irekia ere bada, orain arteko materialak bildu dituena eta geroago garrenean ere zabaltzen joango dena, eragile eta material berriekin".

"Eta, nola ez, kolektiboa da, Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikoekin batera egin duelako, hedabide nagusiekin eta gizarte-eragile askorekin batera", gaineratu du.

Bere aldetik, Ibone Bengoetxeak nabarmendu du Euskaltzaindiak hizkuntzari "prestigioa" ematen diola. "Euskaltzaindiatik landu eta eskaintzen ari zareten euskararen corpus hau gure historiaren zati bat da eta, aldi berean, gure herriaren etorkizuna gidatuko duen erreferentziazko tresna ere bada", esan du.

Bestalde, Miriam Urkiak azaldu duenez, Euskararen Erreferentzia Corpusaren zimenduak aspaldi jarri ziren: "Euskaltzaindia XX. mendeko 80. hamarkadan hasi zen corpusak lantzen, eta aitzindaria izan da euskal corpusgintzan".

"Orotariko Euskal Hiztegiaren corpusa eta XX. Mendeko Euskararen Corpus Estatistikoa ondu zituen aurrena. Ondoren, XXI. mendean sartuaz batera, Lexikoaren Behatokia corpus monitorea osatu zuen. Haingabe Euskaltzaindiak ez zituen izango, esate baterako, Euskaltzaindiaren Hiztegiko hitzak, adierak, erabilera markak eta horien testuinguruak adierazteko adibideak", ziurtatu du.

Hala ere, esan du corpus handiago eta orekatuago baten beharraz jakitun zegoela Akademia, euskararen egunean eguneko erabileraren berri izateko eta hizkuntza teknologiek ekartzen diituzte erronkei aurre egiteko, eta orain dela lau urte, hutsune hori betetzeko Euskararen Erreferentzia Corpusa abian ipini zuen.

HELBURU NAGUSIA

Bada, Miria Urkiak adierazi du corpus berria "analisi linguistikorako, ikasketa automatikorako edo hizkuntza ikerketetan hipotesiak baliozkotzeko tresna funtsezkoa" dela, "baina baita hizkuntza, literatura edo ikerketa helburuetarako corpus estandar edo erreferente gisa erabil litekeena ere".

"Egungo egoera islatzen duen neurrian, hizkuntzaren irakaskuntzan jarduten dutenek erabilgarri izango dute, lexiko eta gramatika zalantzak argitzeko, eta, jakina, corpus handi horietarako eredu egokiak balioztatzeko ere", gaineratu du.

Ildo horretan, Andres Urrutiak nabarmendu du Euskararen Erreferentzia Corpusa "orekatua" dela. Azaldu duenez, "EEC egiterakoan kontuan izan ditugu oreka eta adierazgarritasuna. Egungo euskararen erabilera islatzeko helburuarekin, garrantzitsuak dira gaien aniztasuna mantentzea, euskalki guztietako adibideak eta testu iturri desberdinetako edukiak biltzea, eta publiko mota guztiei zuzendutako testuak kontuan izatea".

Contenido patrocinado