Inoiz egin den euskararen corpusik handiena bildu du EHUk Egungo Testuen Corpusean

Egungo Testuen Corpusa aurkeztu du EHUk
Foto: EHU
Actualizado: lunes, 11 marzo 2013 19:26

BILBO, 11 (EUROPA PRESS)

   Euskal Herriko Unibertsitateko (EHU) Euskara Institutuak inoiz egin den euskararen corpusik handiena bildu du Egungo Testuen Corpusean. Informazioa "oso modu intuitiboan" ematen du XXI. mendeko prosazko testuez bakarrik osatutako lineako bilduma honek. Egungo Testuen Corpusa webgune honetan kontsulta daiteke: www.ehu.es/etc

   Egungo Testuen Corpusa astelehen honetan aurkeztu da, Bizkaia Aretoan, Bilbon, eta ekitaldian izan dira Iñigo Urkullu Eusko Jaurlaritzako lehendakaria, Iñaki Goirizelaia EHUko errektorea, Pello Salaburu EHUko Euskara Institutuko zuzendaria, Ibon Sarasola EHUko irakasle eta Euskara Institutuko kidea eta Pablo Mongelos Lagun Aroko zuzendaria.

   Egungo Testuen Corpusak 205 milioi hitz biltzen ditu, eta inoiz egin den corpusik handiena bihurtu da; Euskara Institutuak aurretik garatutako Ereduzko Prosa Gaur corpusa 25 milioi hitzekoa da, eta Euskaltzaindiaren Orotariko Euskal Hiztegia -euskararen tradizio idatzia aztertzeko egin den lanik sakonena- osatzeko erabili zen corpusak bost milioi hitz zituen.

   Gainera, bere bereizgarriak kontuan izanik, Egungo Testuen Corpusa "munduko handienetakoa" da: badaude askoz ere handiagoak diren corpusak, baina hitz bakoitzaren inguruan ematen duten informazioa oinarrizkoago eta erabilgaitzagoa da. "Gure interfazea oso sinplea, argia eta intuitiboa da, erabilerraza", adierazi du Pello Salaburuk.

   Aukeratutako testu guztiak XXI. mendekoak dira, eta hori da funtsezko beste ezaugarri bat. "Euskara asko egonkortu da 2000tik aurrera, urte horretan atera baitzuen Euskaltzaindiak Hiztegi Batua, eta horrek eragin handia izan du", azaldu du Euskara Institutuko zuzendariak.

   Hegoaldekoak eta Iparraldekoak dira testuak, prosazkoak (liburuak, prentsa eta Wikipediako testuak) eta kalitateagatik aukeratuak. Badira jatorriz euskaraz idatzitako testuak eta testu itzuliak ere. Iturriak eta urteak ere kontuan hartu izan dira, pisu antzekoa izan dezaten.

BILAKETAK

   Corpus berrian bilaketak egitea oso erraza da, eta emaitzak oso aberatsak: hitz bakoitzaren informazioa eskaintzen du, lema (etxe) eta lemaren aldaera guztiak (etxea, etxeak, etxera, etxetik...) bereizteko aukera emanez.

   Bilaketa egindakoan, automatikoki ageri da "tarta" bat, lema eta aldaerek osatua, ehunekoetan, nola banatzen diren aldaerak erakusten duena. Aldaera bakoitzeko adibide guztiak ere kontsulta daitezke: hitza bere esaldian ageri da, eta nork erabiltzen duen, non, noiz... ere esaten da.

   Lemak eta hitzak bereiz daitezke, eta hitz bat baino gehiago ere aldi berean. Hasiera zehatz bateko hitz guztiak kontsulta daitezke, hitzen erabilera elkarren artean konparatu, hitz multzoak (ondoan egon nahiz beste hitz batzuk izan tartean) kontsultatu eta abar.

   Aukeratutako hitzen inguruan, hainbat informazio eta kontsultatzeko aukera ematen du Egungo Testuen Corpusak. Hortaz, hitzaren erabileraren eboluzioa ikusten da grafiko batean, urtez urte gehiago edo gutxiago erabili den (horrek bidea irekitzen du azterketak egiteko zergatik gertatzen den hori) eta adibideak urteka ikus daitezke.

   Jatorria kontuan harturik ere egin daiteke kontsulta: zuzena, itzulpena edo neutroa (batzuetan zail gertatzen da jakitea testu hori oinarritik sortu den, edo itzulpena den, Wikipediatik hartutako testuetan, adibidez), eta informazioa ematen du non erabiltzen den gehien hitz hori: zuzenean sortua denean edo itzulpenetan, adibidez. Gauza bera iturriari dagokionez: non erabiltzen den gehiago aukeratu den hitza ikus daiteke: prentsan (eta prentsan non), literaturan, zientzian, entziklopedietan, telebistan...?

   Hitzaren sare semantikoa ere ematen da, hau da, hitz horrek dituen propietateak erakusten dituzten beste hitz batzuek osatutako segida. "Hau ezinbestekoa da hiztegi egokiak egiteko orduan eta informazio mota honetaz baliaturik egiten dira hiztegiak gaur egun", aipatu du Salaburuk. Konbinazioak ere egin daitezke beste lema batzuekin, aurretik eta atzetik zer hitz edo zer hitz kategoria ageri den ikusteko.