EHUko HiTZ zentroak Latxa euskararentzako hizkuntza eredu handiena hobetu du

Latxa
UPV/EHU
Actualizado: lunes, 29 abril 2024 11:45

BILBO, 29 (EUROPA PRESS)

Euskal Herriko Unibertsitateko (EHU) HiTZ Hizkuntza Teknologiako Zentroak Latxa euskararentzako hizkuntza ereduen handiena hobetu du, eta horrela, duela zenbait urte abiatutako jatorrizko ChatGPT bertsioa (orain GPT 3.5 gisa ezaguna) eta, baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, azken bertsioa (GPT-4) gainditu ditu hizkuntza gaitasunean.

Latxa euskararentzako hizkuntza ereduen familia bat da, eta lizentzia libreko testuen corpus handienarekin (aurrekoen bikoitza da) eta hizkuntza gaitasun, irakurmen, kultura orokor eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da, EHUko iturriek jakinarazi dutenez.

Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70.000 miloi parametro arteko ereduak biltzen ditu. Gaur egungo hizkuntza eredu handiek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo gaztelaniarako Geminik dituztenak.

Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua askoz baxuagoa da, eta horrek handitu egiten du baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa, tresna digitalei dagokionez behinik behin. Hori dela eta, EHUko HiTZ zentroak Latxa garatu du, muga horiek gainditzeko eta euskarazko ikerketa, berrikuntza eta produktuen garapena sustatzeko.

Latxaren bertsio berria euskarazko corpus publiko handienaren gainean entrenatu da, eta corpus hori ereduekin batera banatzen da. Corpus horrek hedatu egiten du aurretik dagoen eta gehienbat Interneteko eduki publikoarekin sortutako corpusak darabiltzan EusCrawl. Guztira lau milioi dokumentu baino gehiago eta 1.200 milioi hitz dira, aurretik zeuden corpusak baino bi aldiz handiagoa.

Ereduen kalitatea ebaluatzeko, hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba banku osatu dira. HiTZ zentroko zuzendari Eneko Agirrek adierazi duenez, "ingeleseko Llama ereduak probatu ditugu, bai eta GPT-3.5 Turbo (2022ko azaroan abiarazitako ChatGPTren baliokidea) eta GPT-4 Turbo (OpenAI duen eredu onena) ere, eta argi ikusten da Latxaren eredu onenak gainditu egiten dituela Llamak eta GPT-3.5 Turbo, proba kasu guztietan".

"Eredu onenak gainditu egiten du, halaber, GPT-4 Turbo hizkuntza gaitasunari dagozkionez, lehenengo aldiz baliabide digital urriko hizkuntzen eredu ireki batentzat, baina ez gainerako proba bankuetan. Azkenik, azpimarratu behar da Latxa tamainan handitzen ari den neurrian, emaitzak ere hobeak direla", azaldu du.

OINARRIZKO EREDUAK

Latxa ereduak oinarrizko ereduak dira, erabiltzaileentzako jarraibideak edo lehentasunak doitu gabekoak. Hortaz, eredu horiek ez dira publiko orokorrak zuzenean erabiltzeko modukoak. Hala ere, Latxa ereduak funtsezkoak dira euskararentzako hizkuntza teknologia erabiliko duten tresna arrakastatsuak eraikitzeko.

"Eredu ireki horiek argitaratu ditugu teknikari adituek erabil ditzaten produktuak egiteko edo interesatzen zaizkien aplikazioetara doitzeko. Aldi berean, erabiltzaileen jarraibideei jarraitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago argi euskaraz gaztelaniaren edo ingelesaren antzeko kalitatea izango duten elkarrizketa ereduak eraiki daitezkeen ala ez. Horixe da, hain zuzen ere, gure ikerketen helburua. Zenbait ikerketa egiten ari gara, beste hizkuntza batzuetarako dauden elkarrizketa gaitasunak euskarara eramatea ahalbidetzen duten tekniken ikerketa barne", azaldu du Agirrek.

Era berean, azpimarratu du 70B eredua Espainiako Estatuko edozein hizkuntzatarako entrenatutako eredurik handiena dela eta horrek sendotu egiten duela HiTZ ikerguneak tamaina handiko hizkuntza ereduetan duen lidergoa.

Contador