WhitePaperSeries LiburuZurienBilduma THE BASQUE EUSKARA LANGUAGE ARO IN THE DIGITALEAN DIGITAL AGE Inmaculada Hernáez Eva Navas Igor Odriozola Kepa Sarasola Arantza Diaz de Ilarraza Igor Leturia Araceli Diaz de Lezana Beñat Oihartzabal Jasone Salaberria WhitePaperSeries LiburuZurienBilduma THE BASQUE EUSKARA LANGUAGE ARO IN THE DIGITALEAN DIGITAL AGE Inmaculada Hernáez [1] Eva Navas [1] Igor Odriozola [1] Kepa Sarasola [1] Arantza Diaz de Ilarraza [1] Igor Leturia [2] Araceli Diaz de Lezana [3] Beñat Oihartzabal [4] Jasone Salaberria [4] [1] Univ.delPaísVasco/EuskalHerrikoUnibertsitatea [2] ElhuyarFoundation [3] GobiernoVasco/EuskoJaurlaritza [4] UMR5478IKER GeorgRehm,HansUszkoreit (editoreak,editors) HITZAURREA PREFACE Liburuzurihauhizkuntza-teknologieietahaienpoten- is white paper is part of a series that promotes tzialeiburuzkojakintzasustatzeahelburuduenbildu- knowledgeaboutlanguagetechnologyanditspoten- maren atal bat da, hezitzaileei, kazetariei, politikariei tial.Itaddresseseducators,journalists,politicians,lan- etahizkuntza-komunitateeizuzendua. guagecommunitiesandothers. Europan, desberdina da, hizkuntza batetik bestera, eavailabilityanduseoflanguagetechnologyinEu- hizkuntza-teknologieneskuragarritasunaetaerabilera. ropevariesbetweenlanguages. Consequently,theac- Horren ondorioz, desberdinak behar dute izan, ha- tionsthatarerequiredtofurthersupportresearchand laber, hizkuntza bakoitzerako hizkuntza-teknologien development of language technologies also differ for ikerketa eta garapena bultzatzeko behar diren ekime- eachlanguage. erequiredactionsdependonmany nak. factors,suchasthecomplexityofagivenlanguageand EuropakoBatzordeaksortutakoMETA-NETBikain- thesizeofitscommunity. tasun Sareak gaur egungo hizkuntza-baliabideei eta - META-NET,aNetworkofExcellencefundedbythe teknologieiburuzkoanalisibatbideratuduliburuzu- European Commission, has conducted an analysis of rienbildumahonetan(p.75). AnalisihoriEuropako current language resources and technologies in this 23hizkuntzaofizialentzakoetaEuropakobestezenbait whitepaperseries(p.75).isanalysisfocussedonthe nazio– eta eskualde-hizkuntza garrantzitsurentzako 23officialEuropeanlanguagesaswellasotherimpor- gauzatuda. Analisiarenondoriogisa,ondorioztatuda tantnationalandregionallanguagesinEurope.ere- ikerketa-hutsuneesanguratsuakdaudelahizkuntzaba- sultsofthisanalysissuggestthattherearemanysignif- koitzerako. Adituengauregungoegoerarenanalisieta icantresearchgapsforeachlanguage. Amoredetailed ebaluazio xeheago batez, etorkizuneko ikerketen era- expertanalysisandassessmentofthecurrentsituation ginahandiagotuetaarriskuakgutxiagotulitezke. will help maximise the impact of additional research Enpresa-munduko,administraziopublikoko,industria- andminimiseanyrisks. sektoreko, ikerketa-alorreko, soware-enpresetako, META-NET consists of 54 research centres from 33 teknologia-hornitzaileetako eta unibertsitate europa- countries (p. 71) that are working with stakeholders rretako parte-hartzaileekin lanean diharduten 33 he- fromcommercialbusinesses,governmentagencies,in- rrialdetako 54 ikerketa-zentroz (p. 71) osatuta dago dustry, research organisations, soware companies, META-NET.Denakelkarrekin,teknologiariburuzko technology providers and European universities. To- ikuspegi bateratu bat ari dira sortzen, eta, aldi be- gether,theyarecreatingacommontechnologyvision rean, 2020 bitartean ikerketa-hutsuneak hizkuntza- whiledevelopingastrategicresearchagendathatshows teknologien bidez betetzeko bideak zein izan daitez- howlanguagetechnologyapplicationscanaddressany keenazaltzenduenikerketa-agendaestrategikobatere researchgapsby2020. aridagaratzen. III Dokumentu honen egileek beren eskerrik beroenak adierazi eauthorsofthisdocumentaregratefultotheauthorsofthe nahidizkiealemanezkoliburuzuriaren[1]egileei,haiendo- WhitePaperonGerman[1]forpermissiontore-useselected kumentukozenbaitatal,hizkuntzarenaraberakoakezdirenak, language-independentmaterialsfromtheirdocument. berrerabiltzekobaimenaemateagatik. edevelopmentofthiswhitepaperhasbeenfundedbythe Liburu zuri hau Europako Batzordeko Zazpigarren Esparru SeventhFrameworkProgrammeandtheICTPolicySupport Programaren eta IKTak Sustatzeko Programa Estrategikoa- ProgrammeoftheEuropeanCommissionunderthecontracts rendiru-laguntzarieskergaratuda,T4ME(249119Dirula- T4ME (Grant Agreement 249119), CESAR (Grant Agree- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar- ment 271022), METANET4U (Grant Agreement 270893) mena), METANET4U(270893DirulaguntzaHitzarmena) andMETA-NORD(GrantAgreement270899). etaMETA-NORD(270899DirulaguntzaHitzarmena)kon- tratuenbaitan. IV AURKIBIDEA CONTENTS EUSKARA ARO DIGITALEAN 1 Laburpena 1 2 Arriskua,gurehizkuntzentzat,etaerronka,hizkuntza-teknologiarentzat 3 2.1 Hizkuntza-mugekoztopoakjartzendizkioteEuropakoinformazio-gizarteari. . . . . . . . . . . . . 4 2.2 Gurehizkuntzakarriskuan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Hizkuntza-teknologiateknologiabideratzailegiltzarriada . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Hizkuntza-teknologiarenaukerak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.5 Hizkuntza-teknologiarenerronkak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Hizkuntzarenjabetzeagizakienganetamakinetan . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 EuskaraEuropakoinformaziogizartean 9 3.1 Datuorokorrak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2 Euskararenberezitasunak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.3 Azkengertaerak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.4 Hizkuntza-lanketa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.5 Hizkuntzahezkuntzan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.6 Nazioartean . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.7 EuskaraInterneten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4 Hizkuntza-teknologiaeuskararako 15 4.1 Hizkuntza-teknologiaaplikatzekoarkitekturak . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.2 Aplikazio-eremukomunak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3 Besteerabilera-eremubatzuk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4 Hizkuntza-teknologiahezkuntzan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.5 Hizkuntza-teknologiakoprogramak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.6 Euskararakotresnaetabaliabideak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.7 Hizkuntzartekokonparaketa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.8 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5 META-NETiburuz 34 THE BASQUE LANGUAGE IN THE DIGITAL AGE 1 ExecutiveSummary 35 2 RiskforOurLanguagesandaChallengeforLanguageTechnology 37 2.1 LanguageBordersHindertheEuropeanInformationSociety . . . . . . . . . . . . . . . . . . . . 38 2.2 OurLanguagesatRisk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3 LanguageTechnologyisaKeyEnablingTechnology . . . . . . . . . . . . . . . . . . . . . . . . 39 2.4 OpportunitiesforLanguageTechnology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.5 ChallengesFacingLanguageTechnology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 LanguageAcquisitioninHumansandMachines . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3 BasqueintheEuropeanInformationSociety 42 3.1 GeneralFacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.2 ParticularitiesoftheBasqueLanguage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3 RecentDevelopments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.4 LanguagecultivationinBasque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.5 LanguageinEducation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.6 InternationalAspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.7 BasqueontheInternet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4 LanguageTechnologySupportforBasque 48 4.1 ApplicationArchitectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2 CoreApplicationAreas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3 OtherApplicationAreas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.4 LanguageTechnologyinEducation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.5 LanguageTechnologyPrograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.6 AvailabilityofToolsandResources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.7 Cross-languagecomparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5 AboutMETA-NET 66 A Aipamenak--References 67 B META-NETekoKideak--META-NETMembers 71 C META-NETenliburuzurienbilduma--TheMETA-NETWhitePaperSeries 75 1 LABURPENA Hizkuntza gizakien arteko komunikazio-biderik ga- testuakitzultzekoetaahozkojarduerakinterpretatzeko. rrantzitsuenada. Ideiaketasentimenduakadierazteko Bitartean,ingelesalinguafrancabihurtzenaridaEuro- aukera ematen digu, ikasten eta irakasten laguntzen pakohiritarrenartekokomunikazioan. digu,ezinbestekoadabizitzeko,kulturarentransmisio- Espainiar estatuan ere antzeko eszenatokia dugu. Es- rako tresnarik garrantzitsuena da, eta haren hiztunen tatu osoan, hizkuntza ofizial bakarra dago: espainiera identitate-ikurrada. edogaztelania;horiezgainera,hiruhizkuntzakoofizial daude:euskara,galizieraetakatalana.Estatuaneleaniz- tasunarieusteaezdalanerrazaizan;aitzitik,espainierak Hizkuntzagizakienartekokomunikazio-biderik gainerakohizkuntzenarteanduengailentasunean,iden- garrantzitsuenada. titatekulturalarenetalinguistikoarenbabeseanoinarri- tutakoprozesukonplexubatenemaitzaizanda. Euro- Gaur egun, mundu globalizatu honetan, edozein le- pako kasuan lingua franca gisa ingelesa erabiltzen den kutako pertsonekin erraz komunikatzeko tresna asko eraberean,espainieraerabiltzendamaizespainiaresta- ditugu. Adibidez, informazio- eta komunikazio- tukohizkuntza-eremudesberdinetakohiritarrenarteko teknologiaberrieksaresozialakgaratzekoaukeraeman komunikaziozuzenerako. dute, eta, hala, ekarpen handia izan da herrialde eta kulturadesberdinetakopertsonakharremanetanjartzea Eleaniztasunababestubeharreko sustatzeko. Azkenurteotan, halaber, atzerritarrenmu- kultura-ondareada. gimendua handia izan da gure herrialdeetan, dela tu- rismoagatik,delaimmigrazioagatik,etahorrekhainbat hizkuntzatan komunikatzeko beharra sortu du. Ha- Bai Europari dagokionez, bai espainiar estatuari dago- lere,hizkuntzartekokomunikazio-arazoak,maiz,lingua kionez, babestu beharreko kultura-ondarea da eleaniz- francaerabilizgainditzendira. tasuna. Globalizazioak, linguafrancarenerabileragai- Europa aniztasun kultural eta linguistikoaren adibide lenduetagurehizkuntzarenerabileramurriztekoarris- garbiada,nahizetaazken60urteetanzeharbateratzen kuasortzenbaitu, ezlukegurehizkuntza-etakultura- politikoetaekonomikoaizanduen. Hortaz,euskaratik ondare aberatsa alboratzen duen mekanismo bihurtu polonierara zein italieratik islandierara, eragozpen lin- behar. Komunikazio-mundu global baten barnean, guistikoakgainditubehardira,nahitaez,Europakohiri- gurehizkuntzaeta,harekinbatera,gureidentitatekul- tarrenartekoegunerokokomunikazioannahizenpresa- turalababestekobideakaurkitubeharditugu. renetapolitikarenesferetakokomunikazioetan. Euro- Gaur egungo hizkuntza-teknologiek eta ikerketa lin- parBatasunarenerakundeekbilioibateurobehardute guistikoek ekarpen handia egin dezakete eragozpen urtean,bereneleaniztasun-politikabetearazteko;alegia, linguistiko horiek gainditzeko; izan ere, hizkuntza- 1 teknologiak,tresnaetaaplikazioadimendunekinbatera testu kopurua txikiagoa baldin bada edo egitura kon- erabiliz, oso lagungarriak izango dira europarrek aise plexuak dituzten esaldiak itzuli nahi badira. Hizkun- hitz egin eta salerosketak egin ditzaten, baita hizkun- tzenegitura-ezaugarrisakonagoaaztertuta, ondoriozta tzabereanariezbadiraere. Hizkuntza-teknologiekes- daiteke aurrerabide bakarra dela, Europako hizkuntza kaintzen dituzten koponbideak hizkuntza europarren multzozabalekoguztietarakoondofuntzionatukodu- arteko zubi bikaina izan daitezke. Gaur egun merka- tenaplikazioakgaratukobadira. tuan lor daitezkeen itzulpen automatikoko nahiz hiz- Hortaz,hizkuntzartekokomunikazio-arazoenkonpon- keta prozesatzeko tresnak – galderei erantzuteko siste- bidea da teknologia giltzarriak garatzea. Helburu metatik hasi eta hizkuntza naturala darabilten interfa- horibetetzeko,bainaEuropakokultura-etahizkuntza- zeetaraino, eta, besteak beste, itzulpen automatikoko aniztasunari eutsita, behar-beharrezkoa da lehenda- sistemaketalaburpen-tresnakdarabiltenak–,oraindik bizi Europako hizkuntza guztien bereizgarri linguisti- ereaskiurrundaudeasmohandikohelburuhorretatik. koak aztertzea eta hizkuntza bakoitzerako hizkuntza- teknologiekdutengauregungolaguntzenanalisisiste- matiko bat burutzea. Euskararako analisia aurkeztea Hizkuntza-teknologiekeskaintzendituzten da, hain zuzen, liburu honen xedea. Hala, euskarako koponbideakhizkuntzaeuroparrenarteko hizkuntza-teknologien, aplikazioen eta konponbideen zubibikainaizandaitezke. analisixehatuaaurkeztendualehonek. 1970eko hamarkadaren amaierarako, EB konturatua Euskaraikerketasustatubeharra zen hizkuntza-teknologiek Europaren batasunaren gi- dutenEBkohizkuntzetarikobatda. daritzan izango zuten garrantziaz, eta, hala, lehen ikerketa-proiektuasortuzuen.Aldiberean,osoemaitza baliagarriakizanzituztenestatu-mailakoproiektuasko Hizkuntza-teknologien eremuan, hainbat produktu, erejarrizituztenabian,bainainoizereezeuroparekin- teknologia eta baliabide daude euskararako. Badira tzakontzertatubatengidaritzapean. Eremukoeragile- aplikazio-tresnak hizketa sintetizatzeko, hizketa eza- rik garrantzitsuenak, batez ere, egoitza Amerikako Es- gutzeko nahiz ortografia zuzentzeko; badira, halaber, tatuBatuetandutenenpresapribatuirabaziasmodunak itzulpenautomatikokoaplikaziobatzukere,espainiera- dira. Gaur egungo hizkuntz-teknologia aurreratuenak tikeuskararabatezere. hurbilketaestatistikoez-zehatzetanoinarritzendiraeta Liburu zuri bilduma honetan ageri denez, ikaraga- ezduteapartekometodonahizezagutzalinguistikorik rrizko aldea dago Europako estatu kideen hizkuntza- erabiltzen. Esaterako, esaldiak automatikoki itzultzen baliabideeninbentarioenarteanetaikerketa-egoerenar- diraesaldibatgizakiekaurrezitzulitakomilakaesaldi- tean. Ondoriorik nabarmenenetariko bat da ikerketa rekinkonparatuz. Emaitzarenkalitatea,heinhandiba- sustatu beharra duten EBko hizkuntzetariko bat dela tean,erabilikodencorpusarentamainarenetakalitatea- euskara, hizkuntza-teknologietanoinarritutakoaplika- ren araberakoa da. Azaleko metodo estatistiko horie- ziobenetaneraginkorraketaegunerojarduneanerabil- kin testu-material kantitate nahikoa duten hizkuntze- tzekomodukoakgaratukobadira. Euskararakokalitate tanesaldisinpleakitzulitaemaitzaerabilgarriaklordai- handikohizkuntzateknologiarengarapenaosolarriaeta tezke, baina litekeena da huts egitea hizkuntza baten garrantzitsuadaeuskarasustatzeko. 2