ebook img

The Czech Language in the Digital Age / Čeština v digitálním věku PDF

88 Pages·1.025 MB·
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview The Czech Language in the Digital Age / Čeština v digitálním věku

WhitePaperSeries SérieBíléknihy THE CZECH ČEŠTINA LANGUAGE IN V DIGITÁLNÍM THE DIGITAL VĚKU AGE Ondřej Bojar Silvie Cinková Jan Hajič Barbora Hladká Vladislav Kuboň Jiří Mírovský Jarmila Panevová Nino Peterek Johanka Spoustová Zdeněk Žabokrtský WhitePaperSeries SérieBíléknihy THE CZECH ČEŠTINA LANGUAGE IN V DIGITÁLNÍM THE DIGITAL VĚKU AGE Ondřej Bojar CharlesUniversityinPrague Silvie Cinková CharlesUniversityinPrague Jan Hajič CharlesUniversityinPrague Barbora Hladká CharlesUniversityinPrague Vladislav Kuboň CharlesUniversityinPrague Jiří Mírovský CharlesUniversityinPrague Jarmila Panevová CharlesUniversityinPrague Nino Peterek CharlesUniversityinPrague JohankaSpoustová CharlesUniversityinPrague ZdeněkŽabokrtský CharlesUniversityinPrague GeorgRehm,HansUszkoreit (editoři,editors) PŘEDMLUVA PREFACE TatoBíláknihajesoučástísérie,kterápodporujeznalosti is white paper is part of a series that promotes jazykových technologií a jejich potenciál. Je určena knowledgeaboutlanguagetechnologyanditspoten- pedagogům,novinářům,politikům,různýmjazykovým tial.Itaddresseseducators,journalists,politicians,lan- komunitámadalším.Dostupnostavyužíváníjazykových guage communities and others. e availability and technologií se v Evropě u jednotlivých jazyků liší. V use of language technology in Europe varies between důsledkutohoseprokaždýjazyklišítakékroky,kteréje languages.Consequently,theactionsthatarerequired nutnépodniknoutprodalšípodporuvýzkumuavývoje to further support research and development of lan- jazykovýchtechnologií.Tytoplánovanépostupyzávisí guagetechnologiesalsodifferforeachlanguage. e na mnoha faktorech, jako je složitost daného jazyka requiredactionsdependonmanyfactors, suchasthe či velikost jeho komunity. META-NET (excelentní complexityofagivenlanguageandthesizeofitscom- internetovásíť)financovanýEvropskoukomisíprovedl munity.META-NET,aNetworkofExcellencefunded analýzu současných jazykových zdrojů a technologií. bytheEuropeanCommission,hasconductedananal- Tatoanalýzasezaměřilana23oficiálníchevropských ysis of current language resources and technologies. jazykůanadalšívýznamnénárodníaregionálníjazyky isanalysisfocusedonthe23officialEuropeanlan- v Evropě. Výsledky analýzy naznačují, že ve výzkumu guagesaswellasotherimportantnationalandregional každéhojazykajeznačnémnožstvímezer.Podrobnější languages in Europe. e results of this analysis sug- expertníanalýzaahodnocenísoučasnésituacepřitom gest that there are many significant research gaps for přispějí k maximalizaci účinku dalšího výzkumu a eachlanguage. Amoredetailedexpertanalysisandas- minimalizaci možných rizik. META-NET se skládá sessment of the current situation will help maximize z 54 výzkumných center z 33 zemí, které pracují s the impact of additional research and minimize any podílníkyzkomerčníchfirem,vládníchagentur,průmyslu, risks.META-NETconsistsof54researchcentresfrom výzkumnýchorganizací,sowarovýchfirem,sposkytovateli 33countriesthatareworkingwithstakeholdersfrom technologií a evropských univerzit. Dohromady mají commercial businesses, government agencies, indus- jednuspolečnouvizi–vyvíjejístrategickýplánvýzkumu, try, research organisations, soware companies, tech- který ukazuje, jak aplikace jazykových technologií nologyprovidersandEuropeanuniversities.Together, mohou do roku 2020 vyřešit případné mezery ve they are creating a common technology vision while výzkumu. developingastrategicresearchagendathatshowshow language technology applications can address any re- searchgapsby2020. III Autoři tohoto dokumentu děkují autorům Bílé knihy pro e authors of this document are grateful to the authors of němčinu za povolení použít vybrané jazykově nezávislé thewhitepaperonGermanforpermissiontore-useselected části z jejich dokumentu [1]. Zároveň děkujeme za milou language-independentmaterialsfromtheirdocument[1]. We spolupráci kolegům Jan Cuřínovi, Evě Hajičové, Jirkovi alsowishtothankourcolleaguesJanCuřín,EvaHajičová,Jirka Hanovi,KarluOlivovi,MagdaleněRysové,MagděŠevčíkové, Hana,KarelOliva,MagdalenaRysová,MagdaŠevčíková,Ivan IvanuŠmilaueroviaDanieluZemanovi. Šmilauer,DanielZemanfortheirnicecooperation. Práce na této Bílé knize byla financována 7. Rámcovým edevelopmentofthiswhitepaperhasbeenfundedbythe programem Evropské komise a Programem na podporu SeventhFrameworkProgrammeandtheICTPolicySupport politiky informačních a komunikačních technologií (ICT ProgrammeoftheEuropeanCommissionunderthecontracts PolicySupportProgrammeoftheEuropeanCommission)na T4ME (Grant Agreement 249119), CESAR (Grant Agree- základě smluv T4ME (grantové dohoda 249119), CESAR ment 271022), METANET4U (Grant Agreement 270893) (grantová dohoda 271022), METANET4U (grantová andMETA-NORD(GrantAgreement270899). dohoda 270893) a META-NORD (grantová dohoda 270899). IV OBSAH CONTENTS ČEŠTINA V DIGITÁLNÍM VĚKU 1 Shrnutí 1 2 Rizikopronašejazykyavýzvaprojazykovétechnologie 3 2.1 Jazykovébariérybrzdíevropskouinformačníspolečnost . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Našejazykyvohrožení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Jazykovétechnologiejsoutechnologiemiklíčovými . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4 Příležitostiprojazykovétechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.5 Výzvyprojazykovétechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Osvojováníjazykaulidíaustrojů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3 Češtinavevropskéinformačníspolečnosti 8 3.1 Obecnéinformace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 Specifikačeštiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.3 Současnývývoj . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.4 KultivacejazykavČeskérepublice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.5 Jazykvevzdělávání . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.6 Mezinárodníaspekty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.7 Češtinanainternetu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4 Podporajazykovýchtechnologiípročeštinu 15 4.1 Architekturaaplikací. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.2 Základníaplikačníoblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3 Dalšíaplikačníoblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4 Vzdělávacíprogramy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.5 Národníprojektyainiciativy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.6 Dostupnénástrojeazdrojepročeštinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.7 Porovnánínapříčjazyky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.8 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5 OsítiMETA-NET 35 THE CZECH LANGUAGE IN THE DIGITAL AGE 1 ExecutiveSummary 37 2 LanguagesatRisk:aChallengeforLanguageTechnology 39 2.1 LanguageBordersHoldbacktheEuropeanInformationSociety . . . . . . . . . . . . . . . . . . 40 2.2 OurLanguagesatRisk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3 LanguageTechnologyisaKeyEnablingTechnology . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4 OpportunitiesforLanguageTechnology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.5 ChallengesFacingLanguageTechnology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.6 LanguageAcquisitioninHumansandMachines . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3 CzechintheEuropeanInformationSociety 44 3.1 GeneralFacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2 ParticularitiesoftheCzechLanguage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.3 RecentDevelopments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4 LanguageCultivationintheCzechRepublic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.5 LanguageinEducation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.6 InternationalAspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.7 CzechontheInternet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4 LanguageTechnologySupportforCzech 52 4.1 ApplicationArchitectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2 CoreApplicationAreas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.3 OtherApplicationAreas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.4 EducationalProgrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.5 NationalProjectsandInitiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.6 AvailabilityoftoolsandresourcesforCzech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.7 Cross-languagecomparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5 AboutMETA-NET 71 A Odkazy--References 73 B ČlenovéMETA-NET--META-NETMembers 77 C SérieBíléknihyMETA-NET--TheMETA-NETWhitePaperSeries 81 1 SHRNUTÍ Evropa se během posledních 60 let stala zřetelnou 60 evropských jazyků nepřekonatelná překážka pro politickou a ekonomickou sítí, přesto je ale kulturně občany našeho kontinentu, pro jejich ekonomiku, a jazykově stále velmi různorodá. Znamená to, že jejich politickou diskusi a vědecký pokrok. Řešením každodenníkomunikacemezievropskýmiobčany(aťuž je vybudování klíčových technologií, které budou přecházímezportugalštinydopolštinynebozitalštiny nabízet evropským subjektům velké výhody, a to do islandštiny) i komunikace v oblasti podnikání a nejen v rámci společného evropského trhu, ale i v politikysenevyhnutelněpotýkásjazykovoubariérou. obchodních vztazích se třetími zeměmi, zejména v nově se etablujících ekonomikách. Abychom dosáhli tohotocíleauchránilievropskoukulturníajazykovou Jazykovétechnologiestaví rozmanitost, musíme nejprve provést systematickou mostyprobudoucnostEvropy. analýzu jazykových aspektů všech evropských jazyků a analýzu současného stavu podpory jazykových Orgány EU utratí asi jednu miliardu eur ročně na technologií. Pak budou moci jazykové technologie překládání textů a tlumočení mluvené komunikace, sloužit jako jedinečný most mezi evropskými jazyky. aby řešily otázku mnohojazyčnosti. Musí to však být Nástroje pro automatický překlad a zpracování řeči, takovázátěž?Moderníjazykovétechnologie(language kteréjsouvsoučasnédobědostupnénatrhu,ovšemstále technology, LT) a lingvistický výzkum mohou ještě tohoto náročného cíle nedosahují. Dominantní významněpřispětkbouráníjazykovýchhranic.Kdyžse subjektyvtétooblastijsoupřevážněsoukromépodniky jazykové technologie spojí s inteligentními zařízeními sesídlemvSeverníAmerice.Jižnakonci70. a aplikacemi, budou v budoucnosti schopné pomáhat Evropanům jednoduše komunikovat a obchodovat, i Jazykovétechnologiejakoklíčkbudoucnosti. když nemluví společnou řečí. Česká ekonomika má na jednotném evropském trhu velkou výhodu. Přesto je možné, že jazykové bariéry způsobí např. zánik let si EU uvědomila nesmírný význam jazykových některých podniků, a to zejména jedná-li se o malé technologií jako nástroje k dosažení evropské jednoty a střední podniky, které nemají finanční prostředky a začala financovat první výzkumné projekty, např. na zlepšení situace. Jedinou (i když nemyslitelnou) EUROTRA.Vestejnédobězačalyvznikatvnitrostátní alternativou řešení otázky mnohojazyčné Evropy by projekty, které sice přinášely cenné výsledky, ale bylo umožnit, aby jeden jazyk získal dominantní nikdy nevedly k evropské spolupráci. Ostatní postavení a nakonec nahradil všechny ostatní. Bez mnohojazyčné komunity jako Indie (22 úředních technologické podpory, je zvládnutí 23 oficiálních jazyků) a Jihoafrická republika (11 úředních jazyků) jazyků členských států Evropské unie a dalších cca naopak na rozdíl od tohoto vysoce selektivního 1 financování nedávno vytvořily dlouhodobé národní vidětnapočtuprodanýchdceřinýchspolečností.Např. programy pro jazykový výzkum a technologický společnost Trados (založena v roce 1984) byla v roce rozvoj. Dominantní subjekty v oblasti jazykových 2005 prodána společnosti SDL se sídlem ve Velké technologií se dnes spoléhají na nepřesné statistické Británii. postupy, které nevyužívají propracované jazykovědné metody a znalosti. Například automatický překlad JazykovétechnologiepomáhajísjednotitEvropu. vět funguje na principu porovnávání věty, kterou chceme automaticky přeložit, s tisíci jinými, které byly přeloženy lidmi. Kvalita výstupu do značné míry Na základě dosud získaných poznatků se zdá, že závisí na velikosti a kvalitě daného vzorku. Zatímco dnešní „hybridní“ jazykové technologie zahrnující automatický překlad textu může u „velkých“ jazyků hloubkové zpracování i statistické metody umožní s jednoduchou morfologickou strukturou dosáhnout překlenout propast mezi všemi evropskými jazyky. přiměřenékvality,usložitějšíchjazykůneboujazykůs Jak tato série Bílých knih ukazuje, členské státy v nižšímpočtempříkladovéhomateriálujetatostatistická Evropě se značně liší v ochotě a připravenosti řešit metoda odsouzena k neúspěchu. Evropská unie se jazykové otázky. Velké rozdíly jsou také v oblasti protorozhodlafinancovatprojekty,jakojeEuroMatrix, výzkumu. Čeština patří mezi „menší“ jazyky EU, a EuroMatrixPlus(fungujícíodroku2006)aiTranslate4 protojezapotřebínejprveprovádětdalšíspecializované (fungující od roku 2010), které provádějí základní a výzkumy, než pro ni budou jazykové technologie aplikovaný výzkum a snaží se vytvořit vysoce kvalitní skutečně účinné a než budou moci sloužit pro jazykové technologie pro všechny evropské jazyky. každodenní použití. Dlouhodobým cílem projektu Hlubší analýza struktury jazyků je jedinou možnou META-NETjepředstavitkvalitníjazykovétechnologie cestou, jak vytvářet aplikace, které fungují v rámci pro všechny jazyky v EU. Tyto technologie pomohou celé škály evropských jazyků dobře. Evropský výzkum evropským jazykům překonat dosavadní bariéry a dosáhl v této oblasti již řady úspěchů. Například navázat vzájemné spojení. To vyžaduje, aby všechny překladatelské služby v Evropské unii nyní používají zúčastněné strany – v politice, výzkumu, podnikání MOSES, open-source soware pro strojový překlad, i společnosti – spojily v budoucnosti své síly. Tento kterýbylvyvinutzejménaprostřednictvímevropských dokument doplňuje řadu dalších činností projektu výzkumných projektů. Spíše než stavět na výsledcích META-NET (viz příloha). Aktuální informace, např. těchto projektů má Evropa tendenci pokračovat v aktuální verzi plánů projektu META-NET [2] nebo izolované výzkumné činnosti jen s nepatrným vlivem strategickýplánvýzkumu(SRA),najdetenawebových na trh. Ekonomickou hodnotu počátečního úsilí lze stránkáchhttp://www.meta-net.eu. 2 2 RIZIKO PRO NAŠE JAZYKY A VÝZVA PRO JAZYKOVÉ TECHNOLOGIE (cid:13) Nedávnývývojdigitálníchinformačníchakomunikačních DTP (desktop publishing) soware nahradil psaní technologií je někdy srovnáván s Gutenbergovým nastrojiaklasickousazbu; vynálezemknihtisku.Conámmůžetatoanalogieřícto (cid:13) Microso PowerPoint nahradil zpětný projektor a budoucnostievropskéinformačníspolečnostiazejména fólie; obudoucnostinašichjazyků? (cid:13) e-mailpošleadoručídokumentyrychlejinežfax; (cid:13) Skype nabízí levné volání po internetu a virtuální Jsmesvědkydigitálnírevolucesrovnatelnés setkávání; Guthenbergovýmvynálezemknihtisku. (cid:13) formáty pro kódování audia a videa umožňují snadnopřenášetmultimediálníobsah; Po Gutenbergově vynálezu nastal skutečný zlom (cid:13) vyhledávače zajišťují na základě klíčových slov v komunikaci a nabývání vědomostí, a to např. přístupnawebovéstránky; Lutherovým překladem Bible do národního jazyka. V (cid:13) on-line služby jako Google Translate poskytují následujícíchstoletíchserozvíjelykulturnínástrojetak, rychléorientačnípřeklady; abylépezvládalyzpracováníjazykaavýměnuznalostí: (cid:13) sociální platformy médií jako Facebook, Twitter a (cid:13) pravopisná a gramatická standardizace hlavních Google+ ulehčují komunikaci, spolupráci a sdílení jazykůumožnilarychlérozšířenínovýchvědeckých informací. aintelektuálníchmyšlenek; (cid:13) vývojúředníchjazykůumožnillidemkomunikovat Ačkoli jsou tyto prostředky a aplikace prospěšné, stále vrámciurčitých(častopolitických)hranic; ještěnejsouschopnédlouhodoběpodporovatfungující, (cid:13) učení a překlad jazyků umožnily vyměňování vícejazyčnou evropskou společnost všude tam, kam informacímezijazyky; mohouvolněprouditinformaceazboží. (cid:13) vytvoření editorských a bibliografických pravidel zajistilokvalituadostupnosttištenýchmateriálů; 2.1 JAZYKOVÉ BARIÉRY BRZDÍ (cid:13) vytvoření různých médií, jako jsou noviny, EVROPSKOU INFORMAČNÍ rozhlas, televize, knihy a jiné, uspokojilo odlišné komunikačnípotřeby. SPOLEČNOST V uplynulých dvaceti letech pomohly informační Nemůžeme přesně předvídat, jak bude informační technologiezautomatizovatausnadnitmnohoprocesů: společnost v budoucnosti vypadat. Je ovšem velmi 3

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.