2 Razvoj metod za računalniškojezikoslovne raziskave večjezičnosti

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry’s standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.K Lorem Ipsum

Cilj C2.1

Dvojezični in večjezični splošni in specializirani slovarji in glosarji so pomembni za poučevanje tujih jezikov in za vzdrževanje slovenske terminologije. Strojne metode luščenja podatkov iz strukturiranih in nestrukturiranih večjezičnih virov (paralelnih korpusov, večjezičnih slovarskih baz, Wikipedije itd.) omogočajo razvoj večjezičnih virov, ki so uporabni tako za izobraževalne potrebe kot za tehnologije, kot so Semantic Web, ter za vzdrževanje terminologij po znanstvenih področjih.

NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Redno dodajanje novih večjezičnih informacij v bazo podatkov

Cilj C2.2

S tem ciljem se priključujemo močnemu trendu povezovanja jezikovnih podatkov v Linked (Linguistic) Open Data, kar pomeni, da so podatki pretvorjeni v standardizirane izmenjive formate tipa RDF, OntoLex/Lemon ipd. Izhajamo iz ciljev, ki so bili opredeljeni v okviru COST akcije ENeL glede povezovanja večjezičnih leksikografskih podatkov, pri čemer bomo razvili metodologijo pretvorbe obstoječih (nepovezanih) podatkov o slovenščini v svetovno mrežo odprtih jezikovnih podatkov, na kateri bomo lahko izvedli napredne analize (cilj C4.1).

NAPOVEDANI REZULTAT (v letih 2020, 2022, 2024): Redno vključevanje slovenskih podatkov v Linguistic Linked Open Data Cloud

Cilj C2.3

Razvoj metod strojnega prevajanja za slovenščino bo potekal predvsem s prilagoditvijo nevronskega strojnega prevajalnika (Nematus). Preizkusili bomo različne metode (npr. self-attentions, večjezični pari) s ciljem, da bodo raziskave pripeljale do prosto dostopnega strojnega prevajalnega servisa, katerega vzpostavitev predvideva Evropska komisija v okviru mehanizma Connecting Europe Facility (Automated Translation).

NAPOVEDANI REZULTAT (v letih 2019, 2021, 2023): Nove objave nevronskega strojnega prevajalnega sistema za par angleščina-slovenščina (in druge jezikovne pare)