Cilj C2.1
Dvojezični in večjezični splošni in specializirani slovarji in glosarji so pomembni za poučevanje tujih jezikov in za vzdrževanje slovenske terminologije. Strojne metode luščenja podatkov iz strukturiranih in nestrukturiranih večjezičnih virov (paralelnih korpusov, večjezičnih slovarskih baz, Wikipedije itd.) omogočajo razvoj večjezičnih virov, ki so uporabni tako za izobraževalne potrebe kot za tehnologije, kot so Semantic Web, ter za vzdrževanje terminologij po znanstvenih področjih.
NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Redno dodajanje novih večjezičnih informacij v bazo podatkov
Cilj C2.2
S tem ciljem se priključujemo močnemu trendu povezovanja jezikovnih podatkov v Linked (Linguistic) Open Data, kar pomeni, da so podatki pretvorjeni v standardizirane izmenjive formate tipa RDF, OntoLex/Lemon ipd. Izhajamo iz ciljev, ki so bili opredeljeni v okviru COST akcije ENeL glede povezovanja večjezičnih leksikografskih podatkov, pri čemer bomo razvili metodologijo pretvorbe obstoječih (nepovezanih) podatkov o slovenščini v svetovno mrežo odprtih jezikovnih podatkov, na kateri bomo lahko izvedli napredne analize (cilj C4.1).
NAPOVEDANI REZULTAT (v letih 2020, 2022, 2024): Redno vključevanje slovenskih podatkov v Linguistic Linked Open Data Cloud
Cilj C2.3
Razvoj metod strojnega prevajanja za slovenščino bo potekal predvsem s prilagoditvijo nevronskega strojnega prevajalnika (Nematus). Preizkusili bomo različne metode (npr. self-attentions, večjezični pari) s ciljem, da bodo raziskave pripeljale do prosto dostopnega strojnega prevajalnega servisa, katerega vzpostavitev predvideva Evropska komisija v okviru mehanizma Connecting Europe Facility (Automated Translation).
NAPOVEDANI REZULTAT (v letih 2019, 2021, 2023): Nove objave nevronskega strojnega prevajalnega sistema za par angleščina-slovenščina (in druge jezikovne pare)