4 Razvoj naprednih tehnologij za analizo jezika

3 Analize in razvoj metod za izboljšanje bralne pismenosti v digitalnem okolju

1 Razvoj korpusnojezikoslovnih metod za analizo sodobne slovenščine

4 Razvoj naprednih tehnologij za analizo jezika

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry’s standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.K Lorem Ipsum

Trenutni načrti in cilji

Cilj C4.1

Nadgradnja metodologije za rudarjenje heterogenih informacijskih omrežij, kjer bomo izboljšali metode za klasifikacijo in rangiranje omrežij ter detekcijo omrežnih skupnosti, da bodo izluščile več res najpomembnejših informacij. Izboljšave bodo temeljile na novih načinih uteževanja vozlišč in povezav ter na novih pristopih k podobnosti vozlišč. Podatkovno odvisna podobnost je v mnogih primerih podlaga za boljše mere razdalje kot podatkovno neodvisen geometrični model razdalj. V okviru analize omrežij bomo takšno razumevanje podobnosti objektov vpeljali preko detekcije omrežnih skupnosti in ocenjevanja gostote porazdelitve vozlišč v skupnostih.

NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Podpora vsem ciljem stebrov 1–3.

Cilj C4.2

Razvoj novih metod besednih vložitev in izbora pomembnih atributov, saj so velike in visokodimenzionalne podatkovne množice, ki izhajajo iz besedil in analize omrežij, za strojno učenje velik tehnološki izziv že same po sebi. Uporabili bomo večjezične vložitve (Conneau et al 2017) kot vir semantičnih informacij za odkrivanje polisemije in večbesednih leksemov. Nadgradili bomo naš algoritem ReliefF (Robnik-Šikonja in Kononenko 2003), ki upošteva odvisnosti med atributi, je zaradi vzorčenja računsko učinkovit in deluje tako pri klasifikacijskih kot regresijskih problemih. Nadgradnja bo večsmerna: za nenadzorovano učenje, z usmerjenim vzorčenjem podmnožice atributov, in z ansambelskim pristopom, ki bo zmanjšal varianco ocen kakovosti in omogočil paralelizacijo ocenjevanja atributov. Algoritmi za izbiro funkcij na jezikovnih podatkih bodo uporabljeni predvsem za analizo podatkov, tj. za identifikacijo kompleksnih razmerij v nizih podatkov na različnih jezikovnih ravninah.

NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Podpora vsem ciljem stebrov 1–3.

Cilj C4.3

Prilagoditev metodologije globokih nevronskih mrež za specifične jezikovne probleme in slovenščino. Združili bomo zelo uspešna pristopa globokega učenja nevronskih mrež in sicer večciljno učenje (multitask learning) (Collobert & Weston, 2008) in konvolucijske mreže na znakih (Zhang idr. 2015). Informacijo o znakih bomo nadgradili s podatki o korenih, predponah in končnicah besed, kar je še posebej pomembno za analizo semantične informacije v visoko pregibnih jezikih, kot je slovenščina. V kontekstu slovenščine bomo analizirali tudi druge primerne strukture vhoda, transformacije vhoda z avtoenkoderji in učinkovite algoritme učenja na prilagojenih paralelnih računalniških arhitekturah.

NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Podpora vsem ciljem stebrov 1–3.

Cilj C4.4

Razvoj metod razlaganja odločitev in njihova prilagoditev besedilnim posebnostim. Prilagodili bomo našo splošno metodologijo pojasnjevanja specifik klasifikacije besedila (Štrumbelj in Kononenko, 2010; Bohanec et al. 2017) in jo preizkusiti z globokimi nevronskimi mrežami in globokimi naključnimi gozdovi. Prilagodili bomo najbolj priljubljene razlage (npr. EXPLAIN, IME, and LIME) za razvrščanje besedila z upoštevanjem sekvenčne narave besedila. Z uvedbo lokalnega občutljivega vzorčenja na podlagi RBF omrežij (Robnik-Šikonja 2016) bomo pospešili generiranje pojasnil za besedilne klasifikatorje in izdelali informativne in razumljive razlage za besedilo na podlagi n-gramov, stavkov in odstavkov. Izdelana pojasnila bodo uporabnikom omogočala pridobivanje znanja iz drugače nerazvidnih nevronskih modelov in omogočanje analize napak.

NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Podpora vsem ciljem stebrov 1–3.

LANGUAGE RESOURCES AND TECHNOLOGIES
FOR THE SLOVENIAN LANGUAGE

LANGUAGE RESOURCES AND TECHNOLOGIES
FOR THE SLOVENIAN LANGUAGE