1 Razvoj korpusnojezikoslovnih metod za analizo sodobne slovenščine

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry’s standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.K Lorem Ipsum

CILJ 1.1 Metode jezikoslovne analize nestrukturiranih tekstovnih podatkov.

Za uspešno pridobivanje jezikovnih podatkov iz besedilnih korpusov je treba izboljšati analitične metode za procesiranje nestrukturiranih besedil v slovenščini. V njih je treba strojno razločiti stavke oz. povedi (segmentacija), pojavnice (tokenizacija), prepoznati kategorije in lastnosti besed (oblikoskladenjsko označevanje), stavčne člene (skladenjsko razčlenjevanje), prepoznati pomen (označevanje semantičnih vlog, semantično razdvoumljanje, označevanje imenskih entitet) in vrste medstavčnih povezav (diskurzno razčlenjevanje, razreševanje koreferenčnosti). Metode jezikoslovnega označevanja, ki so bile razvite v projektih JOS (Erjavec in Krek 2010) in SSJ (Krek 2013), bodo v okviru programa nadgrajevane z ugotovitvami, ki izhajajo iz analiz uspešnosti označevanja, razčlenjevanja itd., predvsem z modelom Universal Dependencies (Nivre idr. 2016).

NAPOVEDANI REZULTAT (v letih 2019, 2020, 2021, 2022, 2023, 2024): Redne posodobitve tabel oznak / sistemov označevanja za oblikoskladenjsko označevanje, skladenjsko razčlenjevanje, označevanje semantičnih vlog in drugih nivojev jezikoslovnega označevanja

CILJ 1.2 Metode avtomatskega luščenja jezikovnih podatkov iz (jezikoslovno označenih) korpusov.

Jezikoslovna označenost korpusov predstavlja predpogoj za avtomatsko luščenje jezikovnih podatkov. V okviru programa bomo nadgradili metode luščenja, ki so bile razvite v projektih SSJ in opisane v (Gantar, Kosem in Krek 2015) z uporabo orodja Sketch Engine, ki omogoča luščenje kolokacij v prepoznanih skladenjskih strukturah (sketch grammar), skupaj s korpusnimi zgledi. Metodo bomo nadgradili predvsem z vključevanjem semantične ravni (pomensko razdvoumljanje na podlagi okolice) in strojnim prepoznavanjem stalnih zvez, izhajajoč iz ugotovitev skupne delavnice COST akcij PARSEME in ENeL (Tiberius idr. 2015).

NAPOVEDANI REZULTAT (v letu 2022): Objava izluščenih podatkov iz semantično označenih virov

CILJ 1.3 Metode strojne analize strukturiranih jezikovnih virov za potrebe leksikogramatičnega opisa sodobne slovenščine.

Obstoječi strukturirani računalniško procesljivi jezikovni viri (leksikon Sloleks, Leksikalna baza za slovenščino, sloWNet itd.) omogočajo strojno analizo podatkov za potrebe jezikovnega  opisa sodobne slovenščine. Med naloge spada analiza oblikoslovnih in naglasnih vzorcev za samodejno generiranje oblikoslovnih in naglasih paradigem z namenom nadgradnje leksikona Sloleks, nadgradnjo leksikalne baze s podatki o glagolski vezljivosti, ki izhaja iz korpusno preverjenih podatkov obstoječega vezljivostnega slovarja (Žele 2008), nadgradnjo semantične baze sloWNet (Fišer 2015) s podatki o sinonimiji, ki izhajajo iz drugih (dvojezičnih) slovarjev in podobne. Ključna pri tem je semantična analiza, ki jo bomo zagotovili s tehnikami omrežne analize in globokih nevronskih mrež (cilja C4.1 in C4.4).

NAPOVEDANI REZULTAT: (v letih 2019, 2020, 2021, 2022, 2023, 2024): Redne objave izboljšanega slovenskega WordNeta

CILJ 1.4 Na korpusni analizi temelječ komunikacijski leksikogramatični opis sodobne slovenščine za potrebe jezikovnih tehnologij in e-izobraževanja.

Metode na korpusni analizi temelječega opisa sodobne slovenščine za potrebe jezikovnih tehnologij in e-izobraževanja izhajajo iz metodologije, uporabljene pri izdelavi Leksikalne baze za slovenščino (Gantar 2015). Ta omogoča segmentirano gradnjo enovite baze s podatki o sodobnem slovenskem jeziku (semantika, skladnja/vezljivost, kolokativnost, naglasnost, pregibnost, besedotvorje itd.), ki je strojno procesljiva, uporabna za jezikovnotehnološke in izobraževalne namene in vsebuje podatke na vseh nivojih jezikovnega opisa. Za čim bolj široko uporabo podatkov je pomembno, da je baza odprto dostopna.

NAPOVEDANI REZULTAT: (v letih 2019, 2020, 2021, 2022, 2023, 2024): Redne objave baze podatkov z leksikogramatičnimi informacijami o slovenščini

  • KLJUN, Maša, TERŠEK, Matija, VREŠ, Domen. [Re] learning to count everything. The Rescience journal. May 2022, vol. 8, iss. 2, [article no.] 39, str. 1-15, ilustr. ISSN 2430-3658. http://rescience.github.io/bibliography/Kljun_2022.html, DOI: 10.5281/zenodo.6574703. [COBISS.SI-ID 211347459]

  • GAPSA, Magdalena. Słowniki w dobie digitalizacji na przykładzie Słownika wyrazów bliskoznacznych współczesnego języka słoweńskiego = (Slovar sopomenk sodobne slovenščine). Adeptus. 2020, nr. 16, str. 1-16. ISSN 2300-0783. https://ispan.waw.pl/journals/index.php/adeptus/article/view/a.2227, DOI: 10.11649/a.2227. [COBISS.SI-ID 47241731], [WoS]

  • TRAJANOV, Dimitar, TRAJKOVSKI, Vangel, DIMITRIEVA, Makedonka, DOBREVA, Jovana, JOVANOVIK, Milos, KLEMEN, Matej, ŽAGAR, Aleš, ROBNIK ŠIKONJA, Marko. Review of natural language processing in pharmacology. Pharmacological reviews. Jul. 2023, vol. 75, no. 4, str. 714-738. ISSN 0031-6997. https://pharmrev.aspetjournals.org/content/75/4/714, DOI: 10.1124/pharmrev.122.000715. [COBISS.SI-ID 155223555], [JCR, SNIP, WoS do 15. 3. 2025: št. citatov (TC): 3, čistih citatov (CI): 3, čistih citatov na avtorja (CIAu): 0.38, Scopus do 20. 3. 2025: št. citatov (TC): 5, čistih citatov (CI): 5, čistih citatov na avtorja (CIAu): 0.63]

  • ARHAR HOLDT, Špela, FERBEŽAR, Ina, KALIN GOLOB, Monika, KREK, Simon, PAVLE, Andreja, ROZMAN, Tadeja, STABEJ, Marko. Nova slovenščina. Jezik in slovstvo. [Tiskana izd.]. 2024, letn. 69, št. 3, str. 117-138. ISSN 0021-6933. https://journals.uni-lj.si/jezikinslovstvo/article/view/18644, DOI: 10.4312/jis.69.3.117-138. [COBISS.SI-ID 210323971], [Odprti dostop, SNIP, Scopus]