Sloleks, slovenski
oblikoslovni leksikon
Bibliografski podatki Slovenskega oblikoslovnega leksikona Sloleks so na spodnji povezavi.
Dostopnost
Baza leksikona je dostopna
v repozitoriju CLARIN.SI.
To delo je dostopno pod licenco
Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 4.0.
O Sloleksu
Sloleks je leksikon besednih oblik za slovenski jezik. V strukturirani bazi podatkov vsebuje osnovne podatke o slovenskih besedah, predvsem v katero besedno vrsto spadajo in kakšne so njihove slovnične lastnosti. Pri vsaki besedi so v bazi zabeležene tudi vse njene pregibne oblike. Slovenščina je oblikoslovno izjemno bogat jezik (pregibajo se samostalniki, pridevniki, zaimki, števniki, glagoli in prislovi), zato je takih besed in njihovih oblik zelo veliko, Sloleks kot obsežna zbirka podatkov pa je koristen tako za jezikovne govorce, ki jih zanima pregibanje besed v slovenščini, kot za razvijalce jezikovnih tehnologij. V različici 2.0 so oblikam z avtomatskimi postopki pripisani tudi naglasi in zapisi v mednarodni fonetični pisavi (IPA), ki jih uporabniki lahko ocenjujejo kot ustrezne ali neustrezne.
Različica Sloleks 2.0 obsega 100.802 iztočnici in 2.792.003 posamezne besedne oblike z opisanimi slovničnimi in naglasnimi lastnostmi. Razporeditev iztočnic po besednih vrstah prikazuje graf na desni. Največji delež zajemajo samostalniki, ki jih je skupno 54.260 (od tega 43.908 občnoimenskih in 10.352 lastnoimenskih), sledijo pa jim pridevniki (26.612 iztočnic), glagoli (10.242), prislovi (6.906), števniki (2.240) in ostale besedne vrste (169 zaimkov, 96 predlogov, 85 medmetov, 70 okrajšav, 68 členkov in 54 veznikov). Vse besedne oblike imajo pripisano tudi število pojavitev v korpusu Gigafida 2.0 in povezave na korpusne primere, v katerih se oblika pojavlja.
Poleg naglašenih besednih oblik so novost v različici 2.0 tudi posnetki izgovorjave besed in avtomatsko generirani fonetični zapisi. 3.069.151 naglasov je bilo oblikam besed v Sloleksu 2.0 pripisanih avtomatsko z metodami nevronskih mrež (Krsnik 2018), posnetki izgovorjave pa so bili generirani s pomočjo sistema eBralec. Po načelih odzivnega slovarja vmesnik Sloleksa 2.0 vključuje tudi sodelovanje uporabnikov, ki lahko k izboljšanju podatkovne zbirke prispevajo na več načinov: s pozitivnim ali negativnim glasovanjem o naglašenih besednih oblikah, posnetkih in fonetičnih zapisih, s prijavo manjkajočega naglasnega vzorca pri posamezni iztočnici in z dodajanjem uporabniških posnetkov izgovorjave iztočnic.
Leksikon besednih oblik Sloleks je namenjen tako jezikovnim uporabnikom, ki lahko s pomočjo spletnega vmesnika preverjajo informacije o pregibanju in slovničnih ter naglasnih lastnostih slovenskih besednih oblik, kot tudi razvijalcem jezikovnotehnoloških aplikacij (kot so npr. razpoznavalniki in sintetizatorji govora ter avtomatski naglaševalniki, pregibalniki in oblikoskladenjski označevalniki) in jezikoslovnim raziskovalcem, za katere je Sloleks 2.0 na voljo v formatu XML na repozitoriju CLARIN.SI pod licenco Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna (CC BY-SA 4.0).
Slovenski oblikoslovni leksikon Sloleks je del prizadevanja Centra za jezikovne vire in tehnologije Univerze v Ljubljani, da bi se za slovenski jezik zagotovila jezikovna infrastruktura, primerljiva tisti, ki nastaja za večje jezike. Verjamemo, da mora priprava jezikovnih virov metodološko slediti duhu časa, da morajo biti podatki, ki so pripravljeni z javnim financiranjem, vsem potencialnim uporabnikom prosto na voljo za razvoj jezikovnih tehnologij in da je treba razvoj utemeljiti na realnih potrebah uporabnikov v sodobnem, digitalnem času. Posebna pozornost pri pripravi leksikona je zato namenjena vzpostavljanju skupnosti, ki leksikon ne le uporablja, temveč tudi sodeluje pri njegovem razvoju.
Publikacije
DOBROVOLJC, Kaja, KREK, Simon, ERJAVEC, Tomaž. Leksikon besednih oblik Sloleks in smernice njegovega razvoja. V: Vojko Gorjanc, Polona Gantar, Iztok Kosem, Simon Krek: Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete, 2015. 80-105.
DOBROVOLJC, Kaja, KREK, Simon, ERJAVEC, Tomaž. The Sloleks Morphological Lexicon and its Future Development. V: Vojko Gorjanc, Polona Gantar, Iztok Kosem, Simon Krek: Dictionary of Modern Slovene: Problems and Solutions. Ljubljana: Znanstvena založba Filozofske fakultete, 2018. 42-63.
KRSNIK, Luka. Napovedovanje naglasa slovenskih besed z metodami strojnega učenja. Magistrsko delo. 2018.
DOBROVOLJC, Kaja. Oblikoslovne informacije v sodobnih slovarskih priročnikih. V: Vojko Gorjanc, Polona Gantar, Iztok Kosem, Simon Krek: Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete, 2015. 64-79.
KREK, Simon, ERJAVEC, Tomaž, HOLOZAN, Peter. Specifikacije za leksikon besednih oblik (kazalnik 3). Projekt Sporazumevanje v slovenskem jeziku, 2008.
ARHAR, Špela. Učni korpus SSJ in leksikon besednih oblik za slovenščino. Jezik in slovstvo 54/3–4, 2009, 43–56.
FIŠER, Darja, ČIBEJ, Jaka, DOBROVOLJC, Kaja, GANTAR, Polona, KOSEM, Iztok, ARHAR HOLDT, Špela, POPIČ, Damjan, ERJAVEC, Tomaž. Množičenje za slovar sodobnega slovenskega jezika. V: Vojko Gorjanc, Polona Gantar, Iztok Kosem, Simon Krek: Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete, 2015. 566-586.
ARHAR HOLDT, Špela, DOBROVOLJC, Kaja, POPIČ, Damjan. Reprezentacija standardnega in nestandardnega v virih SSJ. V: Družbena funkcijskost jezika: (vidiki, merila, opredelitve). Ljubljana: Znanstvena založba Filozofske fakultete, 2013, 19-27.
REJC, Rok. Generiranje slovenskih besednih oblik s pomočjo strojnega učenja. Diplomsko delo. 2017.
KREK, Simon. Leksikografska orodja za slovenščino: slovnica besednih skic. V: Vojko Gorjanc, Polona Gantar, Iztok Kosem, Simon Krek: Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete, 2015, 358-378.
ARHAR HOLDT, Špela, ČIBEJ, Jaka. Oblikoslovni vzorci v leksikonu Sloleks: izhodiščni nabor za samostalnike. Slovnične raziskave za jezikovni opis, Letn. 6, št. 2 (2018). Ljubljana: Trojina, zavod za uporabno slovenistiko, 2018, 33-66.
Podatke za nadgradnjo Sloleksa v različico 2.0 je na podlagi Sloleksa 1.0 pripravila interdisciplinarna ekipa raziskovalcev Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Razvojni del sta podprla infrastrukturna programa CJVT in CLARIN.SI, raziskovalni del pa programski skupini ARRS P6-0411 - Jezikovni viri in tehnologije za slovenščino in P6-0215 Slovenski jezik - bazične, kontrastivne in aplikativne raziskave.
Spletni vmesnik je oblikoval Studio Kruh, razvil pa Leon Noe Jovan.