Slovar sopomenk
sodobne slovenščine
Bibliografski podatki Slovarja sopomenk sodobne slovenščine so na spodnji povezavi.
Dostopnost
Baza slovarja je dostopna v repozitoriju CLARIN.SI.
To delo je dostopno pod licenco
Creative Commons Priznanje avtorstva-
Deljenje pod enakimi pogoji 4.0.
O slovarju
Trenutna različica slovarja vsebuje 105.473 iztočnic in 368.117 sopomenk, s čimer je Slovar sopomenk sodobne slovenščine najobsežnejša prosto dostopna avtomatsko generirana zbirka sopomenk za slovenščino. Slovar od podobnih projektov loči dejstvo, da zajema iz različnih podatkovnih zbirk in da prinaša možnost primerjave med rabo različnih sopomenk ter povezavo na podatke v referenčnem korpusu sodobne slovenščine Gigafida.
Slovar nastaja z naprednimi računalniškimi metodami, ki so inovativne tudi v evropskem in širšem leksikografskem prostoru. Računalniško podprta priprava podatkov je v finančnem smislu bistveno manj obremenjujoča in potratna kot ročno delo, obenem pa je neizmerno hitrejša. Hitrost omogoča, da se podatki redno posodabljajo in nadgrajujejo, s čimer lahko slovar postane dinamičen podatkovni vir.
Konceptualno s Slovarjem sopomenk sodobne slovenščine uvajamo nov tip slovarja, ki ga imenujemo odzivni slovar. Zanj je značilno, da je izhodiščna slovarska baza izdelana z naprednimi računalniškimi metodami, kar zagotavlja, da je jezikovni skupnosti takoj po izdelavi na voljo večja količina relevantnih, a še neprečiščenih jezikovnih podatkov. Ključno pri konceptu je, da je zbirka odprto dostopna, hkrati pa so zagotovljene metode sodelovanja celotne jezikovne skupnosti pri izdelavi izboljšane, prečiščene baze. Iz tega izhaja temeljna značilnost novega slovarskega tipa, da izdelava slovarja nikoli ni zaključena, podatki v geslih pa se lahko hitro spremenijo, če se spremeni jezikovna realnost. Sledljivost sprememb je zagotovljena s časovnim žigom v posameznih slovarskih geslih in arhiviranjem vseh različic baze. Poimenovanje izhaja iz tega, da se podatki v zbirki po predvideni metodologiji trajno odzivajo na stališča sodelujoče jezikovne skupnosti ali na jezikovno realnost, ki izhaja iz besedilne produkcije jezikovne skupnosti. To pomeni, da gre v osnovi za “slovar skupnosti za skupnost”.
Zbirka je osnovana na podatkih iz dveh temeljnih jezikovnih virov: Velikega angleško-slovenskega slovarja Oxford-DZS in referenčnega korpusa pisne slovenščine Gigafida. Oba vira vsebujeta jezikovno gradivo, ki je nastalo po letu 1991, in tako prinašata sliko sodobne slovenščine. Identificirane povezave med sopomenkami smo dodatno preverili še s pomočjo gradivno starejšega Slovarja slovenskega knjižnega jezika (SSKJ). Pri pridobivanju in organizaciji podatkov je upoštevano, kako pogosto in na kakšen način se besede sopojavljajo v prevodnih nizih slovarja Oxford-DZS. Ta informacija je osnova za ločevanje 'jedrnih' sopomenk od 'bližnjih': prve so v virih bolj povezane z iztočnico kot druge. V naslednjem koraku so z metodo uravnoteženih sopojavitvenih grafov in algoritmom Personal PageRank sopomenke avtomatsko ločene v podskupine in rangirane glede na pomensko sorodnost z iztočnico ter pogostost v jezikovni rabi. Sopojavitveni grafi so uporabljeni za organizacijo sopomenk v slovarju. Metodologija je natančneje predstavljena v prispevku Krek et al. (2017).
Avtomatsko pridobivanje in razvrščanje podatkov nikoli ni povsem natančno, kar lahko opazujemo tudi pri primerljivih projektih za druge jezike. Testiranja kažejo, da je metoda kljub temu dovolj zanesljiva, da so že pred jezikoslovnim posegom rezultati za uporabnika slovarja koristni. Graf na desni prikazuje jezikoslovno evalvacijo podatkov, v kateri so bile avtomatsko pridobljene sopomenke ocenjene kot zelo ustrezne, sprejemljive ali neustrezne za dano iztočnico. Pri tem je treba poudariti, da tovrstno presojanje tudi za človeka ni enoznačna naloga, saj je pojem sopomenskosti zelo širok in odločilno povezan z besedilnim kontekstom in okoliščinami izjavljanja.
Ker je pri razumevanju sopomenskosti nujno upoštevati besedilni kontekst, je v slovarju veliko pozornosti posvečene povezavi s korpusnimi podatki. Tudi na tej ravni so uvedene pomembne metodološke novosti. Povsem nova za slovenščino je možnost, da uporabnik s pomočjo kolokacij (tipičnih sopojavitev besed) enostavno primerja, kako se različne sopomenke pojavljajo v realnih besedilih. Poleg tega so z rabo strojnih metod, ki omogočajo avtomatsko prepoznavo dobrih (slovarskih) zgledov, v slovar uvoženi zgledi rabe. S kolokacijami in zgledi rabe je opremljena večina iztočnic, pri vseh pa je na voljo tudi povezava v korpus Gigafida, ki omogoča nadaljnje raziskovanje sodobne jezikovne rabe. Iz Velikega angleško-slovenskega slovarja Oxford-DZS smo dodali tudi področne oznake, ki pomagajo pri pojasnjevanju konteksta rabe sopomenk. Drugih vrst oznak trenutna različica Sopomenk ne vsebuje.
Slovar sopomenk sodobne slovenščine je del prizadevanj, da bi se za slovenski jezik zagotovila jezikovna infrastruktura, primerljiva tisti, ki nastaja za večje jezike. Verjamemo, da mora priprava jezikovnih virov metodološko slediti duhu časa, da morajo biti podatki, ki so pripravljeni z javnim financiranjem, prosto na voljo za razvoj jezikovnih tehnologij in da je treba razvoj utemeljiti na realnih potrebah uporabnikov v sodobnem času, v digitalni dobi. Posebna pozornost pri pripravi slovarja je zato namenjena vzpostavljanju skupnosti, ki slovar ne le uporablja, ampak ga tudi razvija.
Publikacije
ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, GANTAR, Apolonija, GORJANC, Vojko, KLEMENC, Bojan, KOSEM, Iztok, KREK, Simon, LASKOWSKI, Cyprian, ROBNIK ŠIKONJA, Marko. Thesaurus of Modern Slovene: By the Community for the Community. V: Čibej, Jaka, Vojko Gorjanc, Iztok Kosem, Simon Krek (ur.). Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. ISBN 978-961-06-0097-8). 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete. 2018, str. 401-410. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/118/211/3000-1
KREK, Simon, LASKOWSKI, Cyprian, ROBNIK-ŠIKONJA, Marko. From translation equivalents to synonyms: creation of a Slovene thesaurus using word co-occurrence network analysis. V: KOSEM, Iztok (ur.) et al., Proceedings of eLex 2017: Lexicography from Scratch, 19-21 September 2017, Leiden, Netherlands. https://elex.link/elex2017/wp-content/uploads/2017/09/paper05.pdf
GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete. 2015. Deloma prevedeno v: GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Dictionary of modern Slovene: problems and solutions. Ljubljana: Ljubljana University Press, Faculty of Arts, 2017. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/book/15
GANTAR, Polona, KOSEM, Iztok, KREK, Simon. Discovering automated lexicography = the case of Slovene lexical database. International journal of lexicography, 2016, vol. 29, issue 2, str. 200-225. https://academic.oup.com/ijl/article/29/2/200/2413284/Discovering-Automated-Lexicography-The-Case-of-the?guestAccessKey=95f18766-f10f-4994-a6fa-448cf75ac55e
KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Avtomatizacija leksikografskih postopkov. V: ERJAVEC, Tomaž (ur.), ŽGANEC GROS, Jerneja (ur.). Jezikovne tehnologije, Slovenščina 2.0, letn. 1, št. 2. Ljubljana: Trojina, zavod za uporabno slovenistiko. 2013, str. 139-164. http://www.trojina.org/slovenscina2.0/arhiv/2013/2/Slo2.0_2013_2_07.pdf
ČIBEJ, Jaka, FIŠER, Darja, KOSEM, Iztok. The role of crowdsourcing in lexicography. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 70-83. https://elex.link/elex2015/proceedings/eLex_2015_05_Cibej+Fiser+Kosem.pdf
ARHAR HOLDT, Špela, ČIBEJ, Jaka, ZWITTER VITEZ, Ana. Value of language-related questions and comments in digital media for lexicographical user research. International journal of lexicography, 2017, vol. 30, issue 3, str. 285-308. http://ijl.oxfordjournals.org/content/early/2016/04/20/ijl.ecw017.full.pdf?keytype=ref&ijkey=SP5Yb4PHvfykRkk.
ARHAR HOLDT, Špela, KOSEM, Iztok, GANTAR, Polona. Dictionary user typology: the Slovenian case. V: MARGALITADZE, Tinatin (ur.), MELADZE, George (ur.). Lexicography and linguistic diversity: proceedings of the XVII EURALEX International Congress. Tbilisi: Ivane Javakhishvili Tbilisi State University. 2016, str. 179-187. http://euralex2016.tsu.ge/publication2016.pdf
GANTAR, Polona, GORJANC, Vojko, KOSEM, Iztok, KREK, Simon. Going semi-automatic and crowdsourced: collocation dictionary of Slovene. V: KOSEM, Iztok (ur.). Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 37.
KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Automation of lexicographic work: an opportunity for both lexicographers and crowd-sourcing. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: thinking outside the paper. Ljubljana: Trojina, Institute for Applied Slovene Studies; Tallinn: Eesti Keele Instituut. 2013, str. 32-48. http://eki.ee/elex2013/proceedings/eLex2013_03_Kosem+Gantar+Krek.pdf
KOSEM, Iztok, HUSAK, Milos, MCCARTHY, Diana. GDEX for Slovene. V: KOSEM, Iztok (ur.), KOSEM, Karmen (ur.). Electronic lexicography in the 21st century: new applications for new users. Ljubljana: Trojina, Institute for Applied Slovene Studies. 2011, str. 150-159. http://www.trojina.si/elex2011/elex2011_proceedings.pdf
LOGAR, Nataša, GRČAR, Miha, BRAKUS, Marko, ERJAVEC, Tomaž, ARHAR HOLDT, Špela, KREK, Simon. Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede, 2012.
KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, GORJANC, Vojko. Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. V: ERJAVEC, Tomaž (ur.), FIŠER, Darja (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika. Ljubljana: Znanstvena založba Filozofske fakultete. 2016, str. 200-202. http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Krek-et-al_Nadgradnja-korpusov-Gigafida-Kres-ccGigafida-ccKres.pdf
KREK, Simon, KOSEM, Iztok, GANTAR, Polona. Predlog za izdelavo Slovarja sodobnega slovenskega jezika. Izd. 1.1. Ljubljana: s. n., 2013. http://www.sssj.si/datoteke/Predlog_SSSJ_v1.1.pdf
Podatke za Slovar sopomenk sodobne slovenščine je pripravila interdisciplinarna ekipa raziskovalcev Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Razvojni del je podprl infrastrukturni program CJVT, raziskovalni del pa programska skupina ARRS P6-0215 Slovenski jezik - bazične, kontrastivne in aplikativne raziskave.
Slovarski vmesnik je razvil Studio Kruh v sodelovanju z Leonom Noetom Jovanom.