O slovarju

Trenutna različica slovarja vsebuje 100.343 iztočnic in 361.286 sopomenk, s čimer je Slovar sopomenk sodobne slovenščine najobsežnejša prosto dostopna avtomatsko generirana in delno ročno pregledana zbirka sopomenk za slovenščino. Slovar od podobnih projektov loči dejstvo, da zajema iz različnih podatkovnih zbirk in da prinaša možnost primerjave med rabo različnih sopomenk ter povezavo na podatke v referenčnem korpusu sodobne slovenščine Gigafida 2.0.

Slovar nastaja z naprednimi računalniškimi metodami, ki so inovativne tudi v evropskem in širšem leksikografskem prostoru. Računalniško podprta priprava podatkov je v finančnem smislu bistveno manj obremenjujoča in potratna kot ročno delo, obenem pa je neizmerno hitrejša. Hitrost omogoča, da se podatki redno posodabljajo in nadgrajujejo, s čimer lahko slovar postane dinamičen podatkovni vir.

Odzivni slovar

Konceptualno s Slovarjem sopomenk sodobne slovenščine uvajamo nov tip slovarja, ki ga imenujemo odzivni slovar. Zanj je značilno, da je izhodiščna slovarska baza izdelana z naprednimi računalniškimi metodami, kar zagotavlja, da je jezikovni skupnosti takoj po izdelavi na voljo večja količina relevantnih, a še neprečiščenih jezikovnih podatkov. Ključno pri konceptu je, da je zbirka odprto dostopna, hkrati pa so zagotovljene metode sodelovanja celotne jezikovne skupnosti pri izdelavi izboljšane, prečiščene baze. Iz tega izhaja temeljna značilnost novega slovarskega tipa, da izdelava slovarja nikoli ni zaključena, podatki v geslih pa se lahko hitro spremenijo, če se spremeni jezikovna realnost. Sledljivost sprememb je zagotovljena s časovnim žigom v posameznih slovarskih geslih in arhiviranjem vseh različic baze . Poimenovanje izhaja iz tega, da se podatki v zbirki po predvideni metodologiji trajno odzivajo na stališča sodelujoče jezikovne skupnosti ali na jezikovno realnost, ki izhaja iz besedilne produkcije jezikovne skupnosti. To pomeni, da gre v osnovi za “slovar skupnosti za skupnost” (Arhar Holdt et al. (2018).

Nastanek slovarja

Zbirka je osnovana na podatkih iz dveh temeljnih jezikovnih virov: Velikega angleško-slovenskega slovarja Oxford-DZS in referenčnega korpusa pisne slovenščine Gigafida. Oba vira vsebujeta jezikovno gradivo, ki je nastalo po letu 1991, in tako prinašata sliko sodobne slovenščine. Identificirane povezave med sopomenkami smo dodatno preverili še s pomočjo gradivno starejšega Slovarja slovenskega knjižnega jezika (SSKJ). Pri pridobivanju in organizaciji podatkov je upoštevano, kako pogosto in na kakšen način se besede sopojavljajo v prevodnih nizih slovarja Oxford-DZS. Ta informacija je osnova za ločevanje 'jedrnih' sopomenk od 'bližnjih': prve so v virih bolj povezane z iztočnico kot druge. V naslednjem koraku so z metodo uravnoteženih sopojavitvenih grafov in algoritmom Personal PageRank sopomenke avtomatsko ločene v podskupine in rangirane glede na pomensko sorodnost z iztočnico ter pogostost v jezikovni rabi. Sopojavitveni grafi so uporabljeni za organizacijo sopomenk v slovarju. Metodologija je natančneje predstavljena v prispevku Krek et al. (2017).

Sopojavitveni graf za besedo hiša.

Zanesljivost podatkov

Avtomatsko pridobivanje in razvrščanje podatkov nikoli ni povsem natančno, kar lahko opazujemo tudi pri primerljivih projektih za druge jezike. Testiranja kažejo, da je metoda kljub temu dovolj zanesljiva, da so že pred jezikoslovnim posegom rezultati za uporabnika slovarja koristni. Graf na desni prikazuje jezikoslovno evalvacijo podatkov, v kateri so bile avtomatsko pridobljene sopomenke ocenjene kot zelo ustrezne, sprejemljive ali neustrezne za dano iztočnico. Pri tem je treba poudariti, da tovrstno presojanje tudi za človeka ni enoznačna naloga, saj je pojem sopomenskosti zelo širok in odločilno povezan z besedilnim kontekstom in okoliščinami izjavljanja.

Jezikoslovna ocena sopomenk za dano iztočnico.

Sopomenke in kontekst

Ker je pri razumevanju sopomenskosti nujno upoštevati besedilni kontekst, je v slovarju veliko pozornosti posvečene povezavi s korpusnimi podatki. Tudi na tej ravni so uvedene pomembne metodološke novosti. Povsem nova za slovenščino je možnost, da uporabnik s pomočjo kolokacij (tipičnih sopojavitev besed) enostavno primerja, kako se različne sopomenke pojavljajo v realnih besedilih. Poleg tega so z rabo strojnih metod, ki omogočajo avtomatsko prepoznavo dobrih (slovarskih) zgledov, v slovar uvoženi zgledi rabe. S kolokacijami in zgledi rabe je opremljena večina iztočnic, pri vseh pa je na voljo tudi povezava v korpus Gigafida, ki omogoča nadaljnje raziskovanje sodobne jezikovne rabe. Iz Velikega angleško-slovenskega slovarja Oxford-DZS smo dodali področne oznake, ki pomagajo pri pojasnjevanju konteksta rabe sopomenk, v različici 2.0 pa smo ročno dodali oznake za sovražno in grobo besedišče.

Novosti v Sopomenkah 2.0

Sopomenke 2.0 vsebujejo dve vrsti slovarskih gesel. Večina gesel je pripravljenih povsem strojno. Pri 3.421 iztočnicah pa smo ročno pripravili pomensko členitev, jo opisali s kratkimi pomenskimi indikatorji in razvrstili sopomenke pod ustrezne pomene. Novost so tudi ročno pregledane protipomenke, ki so na voljo pri 3.599 iztočnicah. Pomensko členjena gesla in protipomenke kažejo smer, v katero bi radi slovar dopolnjevali v prihodnje.

Od skupnosti za skupnost

Slovar sopomenk sodobne slovenščine je del prizadevanj, da bi se za slovenski jezik zagotovila jezikovna infrastruktura, primerljiva tisti, ki nastaja za večje jezike. Verjamemo, da mora priprava jezikovnih virov metodološko slediti duhu časa, da morajo biti podatki, ki so pripravljeni z javnim financiranjem, prosto na voljo za razvoj jezikovnih tehnologij in da je treba razvoj utemeljiti na realnih potrebah uporabnikov v sodobnem času, v digitalni dobi. Posebna pozornost pri pripravi slovarja je zato namenjena vzpostavljanju skupnosti, ki slovar ne le uporablja, ampak ga tudi razvija.

Uporabniško gradivo v slovarski bazi

Uporabniki in uporabnice lahko v slovar dodajajo lastne predloge sopomenk in protipomenk. Vsak nov predlog se v slovarju pojavi takoj po oddaji in skupnost ima nemudoma tudi možnost, da mu pripiše pozitivne ali negativne glasove. Od različice 2.0 naprej bomo izbrane uporabniške predloge vključevali tudi v odprto dostopno bazo sopomenk in Digitalno slovarsko bazo za slovenščino. Pri odločitvi bomo upoštevali naslednja izhodišča: (1) Ali se predlagana beseda oz. zveza pojavlja v realni rabi? (2) Ali je bila glede na svoj pomen dodana pod ustrezno iztočnico? (3) Ali potrebuje slovarsko oznako in če jo, ali je bil podan tudi predlog oznake? (4) Kako so se do predloga opredelili drugi uporabniki in uporabnice? Ne glede na to, ali bo predlog vključen v bazo ali ne, bo ostal na voljo v slovarskem vmesniku. Izjemoma bomo odstranili le vpise, ki so zlonamerni ali kako drugače problematični.

Novosti v Sopomenkah 2.1

Sopomenke 2.1 vsebujejo dve vrsti slovarskih gesel. Večina gesel je pripravljenih povsem strojno. Pri 5.060 (1.865 od teh je dodanih v zadnji različici) pa smo ročno pripravili pomensko členitev, jo opisali s kratkimi pomenskimi indikatorji in razvrstili sopomenke pod ustrezne pomene. Novost so tudi ročno pregledane protipomenke, ki so na voljo pri 3.599 iztočnicah. Pomensko členjena gesla in protipomenke kažejo smer, v katero bi radi slovar dopolnjevali v prihodnje. Zadnja različica je bila izdelana v okviru projekta Podatkovna dopolnitev in igrifikacija slovarskih virov na CJVT UL (PODVIG), ki ga financira Ministrstvo za kulturo RS.

Publikacije

ARHAR HOLDT, Špela, GANTAR, Polona, KOSEM, Iztok, PORI, Eva, ROBNIK ŠIKONJA, Marko, KREK, Simon. Thesaurus of Modern Slovene 2.0. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27-29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 366-381. https://elex.link/elex2023/wp-content/uploads/82.pdf

ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, GANTAR, Apolonija, GORJANC, Vojko, KLEMENC, Bojan, KOSEM, Iztok, KREK, Simon, LASKOWSKI, Cyprian, ROBNIK ŠIKONJA, Marko. Thesaurus of Modern Slovene: By the Community for the Community. V: Čibej, Jaka, Vojko Gorjanc, Iztok Kosem, Simon Krek (ur.). Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. ISBN 978-961-06-0097-8). 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete. 2018, str. 401-410. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/118/211/3000-1

KREK, Simon, LASKOWSKI, Cyprian, ROBNIK-ŠIKONJA, Marko. From translation equivalents to synonyms: creation of a Slovene thesaurus using word co-occurrence network analysis. V: KOSEM, Iztok (ur.) et al., Proceedings of eLex 2017: Lexicography from Scratch, 19-21 September 2017, Leiden, Netherlands. https://elex.link/elex2017/wp-content/uploads/2017/09/paper05.pdf

ARHAR HOLDT, Špela. How users responded to a responsive dictionary: the case of the Thesaurus of Modern Slovene. Rasprave Instituta za hrvatski jezik i jezikoslovlje. 2020, vol. 46, no. 2, str. 465-482. DOI: 10.31724/rihjj.46.2.1

ARHAR HOLDT, Špela, KOSEM, Iztok, PORI, Eva, GORJANC, Vojko, KREK, Simon, GANTAR, Polona. Negativno zaznamovano besedišče v Slovarju sopomenk sodobne slovenščine 2.0. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2023, letn. 11, št. 1, str. 8-32. DOI: 10.4312/slo2.0.2023.1.8-32

GAPSA, Magdalena, ARHAR HOLDT, Špela. How lexicographers evaluate user contributions in the Thesaurus of Modern Slovene in comparison to dictionary users. In: MEDVEĎ, Marek (Ed.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27-29 June 2023. Brno: Lexical Computing CZ, 2023. Pp. 178-200. https://elex.link/elex2023/wp-content/uploads/47.pdf

ARHAR HOLDT, Špela, GANTAR, Polona, KOSEM, Iztok, PORI, Eva, LOGAR, Nataša, GORJANC, Vojko, KREK, Simon. Sovražno in grobo besedišče v odzivnem Slovarju sopomenk sodobne slovenščine. V: FIŠER, Darja, ERJAVEC, Tomaž (ur.): Jezikovne tehnologije in digitalna humanistika: zbornik konference: 15.-16. september 2022, Ljubljana, Slovenija. Inštitut za novejšo zgodovino. Str. 10-16. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Proceedings.pdf

ARHAR HOLDT, Špela, ČIBEJ, Jaka. Rezultati projekta "Slovar sopomenk sodobne slovenščine: od skupnosti za skupnost". V: FIŠER, Darja, ERJAVEC, Tomaž (ur.). Jezikovne tehnologije in digitalna humanistika: zbornik konference: 24.- 25. september 2020, Ljubljana, Slovenija. Ljubljana: Inštitut za novejšo zgodovino. 2020, str. 3-9. http://nl.ijs.si/jtdh20/pdf/JT-DH_2020_Arhar-Holdt-et-al_Rezultati-projekta_Slovar-sopomenk-sodobne-slovenscine.pdf

GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete. 2015. Deloma prevedeno v: GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Dictionary of modern Slovene: problems and solutions. Ljubljana: Ljubljana University Press, Faculty of Arts, 2017. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/book/15

GANTAR, Polona, KOSEM, Iztok, KREK, Simon. Discovering automated lexicography = the case of Slovene lexical database. International journal of lexicography, 2016, vol. 29, issue 2, str. 200-225. https://academic.oup.com/ijl/article/29/2/200/2413284/Discovering-Automated-Lexicography-The-Case-of-the?guestAccessKey=95f18766-f10f-4994-a6fa-448cf75ac55e

KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Avtomatizacija leksikografskih postopkov. V: ERJAVEC, Tomaž (ur.), ŽGANEC GROS, Jerneja (ur.). Jezikovne tehnologije, Slovenščina 2.0, letn. 1, št. 2. Ljubljana: Trojina, zavod za uporabno slovenistiko. 2013, str. 139-164. http://www.trojina.org/slovenscina2.0/arhiv/2013/2/Slo2.0_2013_2_07.pdf

ČIBEJ, Jaka, FIŠER, Darja, KOSEM, Iztok. The role of crowdsourcing in lexicography. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 70-83. https://elex.link/elex2015/proceedings/eLex_2015_05_Cibej+Fiser+Kosem.pdf

ARHAR HOLDT, Špela, LOGAR, Nataša, PORI, Eva, KOSEM, Iztok. Game of words: play the game, clean the database. V: GAVRIILIDOU, Zoe, MITITS, Lydia, KIOSSES, Spyros (ur.). Lexicography for inclusion: EURALEX XIX: 7-9 September 2021, Vol. 2. 2021. Komotini: Democritus University of Thrace. 2021, str. 41-49. https://euralex.org/publications/game-of-words-play-the-game-clean-the-database/

ČIBEJ, Jaka, ARHAR HOLDT, Špela. Repel the syntruders! A crowdsourcing cleanup of the thesaurus of modern Slovene. V: KOSEM, Iztok, KREK, Simon (ur.): Electronic lexicography in the 21st century: proceedings of eLex 2019 Conference, 1-3 October 2019, Sintra, Portugal. Brno: Lexical Computing, 2019. Str. 338-356. https://elex.link/elex2019/wp-content/uploads/2019/10/eLex-2019_Proceedings.pdf

ARHAR HOLDT, Špela, ČIBEJ, Jaka, ZWITTER VITEZ, Ana. Value of language-related questions and comments in digital media for lexicographical user research. International journal of lexicography, 2017, vol. 30, issue 3, str. 285-308. http://ijl.oxfordjournals.org/content/early/2016/04/20/ijl.ecw017.full.pdf?keytype=ref&ijkey=SP5Yb4PHvfykRkk

ARHAR HOLDT, Špela, KOSEM, Iztok, GANTAR, Polona. Dictionary user typology: the Slovenian case. V: MARGALITADZE, Tinatin (ur.), MELADZE, George (ur.). Lexicography and linguistic diversity: proceedings of the XVII EURALEX International Congress. Tbilisi: Ivane Javakhishvili Tbilisi State University. 2016, str. 179-187. http://euralex2016.tsu.ge/publication2016.pdf

GANTAR, Polona, GORJANC, Vojko, KOSEM, Iztok, KREK, Simon. Going semi-automatic and crowdsourced: collocation dictionary of Slovene. V: KOSEM, Iztok (ur.). Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 37.

KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Automation of lexicographic work: an opportunity for both lexicographers and crowd-sourcing. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: thinking outside the paper. Ljubljana: Trojina, Institute for Applied Slovene Studies; Tallinn: Eesti Keele Instituut. 2013, str. 32-48. http://eki.ee/elex2013/proceedings/eLex2013_03_Kosem+Gantar+Krek.pdf

KOSEM, Iztok, HUSAK, Milos, MCCARTHY, Diana. GDEX for Slovene. V: KOSEM, Iztok (ur.), KOSEM, Karmen (ur.). Electronic lexicography in the 21st century: new applications for new users. Ljubljana: Trojina, Institute for Applied Slovene Studies. 2011, str. 150-159. http://www.trojina.si/elex2011/elex2011_proceedings.pdf

LOGAR, Nataša, GRČAR, Miha, BRAKUS, Marko, ERJAVEC, Tomaž, ARHAR HOLDT, Špela, KREK, Simon. Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede, 2012. https://doi.org/10.4312/9789610603542

KREK, Simon, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, ČIBEJ, Jaka, REPAR, Andraž, GANTAR, Polona, LJUBEŠIĆ, Nikola, KOSEM, Iztok, DOBROVOLJC, Kaja. Gigafida 2.0: the reference corpus of written standard Slovene. V: CALZOLARI, Nicoletta (ur.): LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11-16, 2020, Palais du Pharo, Marseille, France. Paris: ELRA - European Language Resources Association, 2020, str. 3340-3345. http://www.lrec-conf.org/proceedings/lrec2020/LREC-2020.pdf

ARHAR HOLDT, Špela, KOSEM, Iztok, PORI, Eva. Jezikovni viri CJVT in njihova raba v izobraževalne namene. V: ULČNIK, Natalija, ANTLOGA, Špela (ur.): Slovenščina na dlani 4. Maribor: Univerza v Mariboru, Univerzitetna založba, 2021. Str. 19-36. https://press.um.si/index.php/ump/catalog/book/615

KREK, Simon, KOSEM, Iztok, GANTAR, Polona. Predlog za izdelavo Slovarja sodobnega slovenskega jezika. Izd. 1.1. Ljubljana: s. n., 2013. http://www.sssj.si/datoteke/Predlog_SSSJ_v1.1.pdf

Kolofon

Sopomenke 2.1
Slovar sopomenk sodobne slovenščine

Spletni slovar na viri.cjvt.si
Zbirka Viri CJVT
ISSN 2591-247X

Ljubljana, 2023

Delo je dostopno pod licenco Creative Commons:
Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna.

Glavni uredniki
Špela Arhar Holdt (član uredniškega odbora, avtor)
Simon Krek (član uredniškega odbora, avtor)
Cyprian Laskowski (član uredniškega odbora, avtor)
Iztok Kosem (član uredniškega odbora, avtor)
Polona Gantar (član uredniškega odbora, avtor)
Urška Kamenšek (avtor)
Primož Ponikvar (avtor)
Rebeka Roblek (avtor)
Jure Šešet (avtor)
Petra Zaranšek (avtor)
Karolina Zgaga (avtor)
Marko Robnik Šikonja (član uredniškega odbora, avtor)
Jaka Čibej (član uredniškega odbora, avtor)
Vojko Gorjanc (član uredniškega odbora, avtor)
Bojan Klemenc (član uredniškega odbora, avtor)
Kaja Dobrovoljc (član uredniškega odbora, avtor)

Oblikovanje vmesnika
Gašper Uršič
Gregor Makovec
(Studio Kruh)

Izdelava spletnega vmesnika
Leon Noe Jovan

Izdajatelj
Center za jezikovne vire in tehnologije, Univerza v Ljubljani
Znanstvena založba Filozofske fakultete Univerze v Ljubljani

Zanj
Mojca Schlamberger Brezar, dekanja Filozofske fakultete

Založnik
Založba Univerze v Ljubljani
(do 2022) Znanstvena založba Filozofske fakultete Univerze v Ljubljani

Zanj
Gregor Majdič, rektor Univerze v Ljubljani

Citiranje
Sopomenke 2.1: Slovar sopomenk sodobne slovenščine, viri.cjvt.si/sopomenke, dostop 30. 12. 2024.

Različice

Slovar sopomenk sodobne slovenščine 2.1

Datum izdaje posodobitve: 24. 11. 2024
Število iztočnic: 100.343
Število sopomenk: 361.286
Število kolokacij: 2.882.892
Število zgledov: 7.324.164


Slovar sopomenk sodobne slovenščine 2.0

Datum izdaje posodobitve: 26. 3. 2023
Število iztočnic: 100.837
Število sopomenk: 362.828
Število kolokacij: 2.885.894
Število zgledov: 7.364.128


Slovar sopomenk sodobne slovenščine 1.0

Datum izdaje posodobitve: 26. 3. 2018
Število iztočnic: 105.473
Število sopomenk: 368.117
Število kolokacij: 3.353.061
Število zgledov: 2.505.472


URL-naslov: http://viri.cjvt.si/sopomenke/arhiv/CJVT_Thesaurus-v1.0.zip