O slovarju

Kolokacije so tipične sopojavitve besed in so pomemben del jezika; ker prinašajo podatek o tipičnosti, so slovarji kolokacij uporabni zlasti kot pomoč pri jezikovni produkciji, tudi na ravni usvajanja jezika. Kolokacijski slovar sodobne slovenščine, ki v drugi različici vsebuje 81.443 iztočnic in 4.491.958 kolokacij in je prvi takšen slovar pri nas, predstavlja prvi korak k zapolnjevanju manka na področju jezikovnih virov za slovenščino, namenjenih jezikovni produkciji.

Slovar nastaja z naprednimi računalniškimi metodami za prepoznavo kolokacij, ki smo jih za slovenščino že preizkusili, prav tako pa jih redno izboljšujemo in nadgrajujemo. Avtomatska priprava podatkov je tako s časovnega kot s finančnega vidika manj potratna kot ročno delo, obenem pa omogoča hitro posodabljanje in nadgrajevanje slovarja kot dinamičnega podatkovnega vira.

Kolokacijski slovar sodobne slovenščine sodi med odzivne slovarje (prvi pri nas je bil Slovar sopomenk sodobne slovenščine), ki sledijo konceptu, da se jezikovni skupnosti takoj po izdelavi slovarske baze omogoči dostop do večje količine relevantnih, a še neprečiščenih jezikovnih podatkov. Prednost odzivnih slovarjev je v tem, da se podatki v geslih lahko hitro posodobijo tako glede na napredek v njihovi izdelavi kot na spremembe v jezikovni realnosti.

Na podlagi raziskav med slovarskimi uporabniki smo za drugo različico slovarja spremenili način prikaza stanja gesel. Pet stopenj razvoja, ki so bile ponazorjene z različno obarvanostjo ikone piramide, smo nadomestili s tremi stopnjami, ki so uporabniku takoj razvidne prek naslovov razdelkov:

  • 1. stopnja: vsebuje samo razdelek “Avtomatsko pridobljene kolokacije”. Gre za gesla, za katera še nismo opravili pomenske analize in pregleda kolokacij.
  • 2. stopnja: vsebuje razdelka “Kolokacije” in “Avtomatsko pridobljene kolokacije”. Gre za gesla, ki vsebujejo pomensko členitev in za katera smo del kolokacij že ročno pregledali, vsebujejo pa tudi še nepregledane avtomatske kolokacije.
  • 3. stopnja: vsebuje samo razdelek “Kolokacije”. Gre za gesla, ki vsebujejo pomensko členitev in ročno pregledane kolokacije.

Časovni žig, skupaj z arhiviranjem vseh različic slovarske baze, zagotavlja sledljivost sprememb v slovarskih geslih.

Pomembna novost je nova, prilagojena metoda uporabniškega sodelovanja pri izboljšavi slovarja, ki smo jo vpeljali na podlagi izsledkov analiz in uporabniških raziskav. Uporabniki zdaj ocenjujejo avtomatsko izbrane dobre zglede, pri čemer v prvi meri ocenijo, ali zgled ustrezno ponazarja izbrano kolokacijo. V kolikor je geslo pomensko členjeno, pa uporabniki ocenjujejo tudi, ali je zgled uvrščen pod pravi pomen oz. pod kateri pomen bi bilo zgled in pripadajočo kolokacijo treba uvrstiti.

Čeprav avtomatsko pridobivanje in razvrščanje podatkov nikoli ni povsem natančno, so rezultati že pred jezikoslovnim posegom za uporabnika slovarja koristni. O tem pričajo prakse tujih slovarjev in orodij (npr. Merriam-Webster, digitalni slovar nemškega jezika DWDS), ki v svojih geslih ponujajo tudi avtomatsko pridobljene podatke. Primer uspešne izdelave avtomatsko generiranega jezikovnega vira pri nas je Slovar sopomenk sodobne slovenščine. Učinkovitost metode avtomatskega pridobivanja kolokacij je potrdila tudi jezikoslovna evalvacija podatkov prve različice, v kateri so bile avtomatsko pridobljene kolokacije v najpogostejših desetih skladenjskih strukturah vzorca 333 iztočnic ocenjene kot ustrezne ali neustrezne. Za drugo različico slovarja smo metodo avtomatskega pridobivanja kolokacij še izboljšali, kar je tudi omogočilo povečanje nabora različnih skladenjskih struktur v slovarskih geslih.

Kolokacijski slovar sodobne slovenščine je del prizadevanj, da bi se za slovenski jezik zagotovila jezikovna infrastruktura, primerljiva tisti, ki nastaja za večje jezike. Verjamemo, da mora priprava jezikovnih virov metodološko slediti duhu časa, da morajo biti podatki, ki so pripravljeni z javnim financiranjem, prosto na voljo za razvoj jezikovnih tehnologij in da je treba razvoj utemeljiti na realnih potrebah uporabnikov v sodobnem času, v digitalni dobi. Posebna pozornost pri pripravi slovarja je zato namenjena vzpostavljanju skupnosti, ki slovar ne le uporablja, ampak ga tudi razvija.

Publikacije

PORI, Eva, KOSEM, Iztok, ČIBEJ, Jaka, ARHAR HOLDT, Špela. Evalvacija uporabniškega vmesnika Kolokacijskega slovarja sodobne slovenščine. V: KOSEM, Iztok (ur.). Kolokacije v slovenščini. 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete, 2021. Str. 235-268, ilustr. Zbirka Sporazumevanje. ISBN 978-961-06-0537-9. ISSN 2738-4527. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/318/465/6973-1.

GANTAR, Polona, KREK, Simon, KOSEM, Iztok. Opredelitev kolokacij v digitalnih slovarskih virih za slovenščino. V: KOSEM, Iztok (ur.). Kolokacije v slovenščini. 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete, 2021. Str. 15-41, ilustr. Zbirka Sporazumevanje. ISBN 978-961-06-0537-9. ISSN 2738-4527. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/318/465/6969-1.

KREK, Simon, GANTAR, Polona, KOSEM, Iztok, DOBROVOLJC, Kaja. Opis modela za pridobivanje in strukturiranje kolokacijskih podatkov iz korpusa. V: ARHAR HOLDT, Špela (ur.). Nova slovnica sodobne standardne slovenščine : viri in metode. 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete, 2021. Str. 160-194, ilustr. Zbirka Sporazumevanje. ISBN 978-961-06-0547-8. ISSN 2738-4527. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/325/477/7313-1.

KOSEM, Iztok, LOGAR, Nataša, DOBROVOLJC, Kaja, LJUBEŠIĆ, Nikola. Razvrščanje in relevantnost kolokatorjev v slovenščini : novi pristopi. V: KOSEM, Iztok (ur.). Kolokacije v slovenščini. 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete, 2021. Str. 79-124, ilustr. Zbirka Sporazumevanje. ISBN 978-961-06-0537-9. ISSN 2738-4527. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/318/465/6971-1.

LJUBEŠIĆ, Nikola, LOGAR, Nataša, KOSEM, Iztok. Collocation ranking : frequency vs semantics. Slovenščina 2.0 : empirične, aplikativne in interdisciplinarne raziskave. 2021, letn. 9, št. 2, str. 41-70, ilustr. ISSN 2335-2736. https://revije.ff.uni-lj.si/slovenscina2/article/view/10365/9997, DOI: 10.4312/slo2.0.2021.2.41-70.

ARHAR HOLDT, Špela. Razvrstitev kolokacij v slovarskem vmesniku : uporabniške prioritete. V: KOSEM, Iztok (ur.). Kolokacije v slovenščini. 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete, 2021. Str. 125-157, ilustr. Zbirka Sporazumevanje. ISBN 978-961-06-0537-9. ISSN 2738-4527. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/318/465/6974-1.

PORI, Eva, ČIBEJ, Jaka, ARHAR HOLDT, Špela, KOSEM, Iztok. The attitude of dictionary users towards automatically extracted collocation data: a user study. V: KOSEM, Iztok (ur.), GANTAR, Polona (ur.). Kolokacije v leksikografiji : obstoječe rešitve in izzivi za prihodnost = Collocations in lexicography : existing solutions and future challenges. Ljubljana: Znanstvena založba Filozofske fakultete, 2020. Letn. 8, št. 2, str. 168-201, ilustr. Slovenščina 2.0, 2, 2020. ISBN 978-961-06-0360-3. ISSN 2335-2736. https://revije.ff.uni-lj.si/slovenscina2/article/view/9143/9075, DOI: 10.4312/slo2.0.2020.2.168-201.

KOSEM, Iztok, KREK, Simon, GANTAR, Polona. Defining collocation for Slovenian lexical resources. V: KOSEM, Iztok (ur.), GANTAR, Polona (ur.). Kolokacije v leksikografiji : obstoječe rešitve in izzivi za prihodnost = Collocations in lexicography : existing solutions and future challenges. Ljubljana: Znanstvena založba Filozofske fakultete, 2020. Letn. 8, št. 2, str. 1-27, ilustr. Slovenščina 2.0, 2, 2020. ISBN 978-961-06-0360-3. ISSN 2335-2736. https://revije.ff.uni-lj.si/slovenscina2/article/view/9338/9069, DOI: 10.4312/slo2.0.2020.2.1-27.

KOSEM, Iztok, KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, ČIBEJ, Jaka, LASKOWSKI, Cyprian. Kolokacijski slovar sodobne slovenščine. V: FIŠER, Darja (ur.), PANČUR, Andrej (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika / Proceedings of the conference on Language Technologies & Digital Humanities, 20.-21. september 2018, Ljubljana. Ljubljana: Znanstvena založba Filozofske fakultete v Ljubljani. 2018, str. 133.139, http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Kosem-et-al_Kolokacijski-slovar-sodobne-slovenscine.pdf.

KOSEM, Iztok, KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, ČIBEJ, Jaka, LASKOWSKI, Cyprian. Collocations dictionary of modern Slovene. V: ČIBEJ, Jaka (ur.), et al. Proceedings of the 18th EURALEX International Congress: lexicography in global contexts, 17-21 July 2018, Ljubljana. Ljubljana: Ljubljana University Press, Faculty of Arts. 2018, str. 989-997, ilustr. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/118/211/3000-1.

KOSEM, Iztok, KOPPEL, Kristina, ZINGANO KUHN, Tanara, MICHELFEIT, Jan, TIBERIUS, Carole. Identification and automatic extraction of good dictionary examples: the case(s) of GDEX. International journal of lexicography, https://academic.oup.com/ijl/advance-article/doi/10.1093/ijl/ecy014/5075863.

GANTAR, Polona, GORJANC, Vojko, KOSEM, Iztok, KREK, Simon. Going semi-automatic and crowdsourced: collocation dictionary of Slovene. V: KOSEM, Iztok (ur.). Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 37.

GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete. 2015. Deloma prevedeno v: GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Dictionary of modern Slovene: problems and solutions. Ljubljana: Ljubljana University Press, Faculty of Arts, 2017. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/book/15

GANTAR, Polona, KOSEM, Iztok, KREK, Simon. Discovering automated lexicography = the case of Slovene lexical database. International journal of lexicography, 2016, vol. 29, issue 2, str. 200-225. https://academic.oup.com/ijl/article/29/2/200/2413284/Discovering-Automated-Lexicography-The-Case-of-the?guestAccessKey=95f18766-f10f-4994-a6fa-448cf75ac55e

KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Avtomatizacija leksikografskih postopkov. V: ERJAVEC, Tomaž (ur.), ŽGANEC GROS, Jerneja (ur.). Jezikovne tehnologije, Slovenščina 2.0, letn. 1, št. 2. Ljubljana: Trojina, zavod za uporabno slovenistiko. 2013, str. 139-164. http://www.trojina.org/slovenscina2.0/arhiv/2013/2/Slo2.0_2013_2_07.pdf

ČIBEJ, Jaka, FIŠER, Darja, KOSEM, Iztok. The role of crowdsourcing in lexicography. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 70-83. https://elex.link/elex2015/proceedings/eLex_2015_05_Cibej+Fiser+Kosem.pdf

ARHAR HOLDT, Špela, ČIBEJ, Jaka, ZWITTER VITEZ, Ana. Value of language-related questions and comments in digital media for lexicographical user research. International journal of lexicography, 2017, vol. 30, issue 3, str. 285-308. http://ijl.oxfordjournals.org/content/early/2016/04/20/ijl.ecw017.full.pdf?keytype=ref&ijkey=SP5Yb4PHvfykRkk.

ARHAR HOLDT, Špela, KOSEM, Iztok, GANTAR, Polona. Dictionary user typology: the Slovenian case. V: MARGALITADZE, Tinatin (ur.), MELADZE, George (ur.). Lexicography and linguistic diversity: proceedings of the XVII EURALEX International Congress. Tbilisi: Ivane Javakhishvili Tbilisi State University. 2016, str. 179-187. http://euralex2016.tsu.ge/publication2016.pdf

KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Automation of lexicographic work: an opportunity for both lexicographers and crowd-sourcing. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: thinking outside the paper. Ljubljana: Trojina, Institute for Applied Slovene Studies; Tallinn: Eesti Keele Instituut. 2013, str. 32-48. http://eki.ee/elex2013/proceedings/eLex2013_03_Kosem+Gantar+Krek.pdf

KOSEM, Iztok, HUSAK, Milos, MCCARTHY, Diana. GDEX for Slovene. V: KOSEM, Iztok (ur.), KOSEM, Karmen (ur.). Electronic lexicography in the 21st century: new applications for new users. Ljubljana: Trojina, Institute for Applied Slovene Studies. 2011, str. 150-159. http://www.trojina.si/elex2011/elex2011_proceedings.pdf

LOGAR, Nataša, GRČAR, Miha, BRAKUS, Marko, ERJAVEC, Tomaž, ARHAR HOLDT, Špela, KREK, Simon. Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede, 2012.

KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, GORJANC, Vojko. Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. V: ERJAVEC, Tomaž (ur.), FIŠER, Darja (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika. Ljubljana: Znanstvena založba Filozofske fakultete. 2016, str. 200-202. http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Krek-et-al_Nadgradnja-korpusov-Gigafida-Kres-ccGigafida-ccKres.pdf

KREK, Simon, KOSEM, Iztok, GANTAR, Polona. Predlog za izdelavo Slovarja sodobnega slovenskega jezika. Izd. 1.1. Ljubljana: s. n., 2013. http://www.sssj.si/datoteke/Predlog_SSSJ_v1.1.pdf

KREK, Simon, LASKOWSKI, Cyprian, ROBNIK-ŠIKONJA, Marko. From translation equivalents to synonyms: creation of a Slovene thesaurus using word co-occurrence network analysis. V: KOSEM, Iztok (ur.) et al., Proceedings of eLex 2017: Lexicography from Scratch, 19-21 September 2017, Leiden, Netherlands. https://elex.link/elex2017/wp-content/uploads/2017/09/paper05.pdf

Kolofon

Kolokacije 2.0

Kolokacijski slovar sodobne slovenščine

Spletni slovar na viri.cjvt.si
Zbirka Viri CJVT
ISSN 2630-4015

Ljubljana, 2023

Delo je dostopno pod licenco Creative Commons:
Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna.

Glavni uredniki
Iztok Kosem
Špela Arhar Holdt
Simon Krek
Polona Gantar
Eva Pori
Jaka Čibej
Bojan Klemenc
Cyprian Laskowski
Kaja Dobrovoljc
Vojko Gorjanc
Nikola Ljubešić

Oblikovanje vmesnika
Gašper Uršič
Gregor Makovec
(Studio Kruh)

Izdelava spletnega vmesnika
Leon Noe Jovan

Izdajatelj
Center za jezikovne vire in tehnologije, Univerza v Ljubljani

Založnik
Znanstvena založba Filozofske fakultete Univerze v Ljubljani

Zanj
Mojca Schlamberger Brezar, dekanja Filozofske fakultete

Citiranje
Kolokacije 2.0: Kolokacijski slovar sodobne slovenščine, viri.cjvt.si/kolokacije, dostop 17. 04. 2024.

Različice

Kolokacijski slovar sodobne slovenščine 2.0

Datum izdaje posodobitve: 15. 11. 2022
Število iztočnic: 81.443
Število kolokacij: 4.491.958
Število zgledov: 14.595.325


Kolokacijski slovar sodobne slovenščine 1.0

Datum izdaje posodobitve: 16. 10. 2018
Število iztočnic: 35.989
Število kolokacij: 7.338.801
Število zgledov: 34.935.880


URL-naslov: http://hdl.handle.net/11356/1250