Kolokacijski slovar
sodobne slovenščine

Bibliografski podatki o Kolokacijskem slovarju sodobne slovenščine so na spodnji povezavi.

Trenutna različica

1.0

Datum izdaje posodobitve:
16. 10. 2018

Dostopnost

Baza slovarja je dostopna
v repozitoriju CLARIN.SI.

To delo je dostopno pod licenco
Creative Commons Priznanje avtorstva-
Deljenje pod enakimi pogoji 4.0.

O slovarju

Kolokacije so tipične sopojavitve besed in so pomemben del jezika; ker prinašajo podatek o tipičnosti, so slovarji kolokacij uporabni zlasti kot pomoč pri jezikovni produkciji, tudi na ravni usvajanja jezika. Kolokacijski slovar sodobne slovenščine, ki vsebuje 35.989 iztočnic in 7.338.801 kolokacij in je prvi takšen slovar pri nas, predstavlja prvi korak k zapolnjevanju manka na področju jezikovnih virov za slovenščino, namenjenih jezikovni produkciji.

Glavni prepoznavni elementi slovarja so stopenjski prikaz gesel, predstavitev kolokacijskih podatkov v širšem besedilnem kontekstu ter različne možnosti filtriranja in razvrščanja bogatih kolokacijskih podatkov. Slovar od podobnih slovarjev za druge jezike loči tudi način podajanja gesel, saj se vmesnik v jedrnem delu posveča kolokacijam, medtem ko so ostali tipi informacij (pomeni, skladenjske strukture ipd.) podani kot filtri.

Slovar nastaja z naprednimi računalniškimi metodami za prepoznavo kolokacij, ki smo jih za slovenščino že preizkusili, prav tako pa jih redno izboljšujemo in nadgrajujemo. Avtomatska priprava podatkov je tako s časovnega kot s finančnega vidika manj potratna kot ročno delo, obenem pa omogoča hitro posodabljanje in nadgrajevanje slovarja kot dinamičnega podatkovnega vira.

Kolokacijski slovar sodobne slovenščine sodi med odzivne slovarje (prvi pri nas je bil Slovar sopomenk sodobne slovenščine), ki sledijo konceptu, da se jezikovni skupnosti takoj po izdelavi slovarske baze omogoči dostop do večje količine relevantnih, a še neprečiščenih jezikovnih podatkov. Prednost odzivnih slovarjev je v tem, da se podatki v geslih lahko hitro posodobijo tako glede na napredek v njihovi izdelavi kot na spremembe v jezikovni realnosti.

Za Kolokacijski slovar sodobne slovenščine je značilno, da so stopnje njegovega razvoja vnaprej določene in jasno vizualizirane znotraj vmesnika. Informacijo o stopnji gesla vsebuje ikona piramide (glej sliko na desni). Stopnje razvoja so naslednje:

  • 1. stopnja: podatki so avtomatsko izluščeni, a še neprečiščeni.
  • 2. stopnja: odstranjene so skladenjske strukture z veliko šuma ter kolokatorji, ki se v večini primerov pojavljajo v neustreznih kolokacijah.
  • 3. stopnja: odstranjene so kolokacije, ki ob ročnem pregledu niso bile potrjene kot ustrezne.
  • 4. stopnja: kolokacije in pripadajoči zgledi so razporejeni po pomenih.
  • 5. stopnja: geslo je dokončno pregledano.

Piramida in časovni žig, skupaj z arhiviranjem vseh različic slovarske baze, zagotavljajo sledljivost sprememb v slovarskih geslih.

Čeprav avtomatsko pridobivanje in razvrščanje podatkov nikoli ni povsem natančno, so rezultati že pred jezikoslovnim posegom za uporabnika slovarja koristni. O tem pričajo prakse tujih slovarjev in orodij (npr. Merriam-Webster, digitalni slovar nemškega jezika DWDS), ki v svojih geslih ponujajo tudi avtomatsko pridobljene podatke. Primer uspešne izdelave avtomatsko generiranega jezikovnega vira pri nas je Slovar sopomenk sodobne slovenščine. Učinkovitost metode avtomatskega pridobivanja kolokacij je potrdila tudi jezikoslovna evalvacija podatkov, v kateri so bile avtomatsko pridobljene kolokacije v najpogostejših desetih skladenjskih strukturah vzorca 333 iztočnic ocenjene kot ustrezne ali neustrezne (glej tabelo na desni).

Ključno pri razumevanju kolokacij in njihovi rabi je upoštevanje besedilnega konteksta, zato so vse kolokacije v slovarju ponazorjene z zgledi rabe iz realnih besedil. Zgledi so v slovar uvoženi s strojnimi metodami, ki omogočajo avtomatsko prepoznavo dobrih (slovarskih) zgledov. Poleg tega je pri vseh kolokacijah na voljo tudi povezava v korpus Gigafida, ki omogoča nadaljnje raziskovanje sodobne jezikovne rabe.

Kolokacijski slovar sodobne slovenščine je del prizadevanj, da bi se za slovenski jezik zagotovila jezikovna infrastruktura, primerljiva tisti, ki nastaja za večje jezike. Verjamemo, da mora priprava jezikovnih virov metodološko slediti duhu časa, da morajo biti podatki, ki so pripravljeni z javnim financiranjem, prosto na voljo za razvoj jezikovnih tehnologij in da je treba razvoj utemeljiti na realnih potrebah uporabnikov v sodobnem času, v digitalni dobi. Posebna pozornost pri pripravi slovarja je zato namenjena vzpostavljanju skupnosti, ki slovar ne le uporablja, ampak ga tudi razvija.

skladenjska struktura % ustreznih
1. pridevnik + samostalnik 88,9
2. samostalnik + samostalnik v rodilniku 84,9
3. glagol + samostalnik v tožilniku 87,0
4. prislov + glagol 87,7
5. prislov + pridevnik 63,6
6. samostalnik + v + samostalnik v mestniku 64,2
7. glagol + prislov 59,6
8. glagol + v + samostalnik v mestniku 86,0
9. samostalnik + s/z + samostalnik v orodniku 74,7
10. glagol + s/z + samostalnik v orodniku 92,7

Publikacije

KOSEM, Iztok, KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, ČIBEJ, Jaka, LASKOWSKI, Cyprian. Kolokacijski slovar sodobne slovenščine. V: FIŠER, Darja (ur.), PANČUR, Andrej (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika / Proceedings of the conference on Language Technologies & Digital Humanities, 20.-21. september 2018, Ljubljana. Ljubljana: Znanstvena založba Filozofske fakultete v Ljubljani. 2018, str. 133.139, http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Kosem-et-al_Kolokacijski-slovar-sodobne-slovenscine.pdf.

KOSEM, Iztok, KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, ČIBEJ, Jaka, LASKOWSKI, Cyprian. Collocations dictionary of modern Slovene. V: ČIBEJ, Jaka (ur.), et al. Proceedings of the 18th EURALEX International Congress: lexicography in global contexts, 17-21 July 2018, Ljubljana. Ljubljana: Ljubljana University Press, Faculty of Arts. 2018, str. 989-997, ilustr. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/view/118/211/3000-1.

KOSEM, Iztok, KOPPEL, Kristina, ZINGANO KUHN, Tanara, MICHELFEIT, Jan, TIBERIUS, Carole. Identification and automatic extraction of good dictionary examples: the case(s) of GDEX. International journal of lexicography, https://academic.oup.com/ijl/advance-article/doi/10.1093/ijl/ecy014/5075863.

GANTAR, Polona, GORJANC, Vojko, KOSEM, Iztok, KREK, Simon. Going semi-automatic and crowdsourced: collocation dictionary of Slovene. V: KOSEM, Iztok (ur.). Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 37.

GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete. 2015. Deloma prevedeno v: GORJANC, Vojko, GANTAR, Polona, KOSEM, Iztok, KREK, Simon (ur.) Dictionary of modern Slovene: problems and solutions. Ljubljana: Ljubljana University Press, Faculty of Arts, 2017. https://e-knjige.ff.uni-lj.si/znanstvena-zalozba/catalog/book/15

GANTAR, Polona, KOSEM, Iztok, KREK, Simon. Discovering automated lexicography = the case of Slovene lexical database. International journal of lexicography, 2016, vol. 29, issue 2, str. 200-225. https://academic.oup.com/ijl/article/29/2/200/2413284/Discovering-Automated-Lexicography-The-Case-of-the?guestAccessKey=95f18766-f10f-4994-a6fa-448cf75ac55e

KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Avtomatizacija leksikografskih postopkov. V: ERJAVEC, Tomaž (ur.), ŽGANEC GROS, Jerneja (ur.). Jezikovne tehnologije, Slovenščina 2.0, letn. 1, št. 2. Ljubljana: Trojina, zavod za uporabno slovenistiko. 2013, str. 139-164. http://www.trojina.org/slovenscina2.0/arhiv/2013/2/Slo2.0_2013_2_07.pdf

ČIBEJ, Jaka, FIŠER, Darja, KOSEM, Iztok. The role of crowdsourcing in lexicography. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: linking lexical data in the digital age. Ljubljana: Trojina, Institute for Applied Slovene Studies; Brighton: Lexical Computing. 2015, str. 70-83. https://elex.link/elex2015/proceedings/eLex_2015_05_Cibej+Fiser+Kosem.pdf

ARHAR HOLDT, Špela, ČIBEJ, Jaka, ZWITTER VITEZ, Ana. Value of language-related questions and comments in digital media for lexicographical user research. International journal of lexicography, 2017, vol. 30, issue 3, str. 285-308. http://ijl.oxfordjournals.org/content/early/2016/04/20/ijl.ecw017.full.pdf?keytype=ref&ijkey=SP5Yb4PHvfykRkk.

ARHAR HOLDT, Špela, KOSEM, Iztok, GANTAR, Polona. Dictionary user typology: the Slovenian case. V: MARGALITADZE, Tinatin (ur.), MELADZE, George (ur.). Lexicography and linguistic diversity: proceedings of the XVII EURALEX International Congress. Tbilisi: Ivane Javakhishvili Tbilisi State University. 2016, str. 179-187. http://euralex2016.tsu.ge/publication2016.pdf

KOSEM, Iztok, GANTAR, Polona, KREK, Simon. Automation of lexicographic work: an opportunity for both lexicographers and crowd-sourcing. V: KOSEM, Iztok (ur.), et al. Electronic lexicography in the 21st century: thinking outside the paper. Ljubljana: Trojina, Institute for Applied Slovene Studies; Tallinn: Eesti Keele Instituut. 2013, str. 32-48. http://eki.ee/elex2013/proceedings/eLex2013_03_Kosem+Gantar+Krek.pdf

KOSEM, Iztok, HUSAK, Milos, MCCARTHY, Diana. GDEX for Slovene. V: KOSEM, Iztok (ur.), KOSEM, Karmen (ur.). Electronic lexicography in the 21st century: new applications for new users. Ljubljana: Trojina, Institute for Applied Slovene Studies. 2011, str. 150-159. http://www.trojina.si/elex2011/elex2011_proceedings.pdf

LOGAR, Nataša, GRČAR, Miha, BRAKUS, Marko, ERJAVEC, Tomaž, ARHAR HOLDT, Špela, KREK, Simon. Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede, 2012.

KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, GORJANC, Vojko. Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. V: ERJAVEC, Tomaž (ur.), FIŠER, Darja (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika. Ljubljana: Znanstvena založba Filozofske fakultete. 2016, str. 200-202. http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Krek-et-al_Nadgradnja-korpusov-Gigafida-Kres-ccGigafida-ccKres.pdf

KREK, Simon, KOSEM, Iztok, GANTAR, Polona. Predlog za izdelavo Slovarja sodobnega slovenskega jezika. Izd. 1.1. Ljubljana: s. n., 2013. http://www.sssj.si/datoteke/Predlog_SSSJ_v1.1.pdf

KREK, Simon, LASKOWSKI, Cyprian, ROBNIK-ŠIKONJA, Marko. From translation equivalents to synonyms: creation of a Slovene thesaurus using word co-occurrence network analysis. V: KOSEM, Iztok (ur.) et al., Proceedings of eLex 2017: Lexicography from Scratch, 19-21 September 2017, Leiden, Netherlands. https://elex.link/elex2017/wp-content/uploads/2017/09/paper05.pdf

Podatke za Kolokacijski slovar sodobne slovenščine je pripravila interdisciplinarna ekipa raziskovalcev Centra za jezikovne vire in tehnologije Univerze v Ljubljani.

Razvojni del sta podprla infrastrukturna programa CJVT UL in Center za uporabno jezikoslovje Trojina, raziskovalni del pa temeljni raziskovalni projekt ARRS Kolokacije kot temelj jezikovnega opisa: semantični in časovni vidiki in programska skupina ARRS P6-0215 Slovenski jezik - bazične, kontrastivne in aplikativne raziskave.

Slovarski vmesnik je razvil Studio Kruh
v sodelovanju z Leonom Noetom Jovanom.

arrow_upward