Gigafida, korpus pisne standardne slovenščine

Bibliografski podatki korpusa pisne standardne slovenščine Gigafida so na spodnji povezavi.

Trenutna različica

2.0

Datum izdaje posodobitve:
13. 6. 2019

Dostopnost

Delo je dostopno pod pogoji, določenimi s pogodbo med Univerzo v Ljubljani in besedilodajalci.

O korpusu

Gigafida 2.0 je referenčni korpus pisne slovenščine. Zajema dnevne časopise, revije, izbrani nabor spletnih besedil (ki tudi v določeni meri pokriva novice) in knjižne publikacije različnih vrst (leposlovje, učbeniki, stvarna literatura). Besedila so izbrana in strojno obdelana z namenom, da bi korpus kot vzorec sodobne standardne slovenščine lahko služil za jezikoslovne in druge humanistične raziskave, izdelavo sodobnih slovarjev, slovnic, učnih gradiv in razvoj jezikovnih tehnologij za slovenščino.

Gigafida 2.0 je nadgradnja korpusa Gigafida (Logar et al. 2012), ki je (bil) širši javnosti od leta 2012 dostopen na spletnem naslovu www.gigafida.net. V primerjavi s predhodno različico korpusa je Gigafida 2.0 korpus standardne slovenščine, saj je iz njega odstranjena večina besedil, ki so vsebovala nestandardne jezikovne značilnosti (npr. uporabniški komentarji z novičarskih forumov in podobno). Med izboljšavami velja omeniti še odstranitev podvojenih besedil oz. besedilnih fragmentov, novo strojno jezikoslovno označevanje in manjše spremembe pri zasnovi uporabniškega vmesnika. Več o naštetih spremembah je mogoče prebrati v korpusnih specifikacijah.

V nadgradnji smo v korpus dodali dve skupini besedil. Vsebinsko posodobitev prinašajo besedila izbranih spletnih besedilodajalcev z večjo produkcijo (npr. novičarski portali, dnevni časopisi ipd.). Na drugi strani smo dodali besedila, ki so bila v predhodni različici korpusa slabše zastopana, npr. šolska gradiva in leposlovna besedila. Na tej povezavi so na voljo natančne informacije o besedilni sestavi korpusa.

Kot kaže Slika 1, sestavljajo korpus Gigafida 2.0 predvsem časopisi, spletna besedila in revije. Število besed glede na leto izida (Slika 2) kaže, da besedila, objavljena po izidu prejšnje različice (2012-2018), predstavljajo približno 27 % novega korpusa. Opazna je razlika v količini gradiva iz let 2010 in 2011, saj so bila številna spletna besedila iz teh let odstranjena zaradi vsebnosti nestandardnega jezika, na drugi strani pa je ta kategorija dopolnjena z besedili iz servisa IJS Newsfeed.

Gigafida 2.0 na portalu Viri CJVT je namenjena širši rabi. Med ciljnimi skupinami so denimo lektorji, prevajalci, učitelji slovenščine v osnovnih in srednjih šolah, njihovi učenci, tisti, ki se slovenščine učijo kot drugega ali tujega jezika, in podobni uporabniki. Za jezikoslovno rabo je korpus prosto dostopen tudi v konkordančnikih NoSketch Engine, Kontext in v orodju SketchEngine. V teh programih je za raziskave na voljo tudi različica korpusa, ki vsebuje besedila brez odstranjenih podvojenih fragmentov, t. i. Gigafida 2.0 Proto.

Publikacije

KREK, Simon, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, ČIBEJ, Jaka, REPAR, Andraž, GANTAR, Polona, LJUBEŠIĆ, Nikola, KOSEM, Iztok, DOBROVOLJC, Kaja. Gigafida 2.0: the reference corpus of written standard Slovene. V: CALZOLARI, Nicoletta (ur.). LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11-16, 2020, Marseille, France. Paris: ELRA - European Language Resources Association. 2020, str. 3340-3345. http://www.lrec-conf.org/proceedings/lrec2020/LREC-2020.pdf

LOGAR, Nataša, GRČAR, Miha, BRAKUS, Marko, ERJAVEC, Tomaž, ARHAR HOLDT, Špela, KREK, Simon. Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKres: gradnja, vsebina, uporaba, 1. e-izdaja. Ljubljana: Znanstvena založba Filozofske fakultete, 2020. 10.4312/9789610603542

KREK, Simon, GANTAR, Polona, ARHAR HOLDT, Špela, GORJANC, Vojko. Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. V: ERJAVEC, Tomaž (ur.), FIŠER, Darja (ur.). Zbornik konference Jezikovne tehnologije in digitalna humanistika, 29. september do 1. oktober 2016, Ljubljana, Slovenija. Ljubljana: Znanstvena založba Filozofske fakultete. 2016, str. 200–203. http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Krek-et-al_Nadgradnja-korpusov-Gigafida-Kres-ccGigafida-ccKres.pdf

LOGAR BERGINC, Nataša, GRČAR, Miha, BRAKUS, Marko, ERJAVEC, Tomaž, ARHAR HOLDT, Špela in KREK, Simon. Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko; Fakulteta za družbene vede, 2012.

LOGAR, Nataša. Reference corpora revisited : expansion of the Gigafida corpus. V: GORJANC, Vojko (ur.), et al. Dictionary of modern Slovene : problems and solutions, (Book series Prevodoslovje in uporabno jezikoslovje). 1st ed., e-ed. Ljubljana: Ljubljana University Press, Faculty of Arts. 2017, str. 96–119. http://www.ff.uni-lj.si/sites/default/files/Dokumenti/Knjige/e-books/dictionary_of_modern_slo.pdf

ERJAVEC, Tomaž, FIŠER, Darja, LJUBEŠIĆ, Nikola, LOGAR, Nataša, MIKOLIČ, Vesna. The expansion of the Gigafida corpus : internet content. V: GORJANC, Vojko (ur.), et al. Dictionary of modern Slovene : problems and solutions (Book series Prevodoslovje in uporabno jezikoslovje). 1st ed., e-ed. Ljubljana: Ljubljana University Press, Faculty of Arts. 2017, str. 120–138. http://www.ff.uni-lj.si/sites/default/files/Dokumenti/Knjige/e-books/dictionary_of_modern_slo.pdf

ERJAVEC, Tomaž, FIŠER, Darja, LJUBEŠIĆ, Nikola, LOGAR, Nataša, MIKOLIČ, Vesna. Nadgradnja Gigafide : spletna besedila. V: GORJANC, Vojko (ur.), et al. Slovar sodobne slovenščine : problemi in rešitve (Zbirka Prevodoslovje in uporabno jezikoslovje). 1. izd. Ljubljana: Znanstvena založba Filozofske fakultete. 2015, str. 242–260. https://dlib.si/stream/URN:NBN:SI:DOC-21CL5BT0/1ad00c6c-b02a-4f47-9d94-a0a30b7d318f/PDF

ERJAVEC, Tomaž in LOGAR BERGINC, Nataša. Referenčni korpusi slovenskega jezika (cc)Gigafida in (cc)KRES. V: ERJAVEC, Tomaž (ur.), ŽGANEC GROS, Jerneja (ur.). Zbornik Osme konference Jezikovne tehnologije, 8. oktober do 9. oktober 2012, Ljubljana, Slovenija. Ljubljana: Institut Jožef Stefan, 2012. http://nl.ijs.si/isjt12/proceedings/isjt2012_11.pdf

LOGAR, Nataša, LJUBEŠIĆ, Nikola, ERJAVEC, Tomaž. Kres in Gigafida kot korpusna osnova za slovar : razlike in podobnosti. V: SMOLEJ, Mojca (ur.). Slovnica in slovar - aktualni jezikovni opis (Obdobja 34). 1. natis. Ljubljana: Znanstvena založba Filozofske fakultete. 2015, str. 479–486. https://centerslo.si/wp-content/uploads/2015/11/Obdobja34-2del_Tisk.pdf

LOGAR, Nataša, DOBROVOLJC, Kaja, ARHAR HOLDT, Špela. Gigafida : interpretacija korpusnih podatkov. V: SMOLEJ, Mojca (ur.). Slovnica in slovar - aktualni jezikovni opis (Obdobja 34). 1. natis. Ljubljana: Znanstvena založba Filozofske fakultete. 2015, str. 467–477. https://centerslo.si/wp-content/uploads/2015/11/Obdobja34-2del_Tisk.pdf

ARHAR HOLDT, Špela, DOBROVOLJC, Kaja, LOGAR, Nataša. Simplicity matters : user evaluation of the Slovene reference corpus. Language resources and evaluation. 2019, vol. 53, no. 1, str. 173–190. https://link.springer.com/article/10.1007/s10579-018-9429-8

ARHAR HOLDT, Špela, KOSEM, Iztok in LOGAR BERGINC, Nataša. Izdelava korpusa Gigafida in njegovega spletnega vmesnika. V: T. Erjavec, J. Žganec Gros (ur.): Zbornik Osme konference Jezikovne tehnologije, 8. oktober do 9. oktober 2012, Ljubljana, Slovenija. Ljubljana: Institut Jožef Stefan, 2012. http://nl.ijs.si/isjt12/proceedings/isjt2012_03.pdf

LOGAR BERGINC, Nataša in KOSEM, Iztok. Gigafida – the new corpus of modern Slovene: what is really in there? Slavicorp conference. Dubrovnik, 2011. http://www.wikicfp.com/cfp/servlet/event.showcfp?eventid=15146©ownerid=16995

LOGAR BERGINC, Nataša in KREK, Simon. New Slovene corpora within the “Communication in Slovene” project. Slavicorp conference. Warsaw, 2010. https://www.ceeol.com/search/article-detail?id=100316

LOGAR BERGINC, Nataša in ŠUSTER, Simon. Gradnja novega korpusa slovenščine. Jezik in slovstvo, letn. 54, št. 3–4. 2009, str. 57–68. https://www.jezikinslovstvo.com/pdf/2009-03-04-Razprave-Natasa-Logar-Berginc-in-Simon-Suster.pdf

Korpus Gigafida 2.0 je pripravila interdisciplinarna ekipa raziskovalcev Centra za jezikovne vire in tehnologije Univerze v Ljubljani.

Nadgradnjo korpusa Gigafida sta omogočila Ministrstvo za kulturo Republike Slovenije (projekt Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres) in CLARIN.SI.

Slovarski vmesnik je razvil Rok Rejc v sodelovanju s Studiem Kruh.