Korpus govorjene slovenščine
Korpus Gos 2.1 je referenčni korpus govorjene slovenščine, ki obsega več kot 300 ur posnetkov spontanega govora v najrazličnejših situacijah.
Trenutna različica korpusa je 2.1.
Datum zadnje posodobitve: 28. 2. 2023
Transkripcije korpusa so dostopne v repozitoriju CLARIN.SI.
To delo je dostopno pod licenco Creative Commons Priznanje avtorstva - Deljenje pod enakimi pogoji 4.0.
Gos je referenčni korpus govorjene slovenščine. Obsega transkripcije okrog 320 ur posnetkov (po)govora v najrazličnejših situacijah, ki smo jim izpostavljeni vsak dan: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd. Zapis govora na posnetkih je narejen v dveh različicah, standardizirani in pogovorni, ter obsega več kot dva milijona besed.
Korpus Gos 2.1 je najnovejša različica korpusa, ki je nastala v okviru projekta Razvoj slovenščine v digitalnem okolju z združitvijo korpusov Gos 1.1, Gos VideoLectures in dela govorne baze Artur. V primerjavi s prvotno različico korpus Gos 2.1 vsebuje več kot podvojeno količino posnetkov in transkripcij, zaradi poenotenja vseh treh virov pa so bila nekoliko spremenjena tudi načela zapisovanja govora. Pri zasnovi korpusa Gos 2.1 je bila posebna pozornost namenjena njegovi aktualnosti (posnetki zajemajo obdobje od leta 2007 do 2022) in uravnoteženosti glede na različne tipe govornih dogodkov.
Po korpusu lahko iščemo prek spletnega vmesnika na teh spletnih straneh, ki poleg različnih možnosti iskanja po obeh ravneh zapisa omogoča tudi poslušanje pripadajočih posnetkov in filtriranje zadetkov po bogatem naboru metapodatkov, kot so vrsta dogodka in komunikacijski kanal ter spol, starost, izobrazba in regionalna pripadnost govorca. Za jezikoslovno rabo je korpus prosto dostopen tudi v konkordančnikih NoSketchEngine in Kontext, ki jih vzdržuje raziskovalna infrastruktura CLARIN.SI.