O viru Sledilnik 1.0
Jezikovni sledilnik prikazuje informacije o časovnih trendih rabe besed in besednih nizov. Sledilnik črpa podatke iz referenčnega korpusa sodobne standardne slovenščine Gigafida 2.0 (Krek idr. 2020) za besedila do leta 2018 in servisa spletnih novic IJS NewsFeed (besedila od leta 2019 naprej), ki črpa besedila iz več kot 100 različnih slovenskih spletnih virov. Na podlagi teh dveh virov se izdela fokusni korpus z besedili, ki so nastala v fokusnem obdobju (npr. letu 2020), in večji korpus z besedili, nastalimi v daljšem preteklem obdobju (npr. letih 1991-2019). Za vsakega od korpusov s programom LIST 1.2 (Krsnik idr. 2019) se izdelajo seznami besed in besednih nizov.
Pri identifikaciji za določeno obdobje najbolj ključnih besed se uporablja statistična metoda Simple Maths (Kilgarriff 2009), s katero primerjamo relativne frekvence besed in nizov v fokusnem korpusu z relativnimi frekvencami besed in nizov v večjem korpusu. Besede z najvišjo vrednostjo Simple Maths so tako tiste, pri katerih je raba v izbranem obdobju glede na preteklo rabo statistično najbolj narasla.
Vsaka od besed, predstavljenih v Jezikovnem sledilniku, je opremljena z grafičnim prikazom rabe v izbranem časovnem obdobju, omogočeno pa je tudi primerjanje časovnih trendov več besed. Za vsako od prvih 100 ključnih besed so ponujeni tudi najpogostejši nizi, v katerih se beseda pojavlja.
Reference
KILGARRIFF, Adam. Simple maths for keywords. V: Mahlberg, M., González-Díaz, V. & Smith, C. (ur.), Proceedings of Corpus Linguistics Conference CL2009, University of Liverpool, UK, July 2009. https://www.sketchengine.eu/wp-content/uploads/2015/04/2009-Simple-maths-for-keywords.pdf
KREK, Simon, ARHAR HOLDT, Špela, ERJAVEC, Tomaž, ČIBEJ, Jaka, REPAR, Andraž, GANTAR, Polona, LJUBEŠIĆ, Nikola, KOSEM, Iztok, DOBROVOLJC, Kaja. Gigafida 2.0: The Reference Corpus of Written Standard Slovene. V: Proceedings of the 12th Language Resources and Evaluation Conference" 2020. European Language Resources Association", str. 3340--3345". https://www.aclweb.org/anthology/2020.lrec-1.409
KRSNIK, Luka, ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, KLJUČEVŠEK, Aleksander, KREK, Simon, ROBNIK ŠIKONJA, Marko. Corpus extraction tool LIST 1.0, (CLARIN.SI data & tools). Ljubljana: Centre for Language Resources and Technologies: Faculty of Computer and Information Science; Jožef Stefan Institute, 2019. https://www.clarin.si/repository/xmlui/handle/11356/1227.
TRAMPUŠ, Mitja, NOVAK, Blaž. The Internals Of An Aggregated Web News Feed. Proceedings of 15th Multiconference on Information Society 2012 (IS-2012). http://ailab.ijs.si/dunja/SiKDD2012/Papers/Trampus_Newsfeed.pdf