EKRK teenuste tutvustus ERÜ kevadkonverentsil 2019

Eesti Rakenduslingvistika Ühingu kevadkonverentsil 25. aprillil 2019 Tallinnas tutvustas EKRK kuulajatele enda ja CLARINi veebiteenuseid. 

EKRK teenustest tuntakse humanitaaride hulgas enim KORPi - korpuste päringusüsteemi, mis loodud Rootsi Keelepangas (Språkbanken) ja mis võimaldab keelekasutust uurida eri tasemel märgendatud korpustest ning saada vastuseks lisaks tavapärasele konkordantsile ka statistilised näitajad ja kollokatsioonid. Päring on väga paindlik ja hõlpsalt muudetav. Eesti KORPis on praegu erinevaid korpusi kokku enam kui 850 miljonit sõnet (tekstisõna). Hoopis rohkem sõnesid ja võimalusi on aga Kielipankki KORPis, kus näiteks piiratud kasutustingimustega andmestikule pääsevad ligi ka Eesti teadlased oma teadusasutuse konto kaudu.

Uudis EKRK keeleuurimise vahendites on sisuotsingu süsteem RABA, kus lihtsast sõnapäringust alustades saab korraga infot nii EKRK KORPist, TTÜ kõnetehnoloogia ja TÜ foneetikalabori helikorpustest kui ka EKI Sõnaveebi sõnastikest.

Veelgi mahukamad andmestikud on kasutada RABA eeskujuks oleval CLARINi ühendatud sisuotsingul (Federated Content Search), mis otsib üle kõigi CLARINi registris kirjeldatud ressursside. Eestikeskse RABA ja Euroopa ühendatud sisuotsinguga saame kiiresti leida neid andmestikke, mis meid huvitavaid nähtusi sisaldavad. Nende põhjalikku kirjeldust, juurdepääsutingimusi ja sarnaste andmestike olemasolu on mugav leida Virtuaalsest Keeleobservatooriumist (Virtual Language Observatory, VLO), mis kogub ressursside kirjeldusi ja nende uuendusi automaatselt kõigist CLARINi keskustest ja muudestki digiarhiividest.

Kui VLO-st ei leia vajalikku eestikeelset andmestikku üles, pole seda ehk kirjeldatud EKRK keeleressursside registris Meta-share. Üksikasjalikule kirjeldusele ja nähtavusele lisaks on Metashare’il veel üks oluline eelis: kõik registreeritud keeleressursid saavad püsiidentifikaatori DOI, mille abil on lihtne vajalikku ressurssi taasleida ja viidata oma publikatsioonides.