Keeleressursside andmehaldus

Teenus

Digitaalsete keeleandmestike ja -kogude (laiemalt, keelt sisaldavate teadusandmestike) ja keele töötlemise vahendite kui teadusandmete haldamise alane konsultatsioon ja juhised

Ressursipakkujale

Nõustame teadusprojekte planeerivaid keeletehnoloogia, keeleteaduse ja digihumanitaaria teadlasi andmehaldusplaani osas: kuidas on mõttekas kogutud andmeid hoida, varundada, kus ja kuidas neid kirjeldada, et ennast ja oma tööd nähtavaks ja kättesaadavaks teha. Mida, miks, mis kujul oleks kõige mõistlikum registreerida ja talletada, mida tuleks tähele panna juba andmekogumist alustades (kasutustingimuste piirangud, kasutuslitsentsi valik, keelejuhtide nõusolekud, teavitamine, autoriõigus ja isikuandmete kaitse). Samuti annab CoreTrustSeal sertifikaat Eesti Keeleressursside Keskusele õiguse ja võimaluse pakkuda teadlastele oma teadusandmestike registreerimiseks ja talletamiseks andmehaldusteenust, mis vastab Horisont2020 nõudmistele. 

Otsime ühendust keeleressursside valdajatega ning tutvustame neile pakutavaid võimalusi, kuid samuti on võimalik igal huvilisel ise oma ressursside kaasamise asjus keskusega kontakteeruda.

  • Ressursside kaardistamine, ressursiomanikega kontakteerumine.
  • Kasutuslepingu ja kasutajalitsentside väljatöötamine, eksisteerivate litsentsitingimuste tutvustamine.
  • Levinud standardite tutvustus, standarditele vastavuse kontroll.
  • Ressursi kvaliteedi hinnang. Kvaliteedihinnangu võib Keskus kasutaja soovi korral anda ka siis, kui ressurssi Keskuses registreerida ega arhiveerida ei soovita, vaid on vaja üksnes sõltumatut hinnangut. Lisaks hinnangule annab Keskus ka soovitusi kvaliteedi parandamiseks ning suunab seotud juhendmaterjalide ning arendusvahendite juurde.
  • Soovi korral ressursi registreerimine Meta-Shares, juurdepääsu võimaldamine allalaetaval või veebi kaudu kasutataval kujul. Sellega kaasneb ressursi märgendamine metaandmetega, mis parandab ressurssidest ülevaate saamist.
  • Nõustame andmete kogujaid ka selles osas, milliseid olemasolevaid andmeid nad taaskasutada saaksid, kuidas nad oma uurimiseesmärkidele vastava info või materjali leiaksid olemasolevatest ressurssidest: võime osutada ressurssidele, aga ka repositooriumitele (nt Eesti repositoorium https://metashare.ut.ee/ ja CLARINi repositoorium https://vlo.clarin.eu/, mis ka Eesti repositooriumist automaatkorje teeb). 
  • Andmete masinloetavus ja muutmise ühtsus. Näiteks võib korpuste loojatele ja märgendajatele tunduda, et nad kasutavad ühtset süsteemi; tegelikkuses võib kasutaja märgend eri tekstides olla nii <user>, <Users> kui [Users]. Koolitame humanitaarteadlasi dokumenteerima andmete märgendamist ja kontrollima märgendamise vastavust dokumenteeritule.
  • Nõustame korpuste märgendajaid märgendamise ühtsuse ja märgendite valiku osas: nt mitmekeelse suhtluse korpuse puhul on näiteks teksti(osa) keel oluline märgend masinloetavuse ja otsimise mõttes, humanitaarteadlasele aga, kes andmetega lähilugemise viisil kõige rohkem tegemist teeb, võib tunduda, et piisab võõrkeelele ülemineku osutamisest ja märgendatakse vaid keelevahetust. 

Litsentsid

Pakume ressurssidele litsentseeritud kasutust. Kõiki registreeritud ressursse saab kasutada kasutustingimuste ja litsentside alusel. Kasutuslitsentse on peamiselt 3 tüüpi:

  • avalik kasutus
  • teaduskasutus
  • piiratud kasutus (s.h kommertskasutus)

Kasutuskorra (litsentsitüübi) valik iga konkreetse ressursi jaoks sõltub ressursist (milline kasutus on lubatud sõltuvalt omanikuõigustest), kasutaja iseloomust (teaduskasutaja partnerite juures, teaduskasutaja partneritest väljaspool, avalikkus, ärikasutaja) ning kasutamise eesmärkidest (teaduskasutus, avalik kasutus, kasutus hariduslikel eesmärkidel, ärikasutus).

Teeme ressursipakkujatele kättesaadavaks litsentsikalkulaatori (https://www.clarin.eu/content/clarin-license-category-calculator), seletame selle kasutamist, nõustame ressursipakkuja isiklike plaanide, laiema kasutajateringi huvi ja andmekaitse tasakaalustamise osas. Julgustame mõtlema läbi materjali kasutuspiirangud selliselt, et materjal oleks suuremale kasutajate ringile kasutatav, ilma et andmekasutuse eetika kannataks. 

Kasu keeleressursi andmehaldusest

  • Ressursi nähtavus paraneb, nii Eestisiseselt kui rahvusvaheliste võrgustike kaudu. Registreeritud keeleressursid saavad teadusandmete DOI.
  • Huviline (teine teadlane) saab hästi hallatud keeleressursse leida ja kasutada tänu metaandmetele, ühtses raamistikus kasutuslitsentsidele ja meta-andmete edastamisele teistesse kataloogidesse (CLARIN VLO, DataCite, Meta-Share keskregister) .
  • Säilitatakse ressursi varasemad versioonid - võimalus viidata tagasi varasematele tulemustele, võrrelda erinevaid versioone.

Ressursikasutajale

Kuidas leida olemasolevate keeleressursside seast eesmärgile sobivaid andmestikke ja töövahendeid (s.h CLARIN VLO ja Language Resource Switchboard), kuidas neid kasutada ja kuidas neile viidata.

Koolitame teaduskasutajaid (s.h. noorteadlaste ja õpilaste juhendajaid ja noorteadlasi endid), kust on võimalik leida neid huvitavad andmed - tutvustame Eesti keeleressursside repositooriumit  https://metashare.ut.ee/ ja CLARINi repositooriumit https://vlo.clarin.eu/, mis s.h Eesti repositooriumist automaatkorjet teeb; õpetame repositooriumite kasutamist ja nendesisest otsingut (filtriotsing, sarnased ressursid, ressursi modaalsused, kollektsioonid).