Lemmade ja sõnavormide mitmikute (n-grammide) sagedusloendid Tasakaalus korpuse põhjal

Loendite koostamispõhimõtete kohta lugemiseks kerige palun allapoole.

Loendid:

1. paarid e kaksikud e bigrammid:
sõnavormipaarid kogu Tasakaalus korpuses
lemmapaarid kogu Tasakaalus korpuses
sõnavormipaarid ilukirjanduses
lemmapaarid ilukirjanduses
sõnavormipaarid ajakirjanduses
lemmapaarid ajakirjanduses
sõnavormipaarid teaduses
lemmapaarid teaduses

2. kolmikud e trigrammid:
sõnavormide kolmikud kogu Tasakaalus korpuses
lemmade kolmikud kogu Tasakaalus korpusest
sõnavormide kolmikud ilukirjanduses
lemmade kolmikud ilukirjanduses
sõnavormide kolmikud ajakirjanduses
lemmade kolmikud ajakirjanduses
sõnavormide kolmikud teaduses
lemmade kolmikud teaduses

3. nelikud e tetragrammid:
sõnavormide nelikud kogu Tasakaalus korpuses
lemmade nelikud kogu Tasakaalus korpuses
sõnavormide nelikud ilukirjanduses
lemmade nelikud ilukirjanduses
sõnavormide nelikud ajakirjanduses
lemmade nelikud ajakirjanduses
sõnavormide nelikud teaduses
lemmade nelikud teaduses

Sagedusloendid on koostatud riikliku programmi "Eesti keele keeletehnoloogiline tugi" toel.

Mitmikute all on siinkohal mõeldud üksteisele vahetult järgnevate sõnade paare, kolmikuid või nelikuid. Mitmikud ja kollokatsioonid ei ole sünonüümsed mõisted, kollokatsioonide all mõeldakse kahe või enama sõna koosesinemist mingis kindlalt defineeritud naabruses (näiteks osalauses), kusjuures kollokatsiooni moodustavad sõnad ei pruugi (aga võivad) paikneda tekstis kõrvuti. Nii moodustavad sõnad ajas, pilli ja lõhki kollokatsiooni, aga mitte kolmiku lauses (1) ja nii kollokatsiooni kui ka kolmiku lauses (2).

(1) Siis aga ajas vihane herilane pilli hoopis lõhki.
(2) Vihane herilane ajas pilli lõhki.

Siin avaldatud mitmikute e n-grammide sagedusloendid on koostatud Tasakaalus korpuse põhjal, mis jaguneb kolmeks võrdseks 5 miljoni sõna suurusteks osaks aja-, -ilu ja teaduskirjanduse vahel. Loendid on koostatud nii Tasakaalus korpuse kui terviku kui ka iga allkorpuse kohta eraldi. Koostatud on nii sõnavormidest koosnevate mitmikute kui ka sõnade algvormidest e lemmadest koosnevate mitmikute sagedusloendid. Tekstisõna lemma tuvastatakse morfoloogilise analüüsi ning ühestamise käigus ja nii on sagedusloendite tegemisel kasutatud Tasakaalus korpuse morfoloogiliselt ühestatud versiooni. Kasutatud on nn Filosofti morfoloogiliste kategooriate süsteemi, ühestatud on statistilise, trigrammidel põhineva ühestajaga t3sta.

Sõnavormide mitmikute leidmisel on kõik tekstisõnad teisendatud läbivalt väiketähelisteks, st pärisnimesid ja üldnimesid ei saa eristada. Lemmade mitmikute sagedusloendites on suur- ja väiketähtede erinevus alles, st päris- ja üldnimesid saab eristada.
Mitmikud sisaldavad lisaks tekstisõnadele või lemmadele ka kirjavahemärke, millest sagedasim on koma, st sagedasimate sõnapaaride hulgas on ka , et ja kolmikute hulgas selleks , et. Kui kasutaja ei soovi kasutada kirjavahemärke sisaldavaid mitmikuid (või soovib just ainult kirjavahemärkidega mitmikuid), siis on kirjavahemärkidega töötamise lihtsustamiseks kirjavahemärkidele lisatud lühend #Z# lemmade loetelus ja lühend #z# sõnavormide loetelus. Tänu sellele on soovi korral võimalik kõik kirjavahemärke sisaldavad mitmikud hõlpsasti kustutada või siis vastupidi uurida ainult kirjavahemärke sisaldavaid ridu. Loendid ei sisalda kirjavahemärke '(' ja ')', sulud on mitmikute loenditest eemaldatud.
Mitmikute loendid sisaldavad ka numbriga kirjutatud arvsõnu ja lühendeid.

Siin avaldatud sagedusloenditesse on võetud ainult need mitmikud, mis esinesid vaatluse all olnud korpuses vähemalt 10 korda.
Mitmikute arvu piiramisega muutus sõnavormide ja lemmade mitmikute sagedusvahekord: unikaalseid sõnavormide mitmikuid esines korpuses rohkem kui unikaalseid lemmade mitmikuid, aga kui arvesse võeti ainult 10 ja rohkem kordi esinevad mitmikud, siis nende hulgas oli lemmade mitmikuid rohkem kui sõnavormide mitmikuid (võrdle tabeleid 1, 2, 3 tabelitega 4, 5, 6). Sõnavormide mitmikute loetelust välja jäävad vähem kui 10 korda esinevad sõnavormide kooslused koonduvad kokku lemmade koosluseks, mis esineb kümme või enam korda ja on nii esitatud lemmade mitmikute loendis.

Mitmikute koostamisel pole arvestatud sõnade ühtlast või ebaühtlast jaotumist Tasakaalus korpuse allkorpuste ja tekstide vahel. Võib esineda juhtumeid, kui mingi sõnajärjend on sage, kuid seda järjendit leidub ainult ühes Tasakaalus korpuse tekstis. Mõnevõrra aitab seda ebaühtlast jaotust tasakaalustada see, et loenditesse on sisse võetud vähemalt kümme korda esinevad mitmikud, nii jäävad loenditest välja väikese teksti piires esinevad mitmikud. Samas ei aita see juhtumite vastu, kus ühes tekstis on läbivalt kasutatud korduvat sõnajärjendit, mida teistes korpuse tekstides ei kasutata. Samas joonistub sagedaste mitmikute kaudu välja ka tekstiklassile iseloomulik sõnade järjend, nt teadustekstides esineb mitmik käesolevas töös on, mida teistes tekstiklassides ei kasutata.

Statistikat

Kokku on koostatud kolme erineva suurusega mitmikute loendid (paarid e kaksikud e bigrammid, kolmikud e trigrammid ja nelikud e tetragrammid) kogu Tasakaalus korpuse ja selle kolme allosa põhjal. Seega moodustub 3*4=12 loendit.
Loenditest on eemaldatud korpuse morfoloogiliselt analüüsitud versioonis esinevad lause alguse ja lõpu märgendid </s> ja <s> ; sulgusid sisaldavad kollokatsioonide read, näiteks jt (1998) ja read, mis sisaldavad kahte või enamat kirjavahemärki, näiteks ,viskama ja nurgadiivan ,. Loendid on sorteeritud ja järjestatud sageduse kahanemise järjekorras. Esitatud loendites on vähemalt 10 korda esinenud mitmikud.
Tabelites 1, 2 ja 3 on esitatud Tasakaalus korpuses vähemalt 10 korda esinenud sõnavormide ja lemmade mitmikute esinemise sagedused jaotatult kogu Tasakaalus korpuse ja selle kolme tekstiklassi vahel.

nelikud

td>td>td>

Tasakaalus korpus sõnavormi mitmikute sagedus lemma mitmikute sagedus
kõik 9076 16615
aja 1500 2917
ilu 3300 6749
tea 2398 3615

Tabel 1. Rohkem kui 10 korda esinenud nelikute hulk Tasakaalus korpuses ja selle allosades

kolmikud

Tasakaalus korpus sõnavormi mitmikute sagedus lemma mitmikute sagedus
kõik 43670 65584
aja 9637 14903
ilu 17256 26853
tea 10375 15173

Tabel 2. Rohkem kui 10 korda esinenud kolmikute hulk Tasakaalus korpuses ja selle allosades

kaksikud

Tasakaalus mitmikute korpus sõnavormi mitmikute sagedus lemma mitmikute sagedus
kõik 138544 155864
aja 39497 50051
ilu 50893 54762
tea 41948 55309

Tabel 3. Rohkem kui 10 korda esinenud kaksikute hulk Tasakaalus korpuses ja selle allosades

Nagu näha, kõige rohkem leidub erinevaid vähemalt kümme korda esinevaid mitmikuid korpuse ilukirjanduse osas ning kõige vähem ajakirjanduse tekstides.

Sõnavarastatistikast on teada seaduspära, et üks kord esinevad sõnad moodustavad selle korpuse /teksti sõnavarast umbes poole. Võrreldes tabelit 1 tabeliga 4, tabelit 2 tabeliga 5 ja tabelit 3 tabeliga 6, näeme, et kõigist Tasakaalus korpuses esinenud sõnavormide nelikutest esinesid vaid 0,08% rohkem kui 10 korda ja tervelt 97% ainult ühe korra. Tasakaalus korpuse lemmade nelikutest esines ainult ühe korra 76% ja rohkem kui 10 korda 0,33%. Sõnavormide kaksikutest esinesid ainult ühe korra 81% ja 10 või rohkem korda 2%. Lemmade kaksikutest esinesid ainult ühe korra 76% ja 10 või rohkem korda 3%.

Alljärgnevates tabelites 4, 5 ja 6 on näha, kui palju esines korpuses kokku mitmikuid (st siin on esitatud mitmike sagedus arvestades ka korpuses alla kümne korra esinenud mitmikuid) ja kui suure osa neist moodustasid sõnade ühekordsed koosesinemised.

nelikud

Tasakaalus korpus sõnavormi mitmikute sagedus neist 1 kord lemma mitmikute sagedus neist 1 kord
kõik 11700325 11340636 11277113 10798089
aja 3952982 3883418 3867422 3768283
ilu 4131481 4025433 3942796 3786123
tea 3719791 3564570 3642931 3458774

Tabel 4. Nelikute hulk Tasakaalus korpuses ja selle allosades

kolmikud

Tasakaalus korpus sõnavormi mitmikute sagedus neist 1 kord lemma mitmikute sagedus neist 1 kord
kõik 11352391 10510398 10112500 9077246
aja 3964840 3756338 3661717 3384829
ilu 3982505 3694934 3469303 3114081
tea 3765643 3465735 3490457 3123692

Tabel 5. Kolmikute hulk Tasakaalus korpuses ja selle allosades

kaksikud

Tasakaalus korpus sõnavormi mitmikutesagedus neist 1 kord lemma mitmikute sagedus neist 1 kord
kõik 7091668 5760968 5000628 3784287
aja 2761718 2326100 2064043 1623931
ilu 2428911 1986740 1687784 1295874
tea 2669528 2154197 1984012 1478192

Tabel 6. Kaksikute hulk Tasakaalus korpuses ja selle allosades