Koondkorpus: (SL) Õhtuleht

 

Sisu ja maht

Selles allkorpuses on Õhtulehe / SL Õhtulehe numbrid ajavahemikust 06. 03. 1997 – 31. 12. 2007, kokku 3344 lehenumbrit; 45 572 699 sõna.

Need tekstid on osa Eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal

Tekstid on pärit (SL) Õhtulehe veebiarhiivist aadressil http://www.ohtuleht.ee/arhiiv/

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Krista Liin.

Ajalehearhiivi korpuseks teisendades on välja jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka telekava, hüperlingid, tabelid (nt sporditulemused, valuutakursid jms) ja lühikuulutused. Väljajäetud materjali (v.a. piltide) asemel on märgend <gap desc=’väljajäetud_materjali_liik’>.

Ühes failis on üks ajalehenumber.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

  • XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, SL Õhtulehe allkorpuse kui terviku kohta käiv info failis header_aja_sloleht.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
  • Korpusefaili päises on dokumenteeritud failis sisalduva ajalehenumbri ilmumise kuupäev, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv
  • HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
  • Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Tekstides on kasutatud järgmisi märgendeid:

  • Terviklehenumber <div0>
  • Rubriik <div1>
  • Alamrubriik <div2>
  • Artikkel <div3>
  • Artikli alaosa <div4>
  • Pealkiri <head>
  • Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
  • Lõik <p>
  • Lause <s>

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend='rasvane'>
<hi rend='kaldkiri'>
<p rend='rasvane'>
<p rend='kaldkiri'>

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

HTML-failides esinevad olemid on kirjas selles tabelis