• et
  • en
  • vo
Võru ja seto keelekorpus
Projekti tutvustus

Projektijuht: Sulev Iva, sulev.iva@wi.ee

Meeskond: Ants Aader, Tiia Allas, Mariko Faster, Tiit Hennoste, Sulev Iva, Triin Iva, Grethe Juhkason, Kristian Kankainen, Liina Lindström, Kaur Männamaa, Maike-Liis Rebane, Laivi Vodi

Vajadus ja taust

Võru ja seto keele arendamist ja laialdasemat kasutust on peetud tähtsaks nii kohalikul kui riiklikul tasandil. On üldiselt teada, et tänapäeva maailmas ei saa säilida ega jätkusuutlikult areneda keeled, millele pole loodud vähimatki keeletehnoloogilist tuge. See kehtib ka võru ja seto keele kohta, mis on 2009. aastal kantud UNESCO ohustatud keelte nimekirja. Setokeelne leelotraditsioon on samas kantud ka UNESCO maailma vaimse kultuuripärandi nimekirja.

Võru Instituudi keekekorpuse projekti partnerid on TÜ murdekorpus ja suulise kõne korpus ning TÜ Lõuna-Eesti keele- ja kultuuriuurngute keskus.

Projekti rahastas aastatel 2011-2014 riiklik programm Eesti keeletehnoloogia. Aastatel 2015-2017 jätkub töö sama programmi rahastatud projektina “Võru ja seto integreeritud keeleressursid”.

Eesmärgid

Projekti eesmärgiks on ette valmistada võru ja seto keelele keeletehnoloogilise toe (automaatkorrektuuri, -poolitaja, masintõlke, kõnesüntesaatori jt vajalike rakenduste) loomist läbi võru ja seto nii kirjalike kui suuliste keeleressursside kogumise ja korraldamise ühtseks keelekorpuseks, mida saab kasutada ka keeleteaduslikel eesmärkidel.

Plaanitud tulemused

Projekti tulemusel luuakse võru ja seto keelekorpus, mis sisaldab nii kirjaliku kui suulise keele allkorpust. Võru ja seto kirjakeele allkorpus sisaldab eelkõige ajakirjandustekste, aga ka ilu- ja õppekirjanduse jm kirjalikke tekste. Suulise keele allkorpus sisaldab eelkõige võru- ja setokeelse spontaanse kõne, aga ka intervjuude, ettekannete jm suulise kõne liikide heli- ja videosalvestusi ja nende litereeringuid. Korpust täiendatakse pidevalt ning luuakse selle kasutamiseks vajalikud otsingumootorid.

Tulemused ja saavutused

2011: Projekti algusaastal töötati välja korpuse loomise põhimõtted ja alustati nii kirjalike kui suuliste tekstide kogumisega ning salvestiste litereerimisega. Suurimas mahus koguti korpusesse ajakirjandustekste ajalehe Uma Leht arhiivi põhjal (tekstimahuga ca 400 000 sõna), sellele lisaks ka ilu- ja õppekirjanduse ja tarbetekste (ca 100 000 sõna mahus). Koguti ca 20 tundi heli- ja 27 tundi videosalvestisi ja litereeriti neid ca 40 000 sõna mahus.

2012: Projekti teisel aastal jätkati kirjalike ja suuliste tekstide kogumist. Suurimas mahus koguti taas ajakirjandustekste (ca 500 000 sõna). Salvestisi tehti ca 20 tundi ja litereeringuid ca 45 000 sõna mahus. Teise tööaasta jooksul loodi samuti korpuse kasutamist hõlbustavad otsimootorid nii kirjaliku kui suulise keele allkorpuse jaoks ning alustati ajaliselt joondamata litereeringute üleviimist joondatud kujule programmi ELAN abil.

Lõpptulemused, ehk aastaks 2014 saavutatu

Projektiperioodi lõpuks on võru ja seto ajakirjanduskorpuse mahuks:
1 269 000 sõna, sellest: Uma Lehe korpus – ca 762 000 sõna, Ajalehe Setomaa korpus – seto keeles 279 000, eesti keeles 228 000 sõna. Võru ja seto kirjakeele ajakirjanduse allkorpuste vaba juurdepääsuga otsingumootorid asuvad:
– Uma Leht: http://www.murre.ut.ee/otsing/voru.php
– Setomaa: http://synaq.org/seto

Siit leiab korpuse võru kirjakeele ossa kogutud Uma Lehe artiklid rubriikidest pääleht,uudissõelo ja märgotus lehenumbritest 51 kuni 248: Uma Lehe korpus failidena.
Ilukirjanduse korpuse kogumahuks on ca 350 000 sõna, korpus on viimase aasta jooksul muudetud tekstiarhiivist avalikuks keelekorpuseks koos vajaliku kasutajaliidesega, mis asub aadressil http://synaq.org/ilo.

Võru ja seto kirjakeele korpuse teise tähtsama suunana on olnud kavas luua eesti-võru paralleelkorpus. Kuigi paralleelselt eesti ja võru keeles kättesaadavaid tekste on suuremate keeltega (nt eesti või soome keelega) võrreldes väga vähe, on (näiteks masintõlkerakendustele mõeldes) seda enam tähtis olemasolevad tekstid paralleelkorpusse koondada. Paralleelkorpuse koostamise algaasta (2013) jooksul suutsime koguda tekstiarhiivina ca 20 000 sõna. 2014. aasta lõpuks õnnestus korpuse maht enam kui kahekordistada, nii et paralleelkorpuse mahuks on nüüd 56 722 eestikeelset ja 68 188 võrukeelset sõna. Korpusele on loodud kasutajaliides, mis on vabalt kättesaadav aadressil http://voro.aader.org/wi.py jahttp://wi.werro.ee/proov/wi.py.

Kirjakeele korpuse töö kõrvalharuna plaanisime projekti lõpuastatel ka esialgse eesti-võro masintõlke katserakenduse loomist. Vähegi kvaliteetsema algtulemuseni sellega küll jõutud pole, kuid esialgne, peamiselt “Võru-eesti sõnaraamatust” genereeritud sõnastikel ja väga piiratud grammatikatoel põhinev katserakendus on siiski loodud, see asub aadressitel http://voro.aader.org/tolgi.py ja http://wi.werro.ee/proov/tolgi.py.

Võru ja seto keelekorpuse suulise keele allkorpuse tulemused võib projektiperioodi lõpuks kokkuvõtlikult esitada järgmiselt:
heli- ja videosalvestatud ca 50 tundi uusi argivestlusi; ca 27 tundi võru väikelastekeele videosalvestisi, ca 8 tundi TÜ murdekorpuse setokeelseid intervjuusid; mõned võrukeelse suveülikooli ettekanded; kõigist salvestistest litereeritud ca 121 000 sõna. Suulise kõne korpusest otsingute tegemiseks loodud kasutajaliides, mis on mõeldud ainult teaduslikel eesmärkidel kasutamiseks (juurdepääs parooliga) asub aadressil: http://keel.ut.ee/voru/