Projektijuht: Sulev Iva, sulev.iva@wi.ee.

Miiskund: Ants Aader, Tiia Allas, Mariko Faster, Tiit Hennoste, Sulev Iva, Triin Iva, Grethe Juhkason, Kristian Kankainen, Liina Lindström, Kaur Männamaa, Maike-Liis Rebane, Laivi Vodi

Tarvidus ja tagapõhi

Võro ja seto keele edendämist ja laembat pruukmist om peet tähtsäs nii paigapääl ku üle riigi. Om häste teedä, et täämbädse päävä maailman saa-ai alalõ hoituda ja elon püssü keele, minkalõ olõ-õi luud määnestki keeleteknoloogia tukõ. Tuu käü ka võro ja seto keele kotsilõ, miä om 2009. aastagal kannõt UNESCO ohon kiili nimekirjä. Setokeeline leelo om samal aol võet ka UNESCO maailma vaimlidsõ kultuuriperändüse nimekirjä.

Võro Instituudi keelekorpusõ projekti man omma abilisõ ka TÜ murdõkorpus ja suulidsõ kõnnõ korpus ni TÜ Lõunõ-Eesti keele- ja kultuuriuurmiisi keskus. Projekti tugõsi aastil 2011-2014 riiklinõ programm Eesti keeletehnoloogia. Aastil 2015-2017 lätt tüü edesi läbi samast programmist tukõ saava projekti “Võro ja seto integreeridü keeleressursi”.

Tsihi

Projekti tsihis om ette valmista võro ja seto keelele keeleteknoloogia toe (automaatkorrõktuuri, -poolitaja, massintõlkõ, kõnnõsüntesaatri jt tarviliidsi rakõnduisi) luumist läbi võro ja seto nii kirotõduisi ku kõnõlduisi keeleressurssõ korjamisõ ja kõrraldamisõ ütitses keelekorpusõs, midä saa pruuki ka keeletiidüsen.

Plaanidu tulõmi

Projektiga luvvas võro ja seto keelekorpus, kon om seen nii kirotõdu ku kõnõldu keele allkorpus. Võro ja seto kiräkeele allkorpusõn om kõgõ inämb aokirändüstekste, a om ka ilo- ja opikiränduse jm kirotõduid tekste. Kõnõldu keele allkorpusõn om kõgõ inämb võro- ja setokeelidse vaba kõnõlõmisõ, a ka küsütelemiisi, ettekandidõ jm kõnõldu keele liikõ helü- ja videoülesvõttit ni näide üleskirotuisi. Korpust tävvendedäs kõik aig ni luvvas taa pruukmisõs tarviliidsi otsimassinit.

Miä om korpusõtüü edimädse jao lõpus (aastagas 2014) är tett

Korpusõprojekti edimädse jao lõpus om võro ja seto aokirjändüskorpusõ maht: 1 269 000 sõnna, tuust: Uma Lehe korpus – ca 762 000 sõnna, Aolehe Setomaa korpus – seto keelen 279 000, eesti keelen 228 000 sõnna. Võro ja seto kiräkeele aokirändüse allkorpuisi vaba manopäsemisega otsimoodori omma aadrõssidõ pääl:

 Uma Leht: http://www.murre.ut.ee/otsing/voru.php

 Setomaa: http://synaq.org/seto

Siist löüd korpusõ võro kiräkeele ossa kor’adu Uma Lehe artikli rubriigest pääleht, uudissõ, elo ja märgotus lehenumbriist 51 kooniq 248: Uma Lehe korpus failõn.

Ilokirändüse korpusõ mahus om ca 350 000 sõnna ja korpus om muudõt tekstiarhiivist avaligus keelekorpusõs üten tarvilidsõ pruukjaliitõga, miä om aadrõsi pääl http://synaq.org/ilo.

Võro ja seto kiräkeele korpusõ tõõsõs tähtsämbäs tsihis om olnu luvva eesti-võro kõrvuisikorpus (ehk parallelkorpus). Kuigi kõrvuisi eesti ja võro keelen kättesaadavit tekste om suurõmbidõ kiiliga (nt eesti vai soomõ keelega) võrrõldõn väega veidü, om (näütüses massintõlkõrakõnduisi pääle mõtõldõn) tuuvõrra tähtsämb kõik olõmanolõva teksti kõrvuisikorpustõ kokko kor’ada. Kõrvuisikorpusõ tegemise edimädse aastaga (2013) joosul joudsõmi kor’ada tekstiarhiivi ca 20 000 sõnna. 2014. aastaga lõpus õnnistu korpusõ maht saia päält katõ kõrra suurõmbas, nii et korpusõ mahus sai 56 722 sõnna eesti ja 68 188 võro keelen. Korpusõlõ om luud pruukjaliidõ, midä saa vabalt kätte aadrõssi päält http://wi.werro.ee/witm/htdocs/wi.py.

Võro ja seto kiräkeele korpusõ tüü kõrval plaanõmi projekti lõpuaastil ka edimädse eesti-võro massintõlkõ katsõrakõndusõ luumist. Vähägi parõmba ümbrepandmisõ tasõmõni tuuga joht jout olõ-õi, a määnegi edimäne, päämädselt “Võro-eesti sõnaraamatust” genereeridü sõnastuidõ ja väega väiku grammatigatoega katsõrakõndus om siski luud, tuu om aadrõssidõ pääl: http://wi.werro.ee/witm/htdocs/index.py

Võro ja seto keelekorpusõ kõnõldu keele allkorpusõ tüüga valmissaadu või kokko võtta nii: helün ja/vai pildin om üles võet 50 tunni ümbre egäpäävätsit jutuajamiisi; 27 tunni ümbre om väikeisi latsi võro keele videoülesvõttit, 8 tunni ümbre TÜ murdõkorpusõ setokeelitsit jutuajamiisi; mõnõ võrokeelidse suvõülikooli ettekandõ; kõigist ülesvõttist om üles kirotõt ca 121 000 sõnna. Kõnõldu keele allkorpusõst otsmiisi tegemises om luud pruukjaliidõ, miä om mõtõld õnnõ tiidüsuur’miisi tegemises. Mano päses (õnnõ salasõnaga) aadrõsi päält: http://keel.ut.ee/voru/

Kuuntüün TÜ foneetigalabori ja EKI kõnnõsünteesi tüürühmäga olõmi plaannu tetä ülesvõttit võrokeelidse kõnnõsünteesi edimäidsi katsõtuisi jaos. Tuuga alostamisõs omma tettü edimädse ülesvõttõ – võro-eesti võrgosõnaraamadu tävven mahun (15 000 sõnaartiklit) väega kõrralik helüülesvõtõ, mink hulgan omma nii võrokeelidse sõna ku näüdüslausõ. Noid saa läbi helülinke kullõlda aadrõsi päält: http://synaq.org.

Korpust tutvustavidõ konvõrendsiettekandidõ perrä ja korpusõ kõgõ nelä edimädse aastaga tüü kokkovõttõn ilmu 2014. aastaga lõpun Sulev Iva kirotus “Võru ja seto keelekorpus” Võro Instituudi toimõnduisi sar’a 28. numbrin, lk 75-82.

Võro ja seto keeleressurssõ maht, kättesaamisvõimalusõ, kõrraldõdus ni võro ja seto keele valmisolõk keeleteknoloogilidsõs edendämises om teno nailõ neläle aastagalõ, miä om tett võro ja seto korpusõtüüd, no kimmähe pall’o suurõmb ja parõmb.

Keelekorpusõtüüga alostõdut teemi edesi vahtsõn projektin “Võro ja seto integreeridü keeleressursi”, miä on köüdet ja tege kuuntüüd mitmõ tõõsõ keeleteknoloogilidsõ projektiga.

Lisas seolõ jutulõ löüd võro ja seto keele korpusõtüü kotsilõ teedüst ka Eesti keeleteknoloogia riigiprogrammi kodolehe päält.

Jagamine