{"id":13142,"date":"2024-02-02T14:11:54","date_gmt":"2024-02-02T12:11:54","guid":{"rendered":"https:\/\/wi.ee\/?page_id=13142"},"modified":"2024-02-02T14:11:54","modified_gmt":"2024-02-02T12:11:54","slug":"keelekorpuse-arhiiv","status":"publish","type":"page","link":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/","title":{"rendered":"Keelekorpuse arhiiv"},"content":{"rendered":"<p class=\"Standard\"><strong>Projekti tutvustus<\/strong><\/p>\n<p class=\"Standard\">Projektijuht: Sulev Iva, &#115;&#117;&#x6c;e&#118;&#x2e;&#x69;v&#97;&#x40;&#x77;i&#46;&#x65;e<\/p>\n<p class=\"Standard\">Meeskond: Ants Aader, Tiia Allas, Mariko Faster, Tiit Hennoste, Sulev Iva, Triin Iva, Grethe Juhkason, Kristian Kankainen, Liina Lindstr\u00f6m, Kaur M\u00e4nnamaa, Maike-Liis Rebane, Laivi Vodi<\/p>\n<p class=\"Standard\"><strong>Vajadus ja taust<\/strong><\/p>\n<p class=\"Standard\">V\u00f5ru ja seto keele arendamist ja laialdasemat kasutust on peetud t\u00e4htsaks nii kohalikul kui riiklikul tasandil. On \u00fcldiselt teada, et t\u00e4nap\u00e4eva maailmas ei saa s\u00e4ilida ega j\u00e4tkusuutlikult areneda keeled, millele pole loodud v\u00e4himatki keeletehnoloogilist tuge. See kehtib ka v\u00f5ru ja seto keele kohta, mis on 2009. aastal kantud UNESCO ohustatud keelte nimekirja. Setokeelne leelotraditsioon on samas kantud ka UNESCO maailma vaimse kultuurip\u00e4randi nimekirja.<\/p>\n<p class=\"Standard\">V\u00f5ru Instituudi keekekorpuse projekti partnerid on T\u00dc murdekorpus ja suulise k\u00f5ne korpus ning T\u00dc L\u00f5una-Eesti keele- ja kultuuriuurngute keskus.<\/p>\n<p class=\"Standard\">Projekti rahastas aastatel 2011-2014 riiklik programm Eesti keeletehnoloogia. Aastatel 2015-2017 j\u00e4tkub t\u00f6\u00f6 sama programmi rahastatud projektina \u201cV\u00f5ru ja seto integreeritud keeleressursid\u201d.<\/p>\n<p class=\"Standard\"><strong>Eesm\u00e4rgid<\/strong><\/p>\n<p class=\"Standard\">Projekti eesm\u00e4rgiks on ette valmistada v\u00f5ru ja seto keelele keeletehnoloogilise toe (automaatkorrektuuri, -poolitaja, masint\u00f5lke, k\u00f5nes\u00fcntesaatori jt vajalike rakenduste) loomist l\u00e4bi v\u00f5ru ja seto nii kirjalike kui suuliste keeleressursside kogumise ja korraldamise \u00fchtseks keelekorpuseks, mida saab kasutada ka keeleteaduslikel eesm\u00e4rkidel.<\/p>\n<p class=\"Standard\"><strong>Plaanitud tulemused<\/strong><\/p>\n<p class=\"Standard\">Projekti tulemusel luuakse v\u00f5ru ja seto keelekorpus, mis sisaldab nii kirjaliku kui suulise keele allkorpust. V\u00f5ru ja seto kirjakeele allkorpus sisaldab eelk\u00f5ige ajakirjandustekste, aga ka ilu- ja \u00f5ppekirjanduse jm kirjalikke tekste. Suulise keele allkorpus sisaldab eelk\u00f5ige v\u00f5ru- ja setokeelse spontaanse k\u00f5ne, aga ka intervjuude, ettekannete jm suulise k\u00f5ne liikide heli- ja videosalvestusi ja nende litereeringuid. Korpust t\u00e4iendatakse pidevalt ning luuakse selle kasutamiseks vajalikud otsingumootorid.<\/p>\n<p class=\"Standard\"><strong>Tulemused ja saavutused<\/strong><\/p>\n<p class=\"Standard\">2011: Projekti algusaastal t\u00f6\u00f6tati v\u00e4lja korpuse loomise p\u00f5him\u00f5tted ja alustati nii kirjalike kui suuliste tekstide kogumisega ning salvestiste litereerimisega. Suurimas mahus koguti korpusesse ajakirjandustekste ajalehe Uma Leht arhiivi p\u00f5hjal (tekstimahuga ca 400 000 s\u00f5na), sellele lisaks ka ilu- ja \u00f5ppekirjanduse ja tarbetekste (ca 100 000 s\u00f5na mahus). Koguti ca 20 tundi heli- ja 27 tundi videosalvestisi ja litereeriti neid ca 40 000 s\u00f5na mahus.<\/p>\n<p class=\"Standard\">2012: Projekti teisel aastal j\u00e4tkati kirjalike ja suuliste tekstide kogumist. Suurimas mahus koguti taas ajakirjandustekste (ca 500 000 s\u00f5na). Salvestisi tehti ca 20 tundi ja litereeringuid ca 45 000 s\u00f5na mahus. Teise t\u00f6\u00f6aasta jooksul loodi samuti korpuse kasutamist h\u00f5lbustavad otsimootorid nii kirjaliku kui suulise keele allkorpuse jaoks ning alustati ajaliselt joondamata litereeringute \u00fcleviimist joondatud kujule programmi ELAN abil.<\/p>\n<p class=\"Standard\"><strong>L\u00f5pptulemused, ehk aastaks 2014 saavutatu<\/strong><\/p>\n<p class=\"Standard\">Projektiperioodi l\u00f5puks on v\u00f5ru ja seto ajakirjanduskorpuse mahuks:<\/p>\n<p class=\"Standard\">1 269 000 s\u00f5na, sellest: Uma Lehe korpus \u2013 ca 762 000 s\u00f5na, Ajalehe Setomaa korpus \u2013 seto keeles 279 000, eesti keeles 228 000 s\u00f5na. V\u00f5ru ja seto kirjakeele ajakirjanduse allkorpuste vaba juurdep\u00e4\u00e4suga otsingumootorid asuvad:<\/p>\n<p class=\"Standard\">\u2013 Uma Leht: http:\/\/www.murre.ut.ee\/otsing\/voru.php<\/p>\n<p class=\"Standard\">\u2013 Setomaa:\u00a0<a href=\"http:\/\/synaq.org\/seto\" target=\"_blank\" rel=\"noopener\">http:\/\/synaq.org\/seto<\/a><\/p>\n<p class=\"Standard\">Siit leiab korpuse v\u00f5ru kirjakeele ossa kogutud Uma Lehe artiklid rubriikidest p\u00e4\u00e4leht,uudiss\u00f5, elo ja m\u00e4rgotus lehenumbritest 51 kuni 248: Uma Lehe korpus failidena.<\/p>\n<p class=\"Standard\">Ilukirjanduse korpuse kogumahuks on ca 350 000 s\u00f5na, korpus on viimase aasta jooksul muudetud tekstiarhiivist avalikuks keelekorpuseks koos vajaliku kasutajaliidesega, mis asub aadressil\u00a0<a href=\"http:\/\/synaq.org\/ilo\" target=\"_blank\" rel=\"noopener\">http:\/\/synaq.org\/ilo<\/a>.<\/p>\n<p class=\"Standard\">V\u00f5ru ja seto kirjakeele korpuse teise t\u00e4htsama suunana on olnud kavas luua eesti-v\u00f5ru paralleelkorpus. Kuigi paralleelselt eesti ja v\u00f5ru keeles k\u00e4ttesaadavaid tekste on suuremate keeltega (nt eesti v\u00f5i soome keelega) v\u00f5rreldes v\u00e4ga v\u00e4he, on (n\u00e4iteks masint\u00f5lkerakendustele m\u00f5eldes) seda enam t\u00e4htis olemasolevad tekstid paralleelkorpusse koondada. Paralleelkorpuse koostamise algaasta (2013) jooksul suutsime koguda tekstiarhiivina ca 20 000 s\u00f5na. 2014. aasta l\u00f5puks \u00f5nnestus korpuse maht enam kui kahekordistada, nii et paralleelkorpuse mahuks on n\u00fc\u00fcd 56 722 eestikeelset ja 68 188 v\u00f5rukeelset s\u00f5na. Korpusele on loodud kasutajaliides, mis on vabalt k\u00e4ttesaadav aadressil:<\/p>\n<p class=\"Standard\">http:\/\/wi.werro.ee\/witm\/htdocs\/wi.py<\/p>\n<p class=\"Standard\">Kirjakeele korpuse t\u00f6\u00f6 k\u00f5rvalharuna plaanisime projekti l\u00f5puastatel ka esialgse eesti-v\u00f5ro masint\u00f5lke katserakenduse loomist. V\u00e4hegi kvaliteetsema algtulemuseni sellega k\u00fcll j\u00f5utud pole, kuid esialgne, peamiselt \u201cV\u00f5ru-eesti s\u00f5naraamatust\u201d genereeritud s\u00f5nastikel ja v\u00e4ga piiratud grammatikatoel p\u00f5hinev katserakendus on siiski loodud, see asub aadressitel: http:\/\/wi.werro.ee\/witm\/htdocs\/index.py<\/p>\n<p class=\"Standard\">V\u00f5ru ja seto keelekorpuse suulise keele allkorpuse tulemused v\u00f5ib projektiperioodi l\u00f5puks kokkuv\u00f5tlikult esitada j\u00e4rgmiselt:<\/p>\n<p class=\"Standard\">heli- ja videosalvestatud ca 50 tundi uusi argivestlusi; ca 27 tundi v\u00f5ru v\u00e4ikelastekeele videosalvestisi, ca 8 tundi T\u00dc murdekorpuse setokeelseid intervjuusid; m\u00f5ned v\u00f5rukeelse suve\u00fclikooli ettekanded; k\u00f5igist salvestistest litereeritud ca 121 000 s\u00f5na. Suulise k\u00f5ne korpusest otsingute tegemiseks loodud kasutajaliides, mis on m\u00f5eldud ainult teaduslikel eesm\u00e4rkidel kasutamiseks (juurdep\u00e4\u00e4s parooliga) asub aadressil: http:\/\/keel.ut.ee\/voru\/<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Projekti tutvustus Projektijuht: Sulev Iva, &#x73;&#117;l&#x65;&#x76;&#46;i&#x76;&#x61;&#64;w&#x69;&#x2e;&#101;e Meeskond: Ants Aader, Tiia Allas, Mariko Faster, Tiit Hennoste, Sulev Iva, Triin Iva, Grethe Juhkason, Kristian Kankainen, Liina Lindstr\u00f6m, Kaur M\u00e4nnamaa, Maike-Liis Rebane, Laivi Vodi Vajadus ja taust V\u00f5ru ja seto keele arendamist ja laialdasemat kasutust on peetud t\u00e4htsaks nii kohalikul kui riiklikul tasandil. On \u00fcldiselt teada, et t\u00e4nap\u00e4eva [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"class_list":["post-13142","page","type-page","status-publish","hentry"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.3 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Keelekorpuse arhiiv - V\u00f5ru Instituut<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/\" \/>\n<meta property=\"og:locale\" content=\"et_EE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Keelekorpuse arhiiv - V\u00f5ru Instituut\" \/>\n<meta property=\"og:description\" content=\"Projekti tutvustus Projektijuht: Sulev Iva, &#x73;&#x75;&#108;&#101;v&#x2e;&#x69;&#x76;&#097;&#064;w&#x69;&#x2e;&#x65;&#101; Meeskond: Ants Aader, Tiia Allas, Mariko Faster, Tiit Hennoste, Sulev Iva, Triin Iva, Grethe Juhkason, Kristian Kankainen, Liina Lindstr\u00f6m, Kaur M\u00e4nnamaa, Maike-Liis Rebane, Laivi Vodi Vajadus ja taust V\u00f5ru ja seto keele arendamist ja laialdasemat kasutust on peetud t\u00e4htsaks nii kohalikul kui riiklikul tasandil. On \u00fcldiselt teada, et t\u00e4nap\u00e4eva [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/\" \/>\n<meta property=\"og:site_name\" content=\"V\u00f5ru Instituut\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/VoroInstituut\" \/>\n<meta property=\"og:image\" content=\"https:\/\/wi.ee\/wp-content\/uploads\/2015\/05\/logo-150507.png\" \/>\n\t<meta property=\"og:image:width\" content=\"183\" \/>\n\t<meta property=\"og:image:height\" content=\"123\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/keelekorpuse-arhiiv\\\/\",\"url\":\"https:\\\/\\\/wi.ee\\\/et\\\/keelekorpuse-arhiiv\\\/\",\"name\":\"Keelekorpuse arhiiv - V\u00f5ru Instituut\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/#website\"},\"datePublished\":\"2024-02-02T12:11:54+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/keelekorpuse-arhiiv\\\/#breadcrumb\"},\"inLanguage\":\"et\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/wi.ee\\\/et\\\/keelekorpuse-arhiiv\\\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/keelekorpuse-arhiiv\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Avaleht\",\"item\":\"https:\\\/\\\/wi.ee\\\/et\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Keelekorpuse arhiiv\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/#website\",\"url\":\"https:\\\/\\\/wi.ee\\\/et\\\/\",\"name\":\"V\u00f5ru Instituut\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/wi.ee\\\/et\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"et\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/#organization\",\"name\":\"V\u00f5ru Instituut\",\"url\":\"https:\\\/\\\/wi.ee\\\/et\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"et\",\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/wi.ee\\\/wp-content\\\/uploads\\\/2015\\\/05\\\/logo-150507.png\",\"contentUrl\":\"https:\\\/\\\/wi.ee\\\/wp-content\\\/uploads\\\/2015\\\/05\\\/logo-150507.png\",\"width\":183,\"height\":123,\"caption\":\"V\u00f5ru Instituut\"},\"image\":{\"@id\":\"https:\\\/\\\/wi.ee\\\/et\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/VoroInstituut\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Keelekorpuse arhiiv - V\u00f5ru Instituut","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/","og_locale":"et_EE","og_type":"article","og_title":"Keelekorpuse arhiiv - V\u00f5ru Instituut","og_description":"Projekti tutvustus Projektijuht: Sulev Iva, &#x73;&#x75;&#x6c;&#x65;&#118;&#46;&#105;&#118;a&#64;w&#x69;&#x2e;&#x65;&#x65; Meeskond: Ants Aader, Tiia Allas, Mariko Faster, Tiit Hennoste, Sulev Iva, Triin Iva, Grethe Juhkason, Kristian Kankainen, Liina Lindstr\u00f6m, Kaur M\u00e4nnamaa, Maike-Liis Rebane, Laivi Vodi Vajadus ja taust V\u00f5ru ja seto keele arendamist ja laialdasemat kasutust on peetud t\u00e4htsaks nii kohalikul kui riiklikul tasandil. On \u00fcldiselt teada, et t\u00e4nap\u00e4eva [&hellip;]","og_url":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/","og_site_name":"V\u00f5ru Instituut","article_publisher":"https:\/\/www.facebook.com\/VoroInstituut","og_image":[{"width":183,"height":123,"url":"https:\/\/wi.ee\/wp-content\/uploads\/2015\/05\/logo-150507.png","type":"image\/png"}],"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/","url":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/","name":"Keelekorpuse arhiiv - V\u00f5ru Instituut","isPartOf":{"@id":"https:\/\/wi.ee\/et\/#website"},"datePublished":"2024-02-02T12:11:54+00:00","breadcrumb":{"@id":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/#breadcrumb"},"inLanguage":"et","potentialAction":[{"@type":"ReadAction","target":["https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/wi.ee\/et\/keelekorpuse-arhiiv\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Avaleht","item":"https:\/\/wi.ee\/et\/"},{"@type":"ListItem","position":2,"name":"Keelekorpuse arhiiv"}]},{"@type":"WebSite","@id":"https:\/\/wi.ee\/et\/#website","url":"https:\/\/wi.ee\/et\/","name":"V\u00f5ru Instituut","description":"","publisher":{"@id":"https:\/\/wi.ee\/et\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/wi.ee\/et\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"et"},{"@type":"Organization","@id":"https:\/\/wi.ee\/et\/#organization","name":"V\u00f5ru Instituut","url":"https:\/\/wi.ee\/et\/","logo":{"@type":"ImageObject","inLanguage":"et","@id":"https:\/\/wi.ee\/et\/#\/schema\/logo\/image\/","url":"https:\/\/wi.ee\/wp-content\/uploads\/2015\/05\/logo-150507.png","contentUrl":"https:\/\/wi.ee\/wp-content\/uploads\/2015\/05\/logo-150507.png","width":183,"height":123,"caption":"V\u00f5ru Instituut"},"image":{"@id":"https:\/\/wi.ee\/et\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/VoroInstituut"]}]}},"_links":{"self":[{"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/pages\/13142","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/comments?post=13142"}],"version-history":[{"count":1,"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/pages\/13142\/revisions"}],"predecessor-version":[{"id":13143,"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/pages\/13142\/revisions\/13143"}],"wp:attachment":[{"href":"https:\/\/wi.ee\/et\/wp-json\/wp\/v2\/media?parent=13142"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}