Utka, Andrius | Vytauto Didžiojo universitetas |
Vytauto Didžiojo universitetas | |
Vytauto Didžiojo universitetas | |
The English-Lithuanian comparable corpus (DVITAS COMPARABLE) is morphologically annotated. It includes English and Lithuanian original texts on cybersecurity from the time period of 2010-2021. The corpus was compiled for the bilingual terminology extraction project together with English-Lithuanian parallel corpus. There are 1,708 files in English and 2,567 for Lithuanian. The total size of the corpus is 4m words (EN-2m; LT-2m) The corpus is composed of texts representing 4 text types: academic (EN-19%; LT-30%), administrative-informative (EN-8%; LT-11%), legal (EN-18%; LT-4%), media (EN-55%; LT-55%).
Anglų–lietuvių kalbų palyginamasis tekstynas (DVITAS COMPARABLE) yra morfologiškai anotuotas. Jį sudaro originalūs anglų ir lietuvių kalbų tekstai kibernetinio saugumo tematika, apimantys 2010–2021 metų laikotarpį. Tekstynas buvo sudarytas automatiniam dvikalbės terminijos nustatymo projektui kartu sudarant ir lygiagretųjį anglų–lietuvių kalbų tekstyną. Tekstyną sudaro 1708 anglų kalbos failai ir 2567 lietuvių kalbos failai. Tekstyno apimtis yra 4 milijonai žodžių (EN – 2 mln.; LT – 2 mln.). Tekstyną sudaro tekstai, reprezentuojantys 4 tekstų žanrus: mokslinį (EN – 19 %; LT – 30 %), administracinį-informacinį (EN – 8 %; LT – 11 %), teisės (EN – 18 %; LT – 4 %), žiniasklaidos (EN -55 %; LT – 55 %).