Developing Training Corpora for Automatic Extraction of Cybersecurity Terminology
Utka, Andrius | Vytauto Didžiojo universitetas |
The paper presents the work on the compilation of English and Lithuanian parallel and comparable corpora with manually annotated cybersecurity terminology. The purpose of the annotation has been to create training corpora for machine learning systems for automatic extraction of English and Lithuanian cybersecurity terms. The paper presents the composition of the corpora compiled for terminology annotation, the functionalities of the annotation tool developed for the purpose of the project, the annotation guidelines and methodology, as well as the problems which have occurred during the annotation process (distinction between different categories of terms, terms and proper names, etc.) and the quantitative results of the annotation.
Cet article présente le travail de compilation de corpus parallèles et comparables anglais-lituaniens dans lesquels le lexique de la sécurité informatique a été annoté manuellement. Le but de cette annotation est de préparer des collections de données pour l’apprentissage automatique à l’aide de réseaux de neurones en vue de l’extraction automatique des termes du domaine de la cybersécurité en anglais et en lituanien à partir de tels corpus. L’article présente la composition des corpus annotés, les fonctionnalités de l’outil développé pour effectuer le travail d’annotation, les principes et la méthodologie qui ont guidé l’annotation des termes, ainsi que les problèmes rencontrés durant ce processus (la distinction des différentes catégories de termes, entre termes et noms propres) et les résultats quantitatifs de l’annotation.