Lithuanian-English cybersecurity termbase: principles of data collection and structuring
Date | Volume | Issue | Start Page | End Page |
---|---|---|---|---|
2023 | 49 | 2 | 1 | 24 |
The aim of the paper is to present compilation and structuring principles, scope and development possibilities of the bilingual Lithuanian-English cybersecurity termbase. The paper discusses different approaches to terminology management, the best practices of which have been used to collect cybersecurity terminology and compile the termbase. Data collection has been mainly based on semasiological and corpus-driven approaches involving creation of deep learning systems trained to extract terminology from the cybersecurity corpora. To achieve systematicity and comprehensiveness of the dataset, the onomasiological and corpus-based approaches have also been incorporated in the data collection process. The termbase design decisions (its macrostructure and microstructure) have been based on onomasiological principles, while term variation has been handled by applying the descriptive approach. The termbase has been developed in the open-source cloud-based terminological management platform Terminologue. To ensure interoperability, the termbase has been exported into the TBX format and deposited into the CLARIN-LT repository. The paper also discusses possibilities of publishing terminological data as linguistic linked open data and linking it with other terminological resources and cybersecurity ontologies. The termbase is expected to be useful for cybersecurity specialists, translators, terminographers, lexicographers and the general public, as well as to contribute to the development of the Lithuanian cybersecurity terminology.
Cilj je rada predstaviti načela sastavljanja dvojezične litavsko-engleske terminološke baze kibernetičke sigurnosti, opseg terminoloških podataka uključenih u terminološku bazu i mogućnosti njezina daljnjega razvoja. U radu se raspravlja o različitim pristupima upravljanju terminologijom, od kojih su najbolje prakse korištene za prikupljanje terminologije kibernetičke sigurnosti i sastavljanje baze pojmova. Prikupljanje podataka uglavnom se temelji na semasiološkim pristupima i pristupima vođenim korpusom koji uključuju stvaranje sustava dubokoga učenja osposobljenih za izlučivanje terminologije iz korpusa kibernetičke sigurnosti. Kako bi se postigla sustavnost i sveobuhvatnost skupa podataka, u proces prikupljanja podataka ugrađeni su onomasiološki i korpusni pristupi. Odluke o oblikovanju pojmovne baze (njezine makrostrukture i mikrostrukture) temeljene su na onomasiološkim načelima, dok je terminološka varijacija riješena primjenom deskriptivnoga pristupa. Terminološka baza razvijena je u otvorenoj platformi za upravljanje terminologijom Terminologue. Kako bi se osigurala interoperabilnost, baza pojmova pretvorena je u TBX format i pohranjena u repozitorij CLARIN-LT. U radu se također raspravlja o mogućnostima objavljivanja terminoloških podataka kao jezičnih povezanih podataka i njihova povezivanja s drugim resursima/ ontologijama kibernetičke sigurnosti. Očekuje se da će izrađena baza pojmova biti korisna stručnjacima za kibernetičku sigurnost, prevoditeljima i široj javnosti, kao i da će doprinijeti razvoju terminologije kibernetičke sigurnosti u Litvi.
Journal | IF | AIF | AIF (min) | AIF (max) | Cat | AV | Year |
---|---|---|---|---|---|---|---|
Rasprave | 0.1 | 0.86 | 0.86 | 0.86 | 1 | 0.116 | 2023 |
Journal | Cite Score | SNIP | SJR | Year | Quartile |
---|---|---|---|---|---|
Rasprave Instituta za Hrvatski Jezik i Jezikoslovlje | 0.7 | 0.504 | 0.128 | 2023 | Q2 |