Представили застосунок для визначення авторства анонімних україномовних текстів у інтернеті
Український науковий центр лінгвістичних студій представив проєкт із визначення авторства анонімних українськомовних текстів в інтернеті.
Презентація проєкту відбулася в Укрінформі.
"В результаті нашої роботи ми отримали застосунок TextAttributor 1.0, який здатний виконувати низку завдань: автоматичний лінгвістичний аналіз тексту, атрибуцію україномовного тексту, стилеметрію авторських текстів, визначення токсичності україномовного тексту, визначення мови ворожнечі в соціальних мережах, автоматичну генерацію експертного висновку атрибуції тексту", - розповіла на презентації кандидат філологічних наук Оксана Зубань.
Вона зазначила, що метою проєкту було створення системи параметризації медійного україномовного тексту, яка послужить інструментом лінгвістичного аналізу в завданнях з телеметрії, визначення авторства і визначення токсичності тексту.
Як додала Зубань, застосунок аналізує будь-який текст за 18 параметрами, серед яких базовими є такі, як кількість слів, кількість речень, обсяг словника. Інші 15 параметрів обчислюються за певними формулами. Одним із таких параметрів є індекс токсичності тексту, який вираховується за формулою і враховує вербальні ознаки, які систематизовані в окремі бази даних.
У базі даних застосунку є лексикографічний словник обсягом 5 тис. слів, до якого увійшли слова з негативною тональністю, словник мови ворожнечі обсягом 3 тис. слів, до якого увійшли негативні назви людей, обсценна та лайлива лексика, словник токсичних сполук обсягом 1,5 тис. синтагм, які виражають негативний сенс лише в певному словосполученні.
Під час презентації проєкту науковці продемонстрували роботу вебзастосунку TextAttributor 1.0 для встановлення імовірного авторства анонімних текстів і виявлення рівня токсичності контенту.
Проєкт реалізовано Українським лінгвістичним центром спільно з Інститутом філології КНУ імені Тараса Шевченка за підтримки посольства Великої Британії та Північної Ірландії.