Abstract
Мета роботи: огляд та аналіз відомих підходів виявлення вразливостей великих мовних моделей (ВММ), розробка архітектури автоматизованої системи для тестування вразливостей, створення набору підказок для виконання практичного тестування ВММ для оцінювання їх безпеки.. Результати дослідження: дослідження показало, що автоматизована система з використанням утиліти Garak, може ефективно виявляти та запобігати атакам на великі мовні моделі. Застосування таких систем значно підвищує рівень безпеки мовних моделей. Теоретична цінність дослідження: у статті представлено новий підхід до забезпечення безпеки мовних моделей шляхом автоматизації тестування вразливостей. Це доповнює існуючі теоретичні підходи у сфері кібербезпеки та моделювання. Практична цінність дослідження: науковці та розробники можуть використовувати результати дослідження для створення безпечніших мовних моделей, а також для вдосконалення алгоритмів, які запобігають маніпуляціям і зловживанням. Цінність дослідження: стаття пропонує нові технологічні рішення, зокрема впровадження автоматизованої системи на основі утиліти Garak, що дозволяє покращити безпеку, стійкість і ефективність мовних моделей. Це має значення для подальшого розвитку галузі штучного інтелекту та кібербезпеки. Майбутні дослідження: результати можуть змінюватися залежно від конкретних архітектур мовних моделей або видів атак. Майбутні дослідження доцільно зосередити на вдосконаленні алгоритмів для виявлення нових видів атак та підвищенні ефективності автоматизованої системи в умовах змінних загроз.
Published Version
Join us for a 30 min session where you can share your feedback and ask us any queries you have