ОЦЕНКА ВЛИЯНИЯ DATA POISONING-АТАК НА КАЧЕСТВО МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ В PRODUCTION-СРЕДАХ И МЕТОДЫ ИХ ПРЕДОТВРАЩЕНИЯ
##plugins.themes.bootstrap3.article.main##
Аннотация
В статье проводится комплексное исследование влияния Data Poisoning-атак на качество моделей машинного обучения, функционирующих в production-средах, с целью выявления основных причин ухудшения ключевых метрик, таких как Recall и F1 score, вследствие внедрения вредоносных данных, генерируемых с помощью генеративно-состязательных сетей (GAN). В экспериментальной части работы на основе синтетического набора данных
смоделированы атаки с последующим сравнительным анализом исходной, отравленной и защищённой версий модели, что позволило детально оценить изменения точности, полноты и сбалансированности предсказаний. На основе полученных результатов предлагается комплексный алгоритм защиты, включающий предварительную фильтрацию данных с использованием алгоритма Isolation Forest и аугментацию обучающего набора посредством генерации синтетических примеров на основе нормального распределения, что способствует восстановлению исходных характеристик модели. Дополнительно осуществляется непрерывный мониторинг дрейфа входных данных с применением метрик Population Stability Index и расстояния Хеллингера, что позволяет своевременно корректировать работу модели и формировать практические рекомендации по защите моделей машинного обучения в условиях динамичной production-среды.