Искусственный интеллект в DLP 2

Как не дать себя обмануть

18 мая 2022 Время чтения: 30

Как понимать, каким технологиям искусственного интеллекта можно доверять, и почему вокруг него в информационной безопасности существует столько мифов, разбираемся с помощью вебинара Александра Клевцова, руководителя продукта InfoWatch Traffic Monitor

Несмотря на то, что искусственный интеллект давно и активно распространяется на все большее количество отраслей, параллельно продолжает существовать другая повестка. В ней присутствует скепсис, критика и заявления, что искусственный интеллект вовсе не так эффективен и не отрабатывает «по-настоящему». Это мнение тиражируют и некоторые вендоры, недостаточно вкладывающиеся в R&D и уводящие внимание от собственных сырых разработок. Когда с такой оценкой сталкиваются заказчики, у них формируется неоднозначное впечатление: искусственный интеллект в информационной безопасности - стоит ли этому доверять? Давайте разберемся, почему именно искусственный интеллект в информационной безопасности вызывает столько споров, в том время как в других областях он успешно применяется давно, и как оценить уровень технологий по риторике вендоров.

Искусственный интеллект в информационной безопасности. Три стадии формирования недоверия

Вначале был энтузиазм. О применении искусственного интеллекта в информационной безопасности начали говорить все участники рынка. Конференции, вебинары, пресс-релизы о том, что рынок ждет новая эра цифровизации. На этом этапе искусственный интеллект стал заложником хайпа, модного технологического энтузиазма, что в свое время происходило с концепцией BYOD, облачными технологиями, GDPR и многим другим. Немногие вендоры действительно обладали развитой технологией, а еще меньше – минимально готовым продуктом. Применение искусственного интеллекта в информационной безопасности у многих существовало только в их презентациях. Тогда и появилось первое раздражение у тех, кто занимается эксплуатацией продуктов по информационной безопасности, непосредственно у пользователей, - шума много, а решения, которое можно было бы «пощупать» и использовать, нет.

Позже те вендоры, которые были способны развивать свои технологии, перешли от хайпа к действиям и дали рынку первые решения на основе искусственного интеллекта. На данном этапе эти решения формально использовали искусственный интеллект, нейронные сети, машинное обучение, но технологии были сырыми, а решениями пользоваться было тяжело, неудобно и дорого. Ведь разработка технологий искусственного интеллекта требует много различных компетенций, времени и больших бюджетов. Следуя общей тенденции, некоторые вендоры торопились выдать заказчикам неготовые к эксплуатации решения, из-за чего последние сталкивались с неприятным опытом.

В результате всех постигло первое разочарование. В какой-то момент повестку стали транслировать и сами вендоры, говоря, что не так уж нужны эти технологии искусственного интеллекта в информационной безопасности, нет таких задач, где бы он эффективно работал, зато есть старый добрый метод синей изоленты. Гонка технологий оказалась многим не по плечу, потому что разрабатывать искусственный интеллект у информационной безопасности - это дорого и сложно, а публично дискредитировать сложные технологии, в которых мало кто разбирается, – гораздо проще. Отголоски этой истории про конкуренцию и слышны до сих пор.

При этом во многих отраслях искусственный интеллект давно прижился и безвозвратно их изменил. На наших глазах развиваются цифровые двойники в промышленности, в том числе тяжелой, в банковской сфере, биржевой аналитике и т.д. Огромная доля банковских услуг для физических лиц в России, которыми люди пользуются ежедневно, давно и незаметно создается с помощью технологий искусственного интеллекта. В металлургии машинное зрение отслеживает работу погрузчика руды, а искусственный интеллект принимает решение, как формировать во время рабочего дня химический состав сплавов. Все это применяется уже в полной мере, и, как видно, уровень задач самый ответственный, вплоть до управления физическими объектами.

Искусственный интеллект в информационной безопасности. Сложности

Развивать технологии искусственного интеллекта в информационной безопасности - это наукоемко и дорого, требуется привлекать специалистов по Data Science, лингвистике и различным другим областям, проводить полевые исследования, испытывать и тестировать. И только пройдя весь путь можно предъявлять технологию заказчикам. Достаточность тестирования для многих становится непреодолимым препятствием.

Например, у InfoWatch есть технология, которая на основе машинного обучения призвана заменить штат лингвистов – вместо человека она автоматически генерирует лингвистические словари. Можно «скормить» DLP системе примеры документов, первичной документации, а через минуту будет готовый лингвистический словарь с десятками тысяч терминов.

Технология разрабатывалась и тестировалась долго. Тестирование включало и такие подходы, когда эффективность технологии с разных точек зрения сравнивали с эффективностью работы человека, чтобы понять, кто какие задачи отрабатывает эффективнее – искусственный интеллект или профессиональный компьютерный лингвист. После более 5 лет исследований, тестирования, обучения и пилотирования технологии на стороне заказчиков был готов к выпуску продукт «Автолингвист». Причем до выпуска продукта на рынок в 2021 команда не увлекалась анонсами, чтобы не создавать хайп вокруг не до конца отработанной темы. Технологии, созданные на искусственном интеллекте и Machine Learning, требуют больше испытаний и тестирований, чем какие-либо детерминированные алгоритмы.

Есть и другие критичные сложности. Среди них известная требовательность искусственного интеллекта к качеству исходных данных. При разработке машинного зрения в DLP, необходимого для выявления конфиденциальной информации на графических изображениях, технологию несколько лет обучали, уделяя особое внимание «чистоте» данных. И только после того, как ввели дополнительную предобработку исходных данных, технологии нормализации, приведение исходных данных к каноническому виду, убрали визуальный шум и мусор из картинок, появилась возможность дать заказчикам самим обучать технологию искусственного интеллекта, чтобы создавать собственные категории графической информации. Ведь у каждого заказчика своя специфика и свои виды графической информации, которые надо защищать. Поэтому важно давать инструменты для обучения, иначе ценность технологий искусственного интеллекта в информационной безопасности снижается. Технологиями машинного зрения в DLP InfoWatch Traffic Monitor занимались более 6 лет, прежде чем представить рынку в 2020 первое решение.

Проблема интерпретации результатов. Искусственный интеллект должен решать задачи так, чтобы можно было доверять ему. Например, сейчас в InfoWatch Traffic Monitor завершается разработка, с помощью которой будут подсвечиваться результаты анализа, дающие специалисту по информационной безопасности дополнительное объяснение, почему то или иное событие, e-mail, скопированный на флешку файл вызвали срабатывание словаря или какой-либо политики.

Отсутствие собственных исследований – еще одна часто встречающаяся проблема среди тех, кто занимается технологиями искусственного интеллекта в информационной безопасности. Берется чужой опыт, программируется нейронная сеть без понимания методики и без научной базы. Результаты таких проектов всегда непредсказуемы и об их серьезности говорить не приходится. Серьезные продукты всегда создаются с опорой на собственную научную базу. Например, созданию продукта InfoWatch Prediction, предиктивной аналитики по выявлению аномального поведения сотрудников, также предшествовало много лет собственных исследований, изучения признаков потенциального опасного поведения сотрудников на рабочем месте, сбора данных. Вендору, который сам занимается разработками в области искусственного интеллекта, совершенно необходима своя научная база.

Правильно, когда заказчики относятся критично к решениям, которые позиционируются на рынке как решения на основе искусственного интеллекта. Каким должен быть искусственный интеллект, чтобы можно было его эффективно использовать для защиты данных и решения задач, связанных со спецификой DLP – смотрите вебинар Александра Клевцова.

Полное или частичное копирование материалов возможно только при указании ссылки на источник — сайт www.infowatch.ru или на страницу с исходной информацией.