Технологии
Запатентованные технологии лингвистического анализа
Лингвистический анализ InfoWatch имеет дело не с документами (их может быть больше миллиона в одной компании), а с категориями данных – их десятки, реже - сотни.
InfoWatch Traffic Monitor автоматически классифицирует информационные потоки компании, распределяя их «по полочкам» - категориям и терминам. Например, могут быть заданы такие категории: грифы секретности, Финансы, Маркетинг, Продажи. Информационные потоки, собранные в такие категории, подкатегории и термины образуют контентное дерево компании - базу контентной фильтрации (БКФ).
Общие категории и термины
В состав InfoWatch Traffic Monitor входит стандартная БКФ, содержащая наиболее общие категории и термины, встречающиеся практически в любых областях. Такая БКФ гарантирует детектирование данных по общим тематикам – «Счета», «Бухгалтерия», «Кредиты», «Тендеры», «HR» и т.д.
Оптимизированные БКФ
На основе своего многолетнего сотрудничества с компаниями, работающими на различных вертикальных рынках, InfoWatch разработала ряд БКФ, оптимизированных под потребности конкретных сегментов рынка.
Высокая точность детектирования информации
Использование отраслевой БКФ, оптимизированной под определенный вертикальный рынок, позволяет компании незамедлительно обеспечить высокую точность детектирования конфиденциальной информации и повышать эффективность использования DLP-системы.
Сегодня InfoWatch предлагает более 290 отраслевых и тематических БКФ, среди них:
- банковская
- страховая
- нефтегазовая
- телекоммуникационная
- медицинская
- строительная
- инженерно-производственная
- государственная (выявление нарушений законодательства РФ)
- мошенничество
- геополитика
- т.д.
Создание индивидуальной БКФ
В InfoWatch Traffic Monitor реализована технология создания собственной базы контентной фильтрации «под ключ».
Искусственный интеллект анализирует весь трафик компании, разбивает все документы на категории и строит для каждой из них лингвистическую модель – набор правил, по которым система научится классифицировать документы, как относящиеся к этой категории. На основе такой модели можно настроить политику безопасности. Качество такой модели соответствует качеству работы профессионального компьютерного лингвиста.
Детектор текстовых объектов защищает данные, создаваемые по определенному шаблону или логике.
Текстовые объекты – это точная последовательность символов или регулярных выражений, которые подлежат защите, если встречаются в переписке (во вложении) полностью либо частично.
С помощью детектора тестовых объектов рекомендуется защищать:
- персональные данные (например, паспортные данные, адреса электронной почты, номера телефонов и т.д.)
- финансовую информацию (ОГРН, БИК, номера кредитных карт, банковских счетов и т.д.)
- внутренние документы, содержащие формализованные данные, созданные по определенному шаблону (договора, банковские реквизиты, ИНН, ОГРН, ОКПО и т.д.)
InfoWatch Traffic Monitor содержит набор предустановленных текстовых объектов, а также позволяет создавать собственные текстовые объекты, уникальные для конкретного бизнеса. Например, для транспортной организации будет важно контролировать VIN-номера автомобилей, а для военной структуры – номер удостоверения личности военнослужащего.
Детектор эталонных документов защищает большие по объему документы, содержание которых не изменяется или меняется незначительно.
Технология автоматически обнаруживает в анализируемом тексте цитаты из эталонных документов (образцов), содержащих конфиденциальную информацию.
Детектор эталонных документов рекомендуется применять в случаях, когда необходимо:
- защищать редко изменяемые или статичные документы (регламенты, Устав, инструкции и т.д.)
- распознавать цитаты из документов-образцов, находить схожие документы
- выявлять в потоках данных не только дословные совпадения, но и модифицированные фрагменты текста
Из эталонных документов организации создаются цифровые отпечатки. Технология выявляет в потоке данных совпадения с цифровыми отпечатками с учетом лингвистики, что повышает качество детектирования конфиденциальной информации и обеспечивает надежную защиту с минимальным количеством ложных срабатываний.
Технология работает, даже при попытках «замусоривания» текста, когда злоумышленник пытается изменить форматирование, добавить лишние символы и пунктуацию, пишет транслитерацией или в разных регистрах.
Технология распознает в изображениях заранее предустановленные графические объекты
По умолчанию InfoWatch Traffic Monitor детектирует изображения паспорта гражданина РФ и кредитных карт (платежные системы VISA, Visa Electron, MasterCard, Maestro, МИР). Также есть возможность настроить технологию на детектирование технических чертежей (например, защита autocad-файлов), географических карт и т.д.
Благодаря технологии OCR (optical character recognition) – мгновенного распознавания текста в изображениях - контроль процессов печати и сканирования документов, перемещения отсканированных копий внутри организации (со сканера на ПК, с ПК на принтер) и за ее пределы (отправка отсканированных копий по электронной почте, через сервисы мгновенных сообщений и пр.) остается в зоне внимания DLP-системы.
Благодаря использованию технологии OCR закрывается один из самых популярных способов обхода DLP-систем - фотографирование, сканирование и отправка документов за пределы компании.
Запатентованная InfoWatch технология, которая защищает базы данных компании от утечек.
«Детектор выгрузок из баз данных» фиксирует наличие эталонных выгрузок из баз данных в сетевом трафике, текстовых документах и вложениях. Технология делает возможным оперативно реагировать на передачу информации, скопированной из базы данных, выявлять нарушителя и использовать цифровые доказательства по инциденту в случае необходимости проведения расследования.
Офицер безопасности может задавать критерии срабатывания технологии: определять, какая комбинация столбцов из базы данных будет детектироваться как утечка, а какая комбинация выгрузки не является критичной для бизнеса. Например, фамилии и имена клиентов сами по себе не будут определяться как утечка, а список клиентов с полными контактами уже относится к коммерческой тайне и детектироваться системой. Тайну могут составлять как один, так и несколько столбцов, а также сочетание одного столбца и любого из нескольких заданных (например, различное написание названия организации).
- высокая производительность технологии, что позволяет защищать большие объемы баз данных:
- обработка до 54 млн записей в секунду
- объем поддерживаемого отпечатка базы данных - 5 млн записей
- гибкая настройка под специфические форматы данных, хранящихся в базах данных
- простое создание новых эталонных выгрузок баз данных
- технология срабатывает, даже если база данных выгружается в виде текста (plain text) или html-кода (html text)
Технология отслеживает передачу по различным каналам анкет и квитанций, содержащих персональные данные, и уведомляет офицера безопасности и всех заинтересованных лиц.
Настройка технологии не требует специальных знаний. Офицер безопасности загружает эталонные бланки через консоль InfoWatch Traffic Monitor. Поддерживаются различные форматы файлов: docx, doc, dot, dotm, dotx, xls, xlsx, xlt, xltm, xltx, ods, odt, rtf, txt, vsd, html, htm, pdf, chm. При обнаружении признаков эталонной формы в потоке сетевого трафика офицер информационной безопасности получает уведомление об утечке конфиденциальной информации.
Производительность технологии составляет 12,7 млн знаков в секунду, в условиях анализа одновременно 150-ти анкет. Это позволяет защищать большой объем персональных данных, содержащихся в опросниках, анкетах, бланках организации и т.д.
- детектирует заполненные формы различных форматов (.doc/.docx,.rtf.xls/.xlsx,.pdf, jpg, png, gif)
- перехватывает бланки, заполненные от руки, отсканированные анкеты, частично заполненные формы, а также формы, пересылаемые в теле сообщения
- низкий показатель ложных срабатываний
- простое добавление новых эталонных бланков