Doczilla позволит
Полностью исключить простые ошибки;
Ускорить подготовку документов в 10 раз;
Избавиться от рутины и перепроверок;
Забыть про неактуальные шаблоны;

Как Doczilla Pro помогает клиентам защитить данные при работе с AI: модуль анонимизации


⏱14 мин | 21.08.2024

Как Doczilla Pro помогает клиентам защитить данные при работе с AI: модуль анонимизации


⏱14 мин | 21.08.2024

Искусственный интеллект ускоряет работу в юридической функции и помогает автоматизировать рутину. Юристы используют AI для решения ежедневных задач: создать сопроводительную документацию, сформировать билингвальный документ, проанализировать договор на риски, достать сущности из договора и так далее.


Многие компании опасаются использовать AI-технологии из-за риска утечки данных. Особенно если дело касается чувствительной информации или персональных данных клиентов, которые нельзя разглашать по условиям NDA. В этой статье расскажем, как сохранить конфиденциальность документов с помощью анонимайзера.

Безопасность информации и AI: опасно ли загружать документы в нейросеть?

При работе с AI чувствительные данные из документов могут попасть в открытый доступ. Некоторые большие языковые модели (LLM), например Claude Anthropic, используют данные из промптов пользователей для дообучения модели. Перед тем как добавить их в свою библиотеку, Claude Anthropic маскирует чувствительную информацию — меняет имена, даты, адреса в документах:

Маскировка данных

Маскировка данных позволяет нейросети отчасти снизить риск утечки, но опасность не купируется полностью. Другие имена и цифры не меняют документ до неузнаваемости — формулировки, условия и прочие важные сущности остаются такими же. Claude Anthropic может использовать целые блоки текста из документов пользователей для дообучения и формирования собственной библиотеки знаний.


Другие LLM поступают с данными иначе. Например, YandexGPT может использовать запрос пользователя и сгенерированный контент в любых целях, а GigaChat от Сбера — хранить на своих серверах ответ нейросети. Open AI при работе через API не использует информацию пользователей для наполнения своей библиотеки. Данные сохраняются на 1 месяц, чтобы модель проверила, нет ли в них враждебных высказываний и призывов. Затем данные удаляются навсегда. Но риск утечки конфиденциальной информации все равно остается.

Как защитить данные в документах при работе с AI?

Существует несколько способов обезопасить конфиденциальную информацию. Перед тем как отправить документы в нейросеть, пользователи могут:


Вручную удалить чувствительные данные


Это очевидный, но очень долгий способ купировать риск утечки информации. Сотрудники самостоятельно очищают текст от конфиденциальных данных, а если документ объемный — процесс может растянуться на несколько дней. Поскольку работа ручная, из-за человеческого фактора назвать этот способ надежным не получится. Данные все равно смогут просочиться в открытый доступ.


Замаскировать данные


Есть сервисы, которые меняют имена, названия, цифры в документах на другие, чтобы обеспечить безопасность информации. Например, такая функция есть у DaData. Однако многие компании переживают, что даже замаскированный документ можно опознать, если текст попадает в открытые источники.


Подключить анонимайзер


Технология находит чувствительную информацию в документе и зашифровывает ее перед тем, как отправить текст в нейросеть. А потом, когда AI поработает над текстом, анонимайзер возвращает в документ исходные значения.

Анонимайзер — разработка продуктовой команды Doczilla.

Как появился модуль анонимизации?

В прошлом году Product Manager компании Наталья Никулина разработала прототип, позволяющий шифровать чувствительные данные в документах. Затем команда разработки создала полноценное решение по анонимизации документов и использовала новую технологию для пилотного проекта с крупным клиентом.

Первый заказчик анонимайзера — крупный банк

Наш клиент — банк, входящий в список 13 системно значимых банков России. Компания обратилась к нам с запросом на автоматизацию поиска и анализа ключевых сущностей в объемных документах и ускорения выхода на сделку.


Решение: внедрение модуля Doczilla AI и модуля анонимизации


Банк работает с многостраничными контрактами клиентов для выдачи банковских гарантий. С помощью AI юристы вытаскивают из договоров ключевые сущности и сводят все данные в таблицу. А анонимайзер позволяет сделать работу с AI безопасной — чувствительные данные клиентов скрыты шифром, а риск утечки информации практически исключен.

Анонимайзер: что под капотом?

Технология комбинирует два инструмента: опенсорсную локальную языковую модель и алгоритм, который ищет чувствительные данные по маскам.


Что делает языковая модель?


Локальная языковая модель сканирует текст документа и ищет в нем имена и названия. Технология обучена распознавать наименования организаций, имена людей, названия населенных пунктов и прочие именованные сущности в разных падежах.


Что делает масочный алгоритм?


Программа анализирует текст и шифрует цифровые значения: числа, даты, суммы, паспортные данные, СНИЛС и другие чувствительные данные в численно-буквенных сочетаниях.


Алгоритм работает по маскам, то есть ищет устойчивые комбинации переменных. По количеству цифр и знакам препинания между ними программа понимает, что обозначает та или иная комбинация. Например, 4 цифры, пробел, 6 цифр — это серия и номер паспорта.

Принцип работы алгоритма поиска по маскам

Специалисты Doczilla проанализировали самые частотные комбинации переменных и разные форматы их написания, создали маски и настроили алгоритм на поиск и шифровку этих значений.


Анонимайзер сочетает возможности языковой модели и алгоритма поиска по маскам, чтобы скрыть как можно больше чувствительных данных из документов. Команда Doczilla постоянно дорабатывает технологию: расширяет библиотеку возможных комбинаций масок алгоритма и дообучает модель.

Принцип работы анонимайзера

Технология анализирует текст документа по абзацам, находит чувствительные данные и шифрует их с помощью шестизначного кода. Исходные значения и соответствующие им коды сохраняются в локальную базу данных, а очищенный от конфиденциальной информации текст можно безопасно отправлять в языковую модель. После того как пользователь поработал с текстом в AI, анонимайзер возвращает в документ исходные значения.

Принцип работы анонимайзера

Для шифрования данных анонимайзер использует guid-коды, или гуиды. Это стандартные шестизначные коды формата [JEYABG], которые широко используются в программировании. Нейросеть инструктирована не менять текст гуидов, поэтому для анонимизации технология работает именно с таким форматом шифров.

Как работать с анонимайзером?

В анонимайзере от Doczilla Pro предусмотрены два режима очистки текста: транзитный и с предварительной валидацией.


Если пользователь работает в транзитном режиме, анонимайзер автоматически анализирует документ, шифрует информацию и отправляет текст в AI. Пользователи не могут влиять на то, какие данные будут скрыты. Транзитный режим можно сделать обязательным, чтобы все загруженные в AI тексты автоматически очищались от чувствительной информации. Эта функция поможет исключить человеческий фактор и обеспечить безопасность данных.

Транзитный режим

При работе с анонимайзером в режиме с предварительной валидацией пользователи могут проверить качество очистки текста и в случае необходимости вручную зашифровать любые данные в документе. Например, если нужно скрыть предмет договора или условия. Это занимает больше времени, но дает пользователю уверенность в том, что вся чувствительная информация в документе скрыта.

Режим с предварительной валидацией

Какие данные скрывает анонимайзер?

Комбинация возможностей локальной языковой модели и настроенного алгоритма поиска по маскам позволяет пользователям очищать текст от следующих данных:

  • наименования организаций;
  • имена людей;
  • реквизиты;
  • числа, даты, суммы, проценты;
  • паспортные данные, СНИЛС;
  • кадастровые номера;
  • коды закупки;
  • телефоны, email;
  • адреса;
  • номера документов и прочие номера;
  • некоторые термины.

Зачем использовать анонимайзер?

Работа с модулем анонимизации позволяет снизить риск утечки данных, автоматизировать очистку документов от чувствительной информации и использовать все возможности AI, не опасаясь за конфиденциальность. Компании могут использовать модуль, чтобы:


Ускорить анонимизацию документов


Многие юристы вынуждены вручную очищать документ от чувствительных данных. Например, чтобы отправить шаблон договора контрагенту или загрузить документ в AI. Если документ объемный, поиск и удаление информации может занять несколько часов. Анонимайзер справляется с этой работой меньше, чем за 1 минуту. И возвращает все исходные значения в текст документа, если это необходимо.


Безопасно работать с AI и контрагентами


Документы, очищенные анонимайзером, можно спокойно отправлять третьим лицам или загружать в нейросеть. Чувствительные данные зашифрованы, но суть документа остается понятной. Искусственный интеллект помогает юристам ускорить работу с текстом и избавиться от ежедневной рутины. А использование анонимайзера дает уверенность в том, что никакие чувствительные данные из документов, загруженных в AI, не попадут в открытый доступ.

Узнайте больше о том, как AI упрощает работу юристов в статье ➝

«Как российские юристы используют ИИ в 2024 году: топ-10 кейсов»

Применение Doczilla

  • Ускорить подготовку документов в 10 раз
  • Полностью исключить простые ошибки
  • Забыть про неактуальные шаблоны
  • Избавиться от рутины и перепроверок

Читайте также