Как Doczilla Pro помогает клиентам защитить данные при работе с AI: модуль анонимизации
Как Doczilla Pro помогает клиентам защитить данные при работе с AI: модуль анонимизации
Искусственный интеллект ускоряет работу в юридической функции и помогает автоматизировать рутину. Юристы используют AI для решения ежедневных задач: создать сопроводительную документацию, сформировать билингвальный документ, проанализировать договор на риски, достать сущности из договора и так далее.
Многие компании опасаются использовать AI-технологии из-за риска утечки данных. Особенно если дело касается чувствительной информации или персональных данных клиентов, которые нельзя разглашать по условиям NDA. В этой статье расскажем, как сохранить конфиденциальность документов с помощью анонимайзера.
Безопасность информации и AI: опасно ли загружать документы в нейросеть?
При работе с AI чувствительные данные из документов могут попасть в открытый доступ. Некоторые большие языковые модели (LLM), например Claude Anthropic, используют данные из промптов пользователей для дообучения модели. Перед тем как добавить их в свою библиотеку, Claude Anthropic маскирует чувствительную информацию — меняет имена, даты, адреса в документах:
Маскировка данных
Маскировка данных позволяет нейросети отчасти снизить риск утечки, но опасность не купируется полностью. Другие имена и цифры не меняют документ до неузнаваемости — формулировки, условия и прочие важные сущности остаются такими же. Claude Anthropic может использовать целые блоки текста из документов пользователей для дообучения и формирования собственной библиотеки знаний.
Другие LLM поступают с данными иначе. Например, YandexGPT может использовать запрос пользователя и сгенерированный контент в любых целях, а GigaChat от Сбера — хранить на своих серверах ответ нейросети. Open AI при работе через API не использует информацию пользователей для наполнения своей библиотеки. Данные сохраняются на 1 месяц, чтобы модель проверила, нет ли в них враждебных высказываний и призывов. Затем данные удаляются навсегда. Но риск утечки конфиденциальной информации все равно остается.
Как защитить данные в документах при работе с AI?
Существует несколько способов обезопасить конфиденциальную информацию. Перед тем как отправить документы в нейросеть, пользователи могут:
Вручную удалить чувствительные данные
Это очевидный, но очень долгий способ купировать риск утечки информации. Сотрудники самостоятельно очищают текст от конфиденциальных данных, а если документ объемный — процесс может растянуться на несколько дней. Поскольку работа ручная, из-за человеческого фактора назвать этот способ надежным не получится. Данные все равно смогут просочиться в открытый доступ.
Замаскировать данные
Есть сервисы, которые меняют имена, названия, цифры в документах на другие, чтобы обеспечить безопасность информации. Например, такая функция есть у DaData. Однако многие компании переживают, что даже замаскированный документ можно опознать, если текст попадает в открытые источники.
Подключить анонимайзер
Технология находит чувствительную информацию в документе и зашифровывает ее перед тем, как отправить текст в нейросеть. А потом, когда AI поработает над текстом, анонимайзер возвращает в документ исходные значения.
Как появился модуль анонимизации?
В прошлом году Product Manager компании Наталья Никулина разработала прототип, позволяющий шифровать чувствительные данные в документах. Затем команда разработки создала полноценное решение по анонимизации документов и использовала новую технологию для пилотного проекта с крупным клиентом.
Первый заказчик анонимайзера — крупный банк
Наш клиент — банк, входящий в список 13 системно значимых банков России. Компания обратилась к нам с запросом на автоматизацию поиска и анализа ключевых сущностей в объемных документах и ускорения выхода на сделку.
Решение: внедрение модуля Doczilla AI и модуля анонимизации
Банк работает с многостраничными контрактами клиентов для выдачи банковских гарантий. С помощью AI юристы вытаскивают из договоров ключевые сущности и сводят все данные в таблицу. А анонимайзер позволяет сделать работу с AI безопасной — чувствительные данные клиентов скрыты шифром, а риск утечки информации практически исключен.
Анонимайзер: что под капотом?
Технология комбинирует два инструмента: опенсорсную локальную языковую модель и алгоритм, который ищет чувствительные данные по маскам.
Что делает языковая модель?
Локальная языковая модель сканирует текст документа и ищет в нем имена и названия. Технология обучена распознавать наименования организаций, имена людей, названия населенных пунктов и прочие именованные сущности в разных падежах.
Что делает масочный алгоритм?
Программа анализирует текст и шифрует цифровые значения: числа, даты, суммы, паспортные данные, СНИЛС и другие чувствительные данные в численно-буквенных сочетаниях.
Алгоритм работает по маскам, то есть ищет устойчивые комбинации переменных. По количеству цифр и знакам препинания между ними программа понимает, что обозначает та или иная комбинация. Например, 4 цифры, пробел, 6 цифр — это серия и номер паспорта.
Принцип работы алгоритма поиска по маскам
Специалисты Doczilla проанализировали самые частотные комбинации переменных и разные форматы их написания, создали маски и настроили алгоритм на поиск и шифровку этих значений.
Анонимайзер сочетает возможности языковой модели и алгоритма поиска по маскам, чтобы скрыть как можно больше чувствительных данных из документов. Команда Doczilla постоянно дорабатывает технологию: расширяет библиотеку возможных комбинаций масок алгоритма и дообучает модель.
Принцип работы анонимайзера
Технология анализирует текст документа по абзацам, находит чувствительные данные и шифрует их с помощью шестизначного кода. Исходные значения и соответствующие им коды сохраняются в локальную базу данных, а очищенный от конфиденциальной информации текст можно безопасно отправлять в языковую модель. После того как пользователь поработал с текстом в AI, анонимайзер возвращает в документ исходные значения.
Принцип работы анонимайзера
Для шифрования данных анонимайзер использует guid-коды, или гуиды. Это стандартные шестизначные коды формата [JEYABG], которые широко используются в программировании. Нейросеть инструктирована не менять текст гуидов, поэтому для анонимизации технология работает именно с таким форматом шифров.
Как работать с анонимайзером?
В анонимайзере от Doczilla Pro предусмотрены два режима очистки текста: транзитный и с предварительной валидацией.
Если пользователь работает в транзитном режиме, анонимайзер автоматически анализирует документ, шифрует информацию и отправляет текст в AI. Пользователи не могут влиять на то, какие данные будут скрыты. Транзитный режим можно сделать обязательным, чтобы все загруженные в AI тексты автоматически очищались от чувствительной информации. Эта функция поможет исключить человеческий фактор и обеспечить безопасность данных.
Транзитный режим
При работе с анонимайзером в режиме с предварительной валидацией пользователи могут проверить качество очистки текста и в случае необходимости вручную зашифровать любые данные в документе. Например, если нужно скрыть предмет договора или условия. Это занимает больше времени, но дает пользователю уверенность в том, что вся чувствительная информация в документе скрыта.
Режим с предварительной валидацией
Какие данные скрывает анонимайзер?
Комбинация возможностей локальной языковой модели и настроенного алгоритма поиска по маскам позволяет пользователям очищать текст от следующих данных:
Зачем использовать анонимайзер?
Работа с модулем анонимизации позволяет снизить риск утечки данных, автоматизировать очистку документов от чувствительной информации и использовать все возможности AI, не опасаясь за конфиденциальность. Компании могут использовать модуль, чтобы:
Ускорить анонимизацию документов
Многие юристы вынуждены вручную очищать документ от чувствительных данных. Например, чтобы отправить шаблон договора контрагенту или загрузить документ в AI. Если документ объемный, поиск и удаление информации может занять несколько часов. Анонимайзер справляется с этой работой меньше, чем за 1 минуту. И возвращает все исходные значения в текст документа, если это необходимо.
Безопасно работать с AI и контрагентами
Документы, очищенные анонимайзером, можно спокойно отправлять третьим лицам или загружать в нейросеть. Чувствительные данные зашифрованы, но суть документа остается понятной. Искусственный интеллект помогает юристам ускорить работу с текстом и избавиться от ежедневной рутины. А использование анонимайзера дает уверенность в том, что никакие чувствительные данные из документов, загруженных в AI, не попадут в открытый доступ.
Узнайте больше о том, как AI упрощает работу юристов в статье ➝
«Как российские юристы используют ИИ в 2024 году: топ-10 кейсов»
Применение Doczilla
Читайте также