Doczilla позволит
Полностью исключить простые ошибки;
Ускорить подготовку документов в 10 раз;
Избавиться от рутины и перепроверок;
Забыть про неактуальные шаблоны;

«Не выдумывай»: как повысить точность ответов AI?


⏱16 мин | 17.10.2024

«Не выдумывай»: как повысить точность ответов AI?


⏱16 мин | 17.10.2024

Виктория Шанаурова, LegalTech-юрист Doczilla, разрабатывает нового AI-ассистента по оспариванию сделок в банкротстве. Чтобы минимизировать ошибки в ответах ассистента, Виктория протестировала разные гипотезы. И победила галлюцинации AI. В этой статье Виктория рассказывает, почему модель вообще выдумывает ответы, и показывает, как удалось исключить галлюцинации.



Искусственный интеллект (AI) становится повседневным инструментом в работе юристов. У технологии огромный потенциал, но она подходит не для всех задач. Так, AI пока плохо справляется с поиском судебной практики. Выполняя поиск, нейросеть часто галлюцинирует — выдает ответы, которые выглядят достоверно, но в действительности неверны.


Сейчас я разрабатываю нового AI-ассистента по оспариванию сделок в банкротстве и регулярно сталкиваюсь с галлюцинациями AI. Чтобы повысить точность ответов, я провела эксперимент — протестировала различные промпты и варианты настроек AI-ассистента.

Почему AI галлюцинирует?

Галлюцинации в AI могут появляться, если в базе данных (векторном хранилище) много лишней информации. Или если у модели есть инструкция давать самые неочевидные ответы. Так, AI может использовать разные алгоритмы для генерации текста. Например, при поиске информации в хранилище ориентироваться на данные, которые встречаются очень редко. Это повышает креативность ответа, но снижает точность. Еще одна причина галлюцинаций — стремление AI дать ответ даже в том случае, если в базе нет нужных данных. Вместо того чтобы сказать «Я не знаю», модель попытается угадать недостающую информацию, опираясь на статистические закономерности в данных. Это приводит к созданию правдоподобного, но ложного ответа.


Также галлюцинации возникают, если AI сталкивается с неопределенными или неполными запросами. Например, если в промпте неоднозначные критерии или нет четких инструкций для поиска данных. Тогда технология может генерировать ответ, который лишь частично соответствует запросу, заполняя пробелы предположениями.

Чтобы искусственный интеллект не галлюцинировал, нужен очень четкий промпт
Например, если вы хотите найти практику, где сделки были оспорены по п. 2 ст. 61.2 Закона о банкротстве, стоит указать «найди практику, где сделки были признаны недействительными только на основании п. 2 ст. 61.2 Закона о банкротстве».

При запросе «найди практику, где сделки были оспорены по п. 2 ст. 61.2 Закона о банкротстве» AI выдаст практику и где сделки были признаны недействительными, и где было отказано в признании сделок недействительными (ведь оспаривание было, фраза «оспорены» не воспринимается AI как оконченное действие с результатом признания сделки недействительной), и где оспаривание было только по искомой статье, и где оспаривалось сразу по нескольким статьям, в том числе и по п. 2 ст. 61.2 Закона о банкротстве.

Можно ли избавиться от ошибок в ответах AI?

Одной из ключевых задач будущего ассистента по оспариванию сделок в банкротстве будет поиск релевантной судебной практики в базе данных. В ходе разработки я столкнулась с тем, что нейросеть иногда ошибается и выдает несуществующие или не соответствующие запросу судебные акты.


Тогда я решила провести эксперимент — глубже изучить работу AI и понять, как можно минимизировать ошибки.


Я составила много разных промптов по поиску судебной практики и проанализировала ответы AI. Часто модель галлюцинировала и выдавала ошибки двух видов:


1) Несоответствие ответа фактическим данным: AI в ответе указывал номер дела и реквизиты судебного акта, которых нет в действительности.


2) Несоответствие ответа запросу: AI использовал реквизиты существующего судебного акта, но подстраивал суть кейса под заданные мной критерии поиска. То есть форма была верной, а содержание — выдуманным. Чаще всего реальное дело было рассмотрено по другому спору и не подходило под запрос.


Очевидно, что галлюцинации по своей природе отличались и «лечить» их одним методом было невозможно. Нужно было использовать комплексный подход.

Что влияет на галлюцинации AI?

Подготовка к тестированию проходила в несколько этапов:

Я убрала из базы данных обзоры и обобщенные комментарии к судебной практике, оставив только первоисточники — сами судебные акты. Это позволило сократить вероятность того, что AI начнет интерпретировать или обобщать данные.

После этих этапов галлюцинации, связанные с несоответствием ответа фактическим данным, исчезли. Но даже пошаговый алгоритм в промпте не уберег ответы AI от галлюцинаций второго типа — несоответствия ответа запросу. Тогда я решила попробовать отрегулировать температуру — ключевой параметр, отвечающий за точность ответа.

Чем выше температура AI, тем креативнее (и непредсказуемее) его ответы. А юристам нужна холодная голова

Языковые модели способны выполнять творческие задачи. На креативность AI влияет температура — гиперпараметр, регулирующий уровень случайности в выборе слов моделью. Чем выше температура, тем с большей вероятностью модель выберет менее предсказуемый вариант ответа. Это повышает креативность текста, но увеличивает риск возникновения ошибок или галлюцинаций. Чем ниже температура (ближе к 0), тем более предсказуемыми и менее разнообразными будут ответы модели.


Стандартно у больших языковых моделей (LLM) температура зафиксирована в значении 1. Такое значение помогает AI отлично справляться с творческими запросами, где важно разнообразие и нестандартные решения. Но при выполнении юридических задач важна точность, а не креативность. Поэтому высокая температура приводит к ошибкам.

Эксперимент: пробуем разные промпты и значения температуры

Я решила протестировать, как разные значения температуры и инструкции в промптах влияют на способность модели находить релевантную судебную практику. Все результаты я фиксировала, а в эту статью добавила самые яркие примеры и общие выводы.


В эксперименте использовались одинаковые запросы, связанные с судебной практикой по банкротству, но разные значения температуры (0,85 и 1). Это позволило проверить, как модель справляется с задачей при различных условиях.

Пример 1: Найти практику, связанную с торгами в исполнительном производстве

Промпт: «Найди мне практику, согласно которой сделки, заключенные на торгах в ходе исполнительного производства, не могут быть оспорены по основаниям, предусмотренным Законом о банкротстве».

  • Температура 0,85: Модель нашла релевантное постановление Арбитражного суда Уральского округа. Процент галлюцинаций составил 0%. Ответ был точным.
  • Температура 1: Модель сгенерировала три акта, но два из них оказались нерелевантными, в актах вообще ничего не было про торги в исполнительном производстве. Процент галлюцинаций составил 66%, и это показало, что при более высокой температуре модель начинала додумывать ответы.

Около правильных актов стоит ✅, а около неправильных — ❌

При температуре 1 AI галлюцинирует, а при 0,85 — честно признается, что не знает ответа

Пример 2: Найти практику, где акт взаимозачета признали недействительной сделкой

Промпт: «Найди мне практику, где акт взаимозачета был признан недействительной сделкой».

  • Температура 0,85: AI сгенерировал точный и релевантный ответ. Процент галлюцинаций составил 0%.
  • Температура 1: Хотя модель привела реальный судебный акт про оспаривание акта взаимозачета, в этом определении ВС РФ указал, что оспаривать акт взаимозачета нельзя. Запрос был о практике, где акты признают недействительными. Процент галлюцинаций составил 33%.

Около правильных актов стоит ✅, не совсем корректные отмечены 🟡, а неправильные — ❌

Пример 3: Найти практику, где суды отказались признать одностороннюю сделку недействительной

Промпт: «Найди мне судебную практику, где суды отказали в оспаривании односторонней сделки».

  • Температура 0,85: AI сгенерировал точный и релевантный ответ. Процент галлюцинаций составил 0%.
  • Температура 1: Модель сгенерировала два акта, из которых неточным оказался один. Ответ AI очень интересный. По сути, при поиске практики модель должна была первоначально понять, какие из сделок в целом являются односторонними. Выдача банковской гарантии, действительно, считается односторонней сделкой, даже если она оформляется договором и подразумевает появление обязательств у двух сторон. Но этот вопрос не ставился перед судом, и соответственно в определении суда нет выводов по этому вопросу. В векторном хранилище AI отсутствовали документы, на основании которых модель могла бы понять, что выдача банковской гарантии — односторонняя сделка. Поэтому списываю это на совпадение и засчитываю неверный ответ. Процент галлюцинаций — 50%.

Около правильных актов стоит ✅, а около неправильных — ❌

Пример 4: Найти практику об оспаривании отказа от наследства

Промпт: «Найди судебную практику по оспариванию отказа от наследства». Вопрос с подвохом, потому что в векторном хранилище ассистента умышленно не было загружено релевантной практики. Было интересно, как модель будет действовать в этой ситуации.

  • Температура 0,85: Несмотря на то что температура была снижена, модель сгенерировала неверный ответ. Хотя акт и цитата из него — реальные, то есть AI не придумывал, что в акте что-то указано про отказ от наследства, его содержание не соответствовало запросу. Процент галлюцинаций составил 100%.
  • Температура 1: Модель сгенерировала неверный ответ. Акт был реальным, а его содержание — нет. AI придумал, что в актах содержится что-то про отказ от наследства, хотя акты не содержали ни слова об этом. Процент галлюцинаций составил 100%.

❌ отмечены реально существующие акты, содержание которых AI при этом выдумал.

Важна не только температура AI

По итогам четырех примеров результаты были такими:

При температуре 0,85 было найдено 4 примера судебной практики, из которых неправильных — 1. Процент галлюцинаций — 25%. В ответе всегда один акт, найденный по запросу пользователя.

При температуре 1 было найдено 10 примеров судебной практики, из которых неправильных — 6. Процент галлюцинаций — 60%. Ассистент придумывал, что в найденном им судебном акте есть фраза из запроса. Но всегда давал несколько примеров найденной практики, структурировал ответ в своем стиле.

Последний кейс подсветил еще один важный момент, который нужно учитывать для снижения галлюцинаций искусственного интеллекта. Дело не только в температуре, но и в алгоритме поиска. Модель, даже с пониженной температурой, продолжала искать ответ даже в тех случаях, когда релевантной практики не было. И генерировала ответ, исходя из предположений.

Научили AI говорить «я не знаю»

В алгоритме AI не было инструкции остановить его прохождение и не генерировать ответ. Чтобы устранить проблему, я дала модели инструкцию остановить поиск практики и дать ответ «ничего не найдено, извините», если при первых попытках полностью соответствующий критериям поиска акт не был найден. А затем в исследовании «Survey of Hallucination in Natural Language Generation» (2023) я нашла подобную рекомендацию для исключения галлюцинаций: «Additionally, the model needs to reject generation when insufficient information is given».


После того как я изменила инструкцию и еще несколько раз попробовала разные промпты по поиску судебной практикки, результаты стали такими:

При температуре 0,85 было найдено 4 примера судебной практики, из которых неправильных — 0. Процент галлюцинаций — 0%. На все запросы, когда практики в базе данных не было, действительно отвечал, что ее не было.

При температуре 1 было найдено 5 примеров судебной практики, из которых неправильных — 2. Процент галлюцинаций — 40%. При этом ошибки связаны не с реальностью актов, все найденные судебные акты действительно существуют. Ассистент придумывал, что в найденных им судебных актах есть фраза из запроса, кроме того, не справлялся с задачей поиска практики по комплексным критериям.

Как повысить точность ответов: ключевые рекомендации

Результаты тестирования ясно показали, что повышение температуры даже до стандартного значения 1 значительно увеличивает количество галлюцинаций. При температуре 0,85 модель была менее креативной, но выдавала более точные ответы, без ошибок и выдуманных данных. Особенно это было заметно на комплексных и непростых запросах, где модель пыталась дополнить недостающие данные.


Соответственно можно выделить несколько важных рекомендаций для снижения количества галлюцинаций:


Очистить базы данных

Использование чистой базы данных без обобщенных материалов также снижает риск галлюцинаций.


Запретить придумывать судебные акты

Для того чтобы AI не создавал комбинацию из цифр для создания номера дела и номера судебного акта, достаточно запретить ему ее создавать.


Контролировать температуру

Для юридических задач рекомендуется использовать температуру в диапазоне 0,7–0,85, так как это снижает риск галлюцинаций и повышает точность ответов.


Давать четкие инструкции

Чтобы получить корректный результат, нужно составить исчерпывающий запрос. Например, если подходящей судебной практики нет, нужно просить модель прямо об этом сообщить, а не пытаться сгенерировать ответ на основе предположений.

AI похож на послушного ребенка: чтобы он не выдумывал ответы, просто запретите ему это делать

Как результаты эксперимента улучшат работу AI-ассистентов?

Эксперимент нужно еще много раз повторить, чтобы доказать устойчивость его результатов. Но подобные тесты показывают, что можно существенно снизить количество галлюцинаций AI, если правильно настроить температуру, дать четкие инструкции в промпте и тщательно поработать с данными.


Теперь можно с уверенностью сказать, что поиск судебной практики по оспариванию сделок в банкротстве станет значительно проще с будущим AI-ассистентом. Я планирую использовать результаты эксперимента для того, чтобы обучить ассистента давать максимально точные ответы, которым можно доверять. Релиз будет к концу года, следите за новостями Doczilla Pro.


А еще я надеюсь, что мой опыт поможет пользователям и специалистам, создающим AI-ассистентов, улучшить качество работы искусственного интеллекта с юридическими задачами и минимизировать риски, связанные с галлюцинациями.

Применение Doczilla

  • Ускорить подготовку документов в 10 раз
  • Полностью исключить простые ошибки
  • Забыть про неактуальные шаблоны
  • Избавиться от рутины и перепроверок

Читайте также