«Не выдумывай»: как повысить точность ответов AI?
«Не выдумывай»: как повысить точность ответов AI?
Виктория Шанаурова, LegalTech-юрист Doczilla, разрабатывает нового AI-ассистента по оспариванию сделок в банкротстве. Чтобы минимизировать ошибки в ответах ассистента, Виктория протестировала разные гипотезы. И победила галлюцинации AI. В этой статье Виктория рассказывает, почему модель вообще выдумывает ответы, и показывает, как удалось исключить галлюцинации.
Искусственный интеллект (AI) становится повседневным инструментом в работе юристов. У технологии огромный потенциал, но она подходит не для всех задач. Так, AI пока плохо справляется с поиском судебной практики. Выполняя поиск, нейросеть часто галлюцинирует — выдает ответы, которые выглядят достоверно, но в действительности неверны.
Сейчас я разрабатываю нового AI-ассистента по оспариванию сделок в банкротстве и регулярно сталкиваюсь с галлюцинациями AI. Чтобы повысить точность ответов, я провела эксперимент — протестировала различные промпты и варианты настроек AI-ассистента.
Почему AI галлюцинирует?
Галлюцинации в AI могут появляться, если в базе данных (векторном хранилище) много лишней информации. Или если у модели есть инструкция давать самые неочевидные ответы. Так, AI может использовать разные алгоритмы для генерации текста. Например, при поиске информации в хранилище ориентироваться на данные, которые встречаются очень редко. Это повышает креативность ответа, но снижает точность. Еще одна причина галлюцинаций — стремление AI дать ответ даже в том случае, если в базе нет нужных данных. Вместо того чтобы сказать «Я не знаю», модель попытается угадать недостающую информацию, опираясь на статистические закономерности в данных. Это приводит к созданию правдоподобного, но ложного ответа.
Также галлюцинации возникают, если AI сталкивается с неопределенными или неполными запросами. Например, если в промпте неоднозначные критерии или нет четких инструкций для поиска данных. Тогда технология может генерировать ответ, который лишь частично соответствует запросу, заполняя пробелы предположениями.
Можно ли избавиться от ошибок в ответах AI?
Одной из ключевых задач будущего ассистента по оспариванию сделок в банкротстве будет поиск релевантной судебной практики в базе данных. В ходе разработки я столкнулась с тем, что нейросеть иногда ошибается и выдает несуществующие или не соответствующие запросу судебные акты.
Тогда я решила провести эксперимент — глубже изучить работу AI и понять, как можно минимизировать ошибки.
Я составила много разных промптов по поиску судебной практики и проанализировала ответы AI. Часто модель галлюцинировала и выдавала ошибки двух видов:
1) Несоответствие ответа фактическим данным: AI в ответе указывал номер дела и реквизиты судебного акта, которых нет в действительности.
2) Несоответствие ответа запросу: AI использовал реквизиты существующего судебного акта, но подстраивал суть кейса под заданные мной критерии поиска. То есть форма была верной, а содержание — выдуманным. Чаще всего реальное дело было рассмотрено по другому спору и не подходило под запрос.
Очевидно, что галлюцинации по своей природе отличались и «лечить» их одним методом было невозможно. Нужно было использовать комплексный подход.
Что влияет на галлюцинации AI?
Подготовка к тестированию проходила в несколько этапов:
После этих этапов галлюцинации, связанные с несоответствием ответа фактическим данным, исчезли. Но даже пошаговый алгоритм в промпте не уберег ответы AI от галлюцинаций второго типа — несоответствия ответа запросу. Тогда я решила попробовать отрегулировать температуру — ключевой параметр, отвечающий за точность ответа.
Языковые модели способны выполнять творческие задачи. На креативность AI влияет температура — гиперпараметр, регулирующий уровень случайности в выборе слов моделью. Чем выше температура, тем с большей вероятностью модель выберет менее предсказуемый вариант ответа. Это повышает креативность текста, но увеличивает риск возникновения ошибок или галлюцинаций. Чем ниже температура (ближе к 0), тем более предсказуемыми и менее разнообразными будут ответы модели.
Стандартно у больших языковых моделей (LLM) температура зафиксирована в значении 1. Такое значение помогает AI отлично справляться с творческими запросами, где важно разнообразие и нестандартные решения. Но при выполнении юридических задач важна точность, а не креативность. Поэтому высокая температура приводит к ошибкам.
Эксперимент: пробуем разные промпты и значения температуры
Я решила протестировать, как разные значения температуры и инструкции в промптах влияют на способность модели находить релевантную судебную практику. Все результаты я фиксировала, а в эту статью добавила самые яркие примеры и общие выводы.
В эксперименте использовались одинаковые запросы, связанные с судебной практикой по банкротству, но разные значения температуры (0,85 и 1). Это позволило проверить, как модель справляется с задачей при различных условиях.
Пример 1: Найти практику, связанную с торгами в исполнительном производстве
Около правильных актов стоит ✅, а около неправильных — ❌
При температуре 1 AI галлюцинирует, а при 0,85 — честно признается, что не знает ответа
Пример 2: Найти практику, где акт взаимозачета признали недействительной сделкой
Около правильных актов стоит ✅, не совсем корректные отмечены 🟡, а неправильные — ❌
Пример 3: Найти практику, где суды отказались признать одностороннюю сделку недействительной
Около правильных актов стоит ✅, а около неправильных — ❌
Пример 4: Найти практику об оспаривании отказа от наследства
❌ отмечены реально существующие акты, содержание которых AI при этом выдумал.
Важна не только температура AI
По итогам четырех примеров результаты были такими:
Последний кейс подсветил еще один важный момент, который нужно учитывать для снижения галлюцинаций искусственного интеллекта. Дело не только в температуре, но и в алгоритме поиска. Модель, даже с пониженной температурой, продолжала искать ответ даже в тех случаях, когда релевантной практики не было. И генерировала ответ, исходя из предположений.
Научили AI говорить «я не знаю»
В алгоритме AI не было инструкции остановить его прохождение и не генерировать ответ. Чтобы устранить проблему, я дала модели инструкцию остановить поиск практики и дать ответ «ничего не найдено, извините», если при первых попытках полностью соответствующий критериям поиска акт не был найден. А затем в исследовании «Survey of Hallucination in Natural Language Generation» (2023) я нашла подобную рекомендацию для исключения галлюцинаций: «Additionally, the model needs to reject generation when insufficient information is given».
После того как я изменила инструкцию и еще несколько раз попробовала разные промпты по поиску судебной практикки, результаты стали такими:
Как повысить точность ответов: ключевые рекомендации
Результаты тестирования ясно показали, что повышение температуры даже до стандартного значения 1 значительно увеличивает количество галлюцинаций. При температуре 0,85 модель была менее креативной, но выдавала более точные ответы, без ошибок и выдуманных данных. Особенно это было заметно на комплексных и непростых запросах, где модель пыталась дополнить недостающие данные.
Соответственно можно выделить несколько важных рекомендаций для снижения количества галлюцинаций:
Очистить базы данных
Использование чистой базы данных без обобщенных материалов также снижает риск галлюцинаций.
Запретить придумывать судебные акты
Для того чтобы AI не создавал комбинацию из цифр для создания номера дела и номера судебного акта, достаточно запретить ему ее создавать.
Контролировать температуру
Для юридических задач рекомендуется использовать температуру в диапазоне 0,7–0,85, так как это снижает риск галлюцинаций и повышает точность ответов.
Давать четкие инструкции
Чтобы получить корректный результат, нужно составить исчерпывающий запрос. Например, если подходящей судебной практики нет, нужно просить модель прямо об этом сообщить, а не пытаться сгенерировать ответ на основе предположений.
Как результаты эксперимента улучшат работу AI-ассистентов?
Эксперимент нужно еще много раз повторить, чтобы доказать устойчивость его результатов. Но подобные тесты показывают, что можно существенно снизить количество галлюцинаций AI, если правильно настроить температуру, дать четкие инструкции в промпте и тщательно поработать с данными.
Теперь можно с уверенностью сказать, что поиск судебной практики по оспариванию сделок в банкротстве станет значительно проще с будущим AI-ассистентом. Я планирую использовать результаты эксперимента для того, чтобы обучить ассистента давать максимально точные ответы, которым можно доверять. Релиз будет к концу года, следите за новостями Doczilla Pro.
А еще я надеюсь, что мой опыт поможет пользователям и специалистам, создающим AI-ассистентов, улучшить качество работы искусственного интеллекта с юридическими задачами и минимизировать риски, связанные с галлюцинациями.
Применение Doczilla
Читайте также