Правовой IQ-тест для искусственного интеллекта: проверяем границы знаний
Правовой IQ-тест для искусственного интеллекта: проверяем границы знаний
Исследование не претендует на статистическую объективность и предназначено исключительно для внутреннего использования в нашем проекте. Кроме того, оно не направлено на оценку этических, юридических или социальных последствий использования ИИ.
Методика оценки
Что сделано
Первый этап оценки
Важно
Второй этап оценки
Первый этап оценки ИИ-моделей
Анализ показал, что модели ИИ в 85% случаев давали корректные и обоснованные ответы. В таблице они отмечены зелёным цветом.
Правильными ответами мы считали ответы с такими характеристиками:
Неправильные ответы
Неправильные ответы от ИИ тоже были, в таблице они выделены розовым цветом. Их можно охарактеризовать так:
Чтобы поставить KPI качественно, используйте методику SMART. Это значит, что цель должна быть:
Ошибки генерации («галлюцинации»)
Не обошлось и без знаменитых «галлюцинаций» — ситуаций, когда ИИ при генерации контента даёт вымышленные факты или данные. В процессе анализа были замечены:
Приведённые DeepSeek постановления не удалось обнаружить в судебной практике, по всей видимости, их просто не существует:
Перепутанные номера статей законов: ссылки на статьи законов были неверными или не соответствовали действительности.
Из-за ошибки в номере закона порой трудно понять, «что хотел сказать автор»:
*DeepSeek, вероятно, имел в виду право на забвение и ФЗ от 27 июля 2006 года № 149-ФЗ «Об информации, информационных технологиях и о защите информации».
Второй этап оценки ИИ-моделей
На втором этапе оценки мы анализировали отдельные качественные характеристики ИИ, необходимые для работы юриста: по каждой из них субъективно выставлялись баллы. Оценивались следующие 4 характеристики: глубина ответа, цитирование, создание документа, проверка знаний актуальности данных.
Например, ответ DeepSeek на сложный вопрос о необходимости IT-компании регистрироваться в качестве провайдера хостинга:
С одной стороны, качество при цитировании всё ещё остаётся неудовлетворительным, с другой стороны, есть лайфхаки для юристов и AI-тренеров, как добиться более качественных результатов, но это тема совсем другой статьи и тест-кейса.
Некоторые ИИ-модели отказываются цитировать:
Другие хитрят:
Третьи выдают вольный пересказ без нумерации за цитату из кодекса:
Ассистент Doczilla справился с заданием на «5+», но… судя по ссылке, нашёл цитату не в первоисточнике:
На первый взгляд, все ИИ справились на «отлично», но если присмотреться, то мы видим, что некоторые ИИ-сети по умолчанию посчитали, что заявление подаёт физическое лицо, не предусмотрели, что заявление может быть подано и от имени корпорации:
При составлении документа некоторые модели ИИ не забывали и о ссылках на НПА:
С этой задачей все модели справились, однако мы дополнительно оценили баллами вариативность документа (подходит ли он не только для физического лица, но и для юридического, например), а также обоснованность, структуру документа.
ИИ может помочь в автоматизации технических функций, таких как исправление ошибок и проверка комплектности документов, при этом принятие решений о значимости и релевантности источников информации всё ещё требует деятельного человеческого участия.
«Машина времени» от Open AI:
Qwen совсем немного отстаёт от актуальных данных:
DeepSeek пишет огромный, правильный, развёрнутый ответ о неустойке, но… основанный на неактуальных данных:
Лишь ассистент Doczilla и модели Perplexity, Yandex 5 Pro справились с заданием:
Вопрос о проверке обновлений в законе оказался сложным для большинства моделей, участвующих в тесте, а ведь актуальность и действие закона во времени — краеугольный камень в работе юриста.
Этот параметр нуждается в отдельном исследовании, ведь разработчики и не скрывают, что знания модели ограничены определённым сроком, поэтому пока мы его оценили просто как 0 или 1.
Итоговая оценка
Антирейтинг возглавила как раз такая, устаревшая к моменту публикации обзора, модель OpenAI GPT 4o — всего 22 балла.
*Результаты нашего исследования ни в коем случае не являются рекомендацией или рекламой какой-либо из моделей ИИ.
Заключение
Ключевые выводы
Юристы должны рассматривать ИИ как вспомогательный инструмент, а не как замену своему опыту.
Практические рекомендации
Что может современный ИИ для юриста
* Компания не несет ответственности за интерпретацию или использование данных вне контекста заявленного продукта
Обновлено
Читайте также