Doczilla позволит
Полностью исключить простые ошибки;
Ускорить подготовку документов в 10 раз;
Избавиться от рутины и перепроверок;
Забыть про неактуальные шаблоны;

Правовой IQ-тест для искусственного интеллекта: проверяем границы знаний

20.05.2025

Правовой IQ-тест для искусственного интеллекта: проверяем границы знаний

20.05.2025
Искусственный интеллект (ИИ) стал неотъемлемой частью всех сфер жизни, включая юриспруденцию. Мы решили провести эксперимент, в рамках которого составили сетап из юридических вопросов разной степени сложности и задали их каждой из доступных нам моделей ИИ. Такой бенчмарк стал нашим первым собственным исследованием возможностей языковых моделей в правовой области.

Основная цель — сравнить различные модели ИИ, в том числе разных поколений, и определить их практическую ценность для юридической практики в рамках Doczilla. Результаты эксперимента будут использованы для дальнейшего развития и совершенствования наших продуктов.

Исследование не претендует на статистическую объективность и предназначено исключительно для внутреннего использования в нашем проекте. Кроме того, оно не направлено на оценку этических, юридических или социальных последствий использования ИИ.

Как устроен тест
50 вопросов разной сложности:
От тестовых заданий для студентов юрфака до анализа противоречивых норм права и реальных юридических прецедентов из практики юриста. При выборе вопросов мы стремились охватить самый широкий спектр юридических задач, чтобы оценить возможности ИИ в различных сценариях. Отобрали вопросы, которые отвечали требованиям: разнообразие отраслей права, практическая значимость, противоречивость применяемых норм права, необходимость юридического опыта работы для ответа на вопрос.
Каждый кейс проверяет:
  • Умение ИИ отвечать правильно.
  • Наличие и точность ссылок на статьи законов и первоисточники.
  • Способность сделать правильный вывод из найденной информации.
  • Интерпретацию закона при противоречии формальных норм и реальных прецедентов.
  • Способен ли ИИ выделить ключевые факторы вопроса из объёма неструктурированных данных.
Так выглядит бенчмарк-таблица с ответами от ИИ:

Методика оценки

Бенчмарк — это контрольная задача, нужная для определения характеристик производительности системы.

Методология, используемая в нашем исследовании, может не полностью соответствовать общепринятым стандартам, поскольку её выбор был обусловлен нашим ежедневным опытом работы юриста с ИИ и конкретными задачами, которые он призван решать.

Что сделано

  • 11 моделей ИИ — протестировали в рамках бенчмарка;
  • 50 вопросов — поочерёдно задавали каждой из них;
  • 2 этапа оценки использовали для составления рейтинга.

Первый этап оценки

  • За правильный, обоснованный, структурированный и полный ответ на каждый из 50 вопросов ИИ-модель получала +1 балл, а за неправильный — 1 балл.
  • Отдельные ответы хотелось отметить пятёркой с плюсом, что мы и делали — так ИИ получал +1 дополнительный балл.
  • Каждая ИИ-модель при тестировании максимально могла бы набрать 50 баллов, просто ответив правильно на все вопросы, и 100 баллов, если бы каждый ответ получил от нас наивысшую отметку. Максимальный балл за первый этап — 100 (50 базовых + 50 дополнительных за высшую оценку).

Важно

  • Для чистоты эксперимента мы сознательно не использовали какие-либо промпты.
  • Все вопросы были заданы естественным языком.
  • Каждый вопрос был задан нейросети автоматическим способом, только один раз, без диалогов и итераций.
  • По итогам обработки мы автоматически получили таблицу с ответами в формате markdown.
  • Результаты носят экспериментальный характер и могут быть пересмотрены по мере развития технологий.

Второй этап оценки

Для подтверждения объективности методики оценки на первом этапе мы поставили специальные баллы за решение нейросетями практических задач:
  • глубину ответа (вопросы с «подвопросом»);
  • 2 задания на цитирование закона — пункты из ГПК и НК РФ;
  • создание юридического документа — претензии и заявления в Росреестр;
  • знание обновлений в законодательстве — спросили про мораторий на неустойку по ДДУ в 2025 году.

Первый этап оценки ИИ-моделей

Правильные ответы

Анализ показал, что модели ИИ в 85% случаев давали корректные и обоснованные ответы. В таблице они отмечены зелёным цветом.


Правильными ответами мы считали ответы с такими характеристиками:

  • Правильность ответа непосредственно по существу вопроса.
  • Точность ответа. Некоторые модели ИИ активно ссылались на актуальные законы и статьи, предоставляли полные данные, в том числе исключения, особые обстоятельства и поправки, которые соответствовали действительности, а вот другие ограничивались размытыми формулировками. Таких ответов, по нашим оценкам, было около 37%.
  • Логическая структура. Ответы, которые были логично структурированы, содержали чёткие аргументы и последовательное изложение мысли, позволяли легко понять суть вопроса и его решения, следить за логикой рассуждения.
  • Обоснование ответов. Модели ИИ, которые приводили ссылки на нормативно-правовые акты, демонстрировали более высокий уровень надёжности. Такие ответы не только отвечали на вопрос, но и давали возможность пользователю самостоятельно углубиться в тему и быть уверенным, что сгенерированный контент от ИИ не является произвольным толкованием имеющихся у сети данных.
Правильный ответ от Perplexity не только красиво выглядит и правильный по сути, но и содержит ссылки и расчёты, подсказывает пользователю возможность применения налогового вычета (другие ИИ-модели «забыли» об этом):

Неправильные ответы

Неправильные ответы от ИИ тоже были, в таблице они выделены розовым цветом. Их можно охарактеризовать так:

  • Фактические ошибки: некоторые ИИ генерировали ответы, содержащие вымышленные судебные решения или неверные ссылки на законы. Это могло ввести в заблуждение пользователей и привести к неправильным выводам. ИИ неправильно применял законы или статьи или вовсе не применял их, что привело к ошибкам.
  • Поверхностный анализ: в случаях, когда вопросы имели подтекст или требовали глубокого и системного анализа, нейросети давали очень поверхностные ответы, без учёта вариативности, из-за чего ответ нельзя засчитать как правильный.

Чтобы поставить KPI качественно, используйте методику SMART. Это значит, что цель должна быть:

Например, в вопросе о решении о выплате дивидендов Claude отделался общими фразами и указал, что единственной возможной формой принятия решения может быть совет директоров и АО, тогда как в правильном ответе должно быть указано и решение вопроса для ООО.
Обоснование ответов
Ключевым критерием оценки ответов ИИ стала обоснованность. Одни модели ограничивались краткими выводами без пояснений, в таблице они выделены жёлтым цветом, при условии, что сам ответ был правильным, в то время как другие нейросети подкрепляли свои ответы ссылками на первоисточники.

В юриспруденции наличие ссылок на нормативно-правовые акты является обязательным. Без этого утверждения от ИИ выглядят голословно и подрывают доверие пользователя к ответу.

Объём ответов также существенно различался: одни ИИ предоставляли лаконичные ответы в один абзац, другие генерировали объёмные тексты с цепочкой на тот же вопрос.

Пользователи не могут проверить достоверность информации, что снижает доверие к таким ответам на юридические вопросы и выглядит непрофессионально.

GigaChat обосновал свой правильный ответ на вопрос о защите права на доменное имя:

Ошибки генерации («галлюцинации»)

Не обошлось и без знаменитых «галлюцинаций» — ситуаций, когда ИИ при генерации контента даёт вымышленные факты или данные. В процессе анализа были замечены:

  • Вымышленные судебные акты. Некоторые ИИ генерировали несуществующие решения судов и указывали их номера в виде 12345/67 либо давали ссылку на решение суда, которое существует, но не имеет никакого отношения к вопросу.
  • Вымышленные статьи и номера нормативно-правовых актов.

Приведённые DeepSeek постановления не удалось обнаружить в судебной практике, по всей видимости, их просто не существует:

Перепутанные номера статей законов: ссылки на статьи законов были неверными или не соответствовали действительности.

Из-за ошибки в номере закона порой трудно понять, «что хотел сказать автор»:

*DeepSeek, вероятно, имел в виду право на забвение и ФЗ от 27 июля 2006 года № 149-ФЗ «Об информации, информационных технологиях и о защите информации».

Второй этап оценки ИИ-моделей

На втором этапе оценки мы анализировали отдельные качественные характеристики ИИ, необходимые для работы юриста: по каждой из них субъективно выставлялись баллы. Оценивались следующие  4 характеристики: глубина ответа, цитирование, создание документа, проверка знаний актуальности данных.

Глубина ответа
Глубина ответа оказалась особенно важным параметром оценки. Некоторые ИИ выдавали краткие ответы, не учитывая возможные вариации, исключения и нюансы, которые критически важны в юридической практике и для пользователя.

Другие же, напротив, демонстрировали глубокий анализ, предоставляя полные и развёрнутые объёмные ответы, охватывающие различные сценарии и правовые последствия.

Например, только некоторые ИИ «вспомнили», что помимо простого вычисления НДФЛ при продаже участка может быть применён вычет или что для провайдеров хостинга есть отдельный реестр в РКН, а не только реестр операторов персональных данных.

Оценивали этот параметр по пятибалльной шкале.

Например, ответ DeepSeek на сложный вопрос о необходимости IT-компании регистрироваться в качестве провайдера хостинга:

Цитирование
Ещё одна, пока ещё не решённая проблема использования ИИ в юриспруденции — это цитирование законов. Если некоторые модели ИИ в ответ на запрос о цитате сразу сообщили нам, что они не могут предоставить текст закона, то другие его предоставляли, но… не тот текст, который был в вопросе.

Третьи отвечали правильно, но ответы сводились к вольному пересказу содержания статьи. Кроме того, не справлялись модели с нумерацией пунктов статьи: меняли их на маркированный список, вовсе удаляли из текста.

Практически для всех ИИ-моделей непреодолимым препятствием стал НК РФ — нейронки упорно не видят пункты вида 1.1, 2.1. в статьях кодекса. 
Из-за особенностей нумерации статей и их объёма в алгоритме ИИ сбивается вся нумерация и они… просто не упоминают этот пункт или не видят статью.

При решении этой задачи нашлись и «отличники», правильно ответившие нужной цитатой. Оценили их по пятибалльной шкале.

Вопрос в том, смогут ли они повторить этот приём при повторной итерации.

С одной стороны, качество при цитировании всё ещё остаётся неудовлетворительным, с другой стороны, есть лайфхаки для юристов и AI-тренеров, как добиться более качественных результатов, но это тема совсем другой статьи и тест-кейса.

Некоторые ИИ-модели отказываются цитировать:

Другие хитрят:

Третьи выдают вольный пересказ без нумерации за цитату из кодекса:

Ассистент Doczilla справился с заданием на «5+», но… судя по ссылке, нашёл цитату не в первоисточнике:

Создание документов
Сгенерированные ИИ документы могут содержать неточности, упущения или не соответствовать специфике конкретной ситуации.

Необходимо тщательно проверять и редактировать документы, созданные нейросетью, чтобы обеспечить их юридическую корректность, а лучше научить нейросеть, как сделать правильно, приложив образец.

Использование нейросетей в создании юридических документов повышает скорость и эффективность работы юриста, но не заменяет его умения, опыт и ответственность за результат.

В нашем тест-кейсе ИИ создавал 2 документа: претензию и заявление в Росреестр о снижении кадастровой стоимости. Именно эти документы были выбраны неслучайно — с одной стороны, они не такие объёмные, как, например, договор или иск, с другой стороны, содержат мотивировочную и просительную часть, реквизиты, что позволяет объективно оценить качество сгенерированного нейросетью контента и её производительность.

На первый взгляд, все ИИ справились на «отлично», но если присмотреться, то мы видим, что некоторые ИИ-сети по умолчанию посчитали, что заявление подаёт физическое лицо, не предусмотрели, что заявление может быть подано и от имени корпорации:

При составлении документа некоторые модели ИИ не забывали и о ссылках на НПА:

С этой задачей все модели справились, однако мы дополнительно оценили баллами вариативность документа (подходит ли он не только для физического лица, но и для юридического, например), а также обоснованность, структуру документа.

Актуальность законов
Ещё одно слабое звено в бесконечных петабайтах знаний ИИ — его самоидентификация во времени и законе.

Мы и наши клиенты заметили, что ИИ-модели теряются и воспринимают себя примерно в октябре 2023 года или июне 2024 года (определённую дату окончания обучающего набора данных), а за актуальными данными отправляют нас в информационно-правовые системы.

Кроме того, для алгоритмов ИИ-моделей тексты закона, подзаконного акта, комментария или статьи журналиста имеют примерно одну и ту же ценность, таким образом, в обоснование ответа могут быть занесены непроверенные и/или нерелевантные данные.

ИИ-модели могут анализировать и обрабатывать большие массивы данных, но они не способны самостоятельно устанавливать иерархию источников без предварительной настройки или инструкций, промпта.

ИИ может помочь в автоматизации технических функций, таких как исправление ошибок и проверка комплектности документов, при этом принятие решений о значимости и релевантности источников информации всё ещё требует деятельного человеческого участия.

«Машина времени» от Open AI:

Qwen совсем немного отстаёт от актуальных данных:

DeepSeek пишет огромный, правильный, развёрнутый ответ о неустойке, но… основанный на неактуальных данных:

Лишь ассистент Doczilla и модели Perplexity, Yandex 5 Pro справились с заданием:

Вопрос о проверке обновлений в законе оказался сложным для большинства моделей, участвующих в тесте, а ведь актуальность и действие закона во времени — краеугольный камень в работе юриста.

Этот параметр нуждается в отдельном исследовании, ведь разработчики и не скрывают, что знания модели ограничены определённым сроком, поэтому пока мы его оценили просто как 0 или 1.

Итоговая оценка

Оценки первого этапа
Рейтинг ИИ-моделей* в области права сложился из суммы баллов, набранных каждой моделью суммарно по двум этапам.

Лидером первого этапа стала модель Perplexity Sonar Pro с 64 баллами. Её же версия Perplexity Sonar — 52 балла, DeepSeek — 50 баллов.

Ассистенты Doczilla заняли почётное 7 место, хотя по правильным ответам они превзошли DeepSeek и Perplexity: sonar.

Нельзя не отметить новую OpenAI GPT 4.1 mini, модель гораздо больше приспособлена к решению правовых вопросов, чем её устаревшие предшественники.

Антирейтинг возглавила как раз такая, устаревшая к моменту публикации обзора, модель OpenAI GPT 4o — всего 22 балла.


*Результаты нашего исследования ни в коем случае не являются рекомендацией или рекламой какой-либо из моделей ИИ.

Оценки второго этапа
И на втором этапе снова лидер — Perplexity Sonar Pro с 16 баллами, а на втором месте ассистенты Doczilla. Не хуже результаты и у YandexGPT 5 Pro, Qwen Max и GPT 4o.

По второму этапу в отстающих модель GigaChat. Возможно, у неё просто есть ограничения на генерацию правового контента, ждём новых релизов.

*Когда мы упоминаем эффективность ИИ, мы понимаем, что этот показатель носит ориентировочный характер, нет никаких гарантий аналогичных результатов при повторной итерации.
Итоговый рейтинг

Результаты итогового рейтинга представлены в таблице:
Рейтинг даёт общее представление о производительности ИИ-моделей в области юриспруденции в рамках нашего тест-кейса на сегодняшний день, но не является окончательным «приговором» для какой-либо модели, так как качественные ответы и применение ИИ в работе юриста зависят и от мастерства владения промптингом, и от качества итерационных вариантов ответов моделей, и, в наивысшей степени, от экспертности и профессиональных навыков самого пользователя.
Наши выводы основаны на ограниченном наборе данных и очень субъективном анализе, а полученные результаты не отражают математическую точность в оценках.

Заключение


Наш эксперимент подтвердил, что разные модели ИИ могут быть использованы для решения различных задач. Несмотря на то что исследование проводилось исключительно для внутреннего использования и оптимизации функционала продукта Doczillа, а результаты не претендуют на универсальность или научную объективность, очевидно, что для работы юриста особенно важен выбор конкретной модели или комбинации разных ИИ-моделей.

Модельный ряд непрерывно расширяется, а вычислительная мощность и функциональность ИИ моделей возрастают.

Новые и старые модели ИИ не следует оценивать как «плохие» или «хорошие», поскольку каждая из них имеет свои уникальные характеристики и области применения. Каждая модель имеет свои преимущества и недостатки.

Модели, работающие с интернетом, могут обеспечить более актуальную информацию, но они также и могут быть более уязвимы к ошибкам и дезинформации.

«Автономные» модели (без доступа к интернету или ко вспомогательным материалам), хотя и лишены возможности обновления в режиме реального времени, обеспечивают высокий уровень безопасности и стабильности. Таким образом, выбор между новыми и старыми моделями ИИ, а также между моделями, работающими с интернетом и без него, зависит от конкретных требований и целей использования.

ИИ демонстрирует такие преимущества, как ускорение поиска базовых прецедентов и снижение ошибок в документах.

Основной вывод исследования заключается в том, что ИИ — это мощный вспомогательный инструмент в руках эксперта, но не замена критического мышления и профессионального опыта юриста.

Ключевые выводы

  • Разнообразие качества ответов. Модели ИИ значительно различаются в точности, структурированности и глубине анализа правовых вопросов. Лидеры тестирования продемонстрировали высокую способность к детальному анализу даже без дополнительных подсказок, тогда как менее успешные модели допускали грубые ошибки или предоставляли поверхностные ответы.
  • Необходимость проверки. Неправильные ответы ИИ могут иметь серьёзные последствия для юридической практики, влияя на принятие решений как клиентами, так и юристами. Это подчёркивает важность тщательной проверки информации, предоставляемой системами искусственного интеллекта, прежде чем использовать её в реальных случаях.
  • Сильные стороны ИИ. Искусственный интеллект эффективен в быстрой обработке больших объёмов данных, выявлении технических ошибок и генерации качественного контента. Однако он ограничен в оценке сложных человеческих факторов, таких как личные связи участников спора или подводные камни в формулировках законов.
  • Ограничения ИИ. Модели часто пропускают нюансы из-за буквальной интерпретации законов и могут воспроизводить предвзятые паттерны, заложенные в процессе обучения. Это делает их ненадёжными при оценке неочевидных рисков и человеческого контекста.
  • Роль юриста. Юристам следует рассматривать ИИ как помощника, а не как единственный источник информации. Его ценность заключается в быстроте и качестве первичной генерации данных, но окончательное решение всегда должно приниматься человеком с учётом комплексного анализа ситуации. Искусственный интеллект трансформируется в мощный профессиональный акселератор, однако принципиально не способен заместить экспертный анализ, юридический опыт, интуицию и этический выбор специалиста. Технологии призваны усиливать, а не подменять человеческую экспертную область.
Для успешного использования ИИ в юриспруденции необходимо сочетать его технологические возможности с опытом и знаниями человека. 

Юристы должны рассматривать ИИ как вспомогательный инструмент, а не как замену своему опыту.

Будущее за теми, кто научится эффективно работать с ИИ, сохраняя при этом человеческий фактор как ключевой элемент юридической практики.
Все наши выводы касаются исключительно целесообразности интеграции различных ИИ-моделей в продукт Doczilla.

Практические рекомендации

  • Для специалистов по ИИ данный анализ представляет собой инструмент для оценки возможностей различных моделей и выбора наиболее подходящих для конкретных задач.
  • Для юристов это наглядный пример текущего уровня развития технологий в правовой области, который помогает осознать необходимость сочетания автоматизации с профессиональным опытом.
  • Улучшению качества сгенерированного контента помогает промптинг и диалоги («цепочка мыслей»).
  • Стабильность в качестве ответов от ИИ напрямую зависит от RAG-моделей, а будущее за ИИ-агентами.

Что может современный ИИ для юриста

  • Анализ и проверка документов — можно проверить проект документа либо быстро найти только выводы и тезисы, которые имеют значение для юриста.
  • Создание правовых документов — ИИ в считаные секунды создаст проект, канву будущего документа, который останется доработать при помощи собственной экспертности, не тратя время на второстепенные задачи.
  • Применение законов к конкретным ситуациям — поможет дать полный и системный ответ по ситуации, подсветить все аспекты по заданному вопросу, в том числе как элемент самопроверки.
  • Юридические заключения и консультации — ИИ быстро составляет как минимум стандартную часть юридического заключения со ссылками на законы, выводами и рекомендациями.

* Компания не несет ответственности за интерпретацию или использование данных вне контекста заявленного продукта

Обновлено

Развитие ИИ-моделей происходит стремительными темпами: только пока мы готовили эту статью, уже вышли новые модели, при этом каждая новая версия превосходит предыдущую по своим возможностям. 
С момента проведения нашего исследования на рынке появились новые игроки, среди которых особенно выделяются YandexGPT 5 Pro и GPT 4.1 mini. Модели продемонстрировали впечатляющие результаты в работе с юридическими задачами: 
  • качественно генерируют документы; 
  • корректно цитируют нормативно-правовые акты;
  • показывают глубокое понимание правовых нюансов. 
При тестировании аналогичных задач новая версия Яндекса значительно превзошла предыдущую и показала результаты, сопоставимые с лидерами рынка.
Интересным дополнением стал запуск специализированного решения от Гаранта — Искра Гарант AI. 
Несмотря на то что система показала себя как полезный инструмент для базовых юридических задач, её производительность оказалась ниже наших ожиданий. 
Модель справляется с простыми запросами, но при работе с комплексными правовыми вопросами, каких большинство у пользователей-юристов, она демонстрирует существенные ограничения — например, использует список «Вопрос-ответ собственной горячей линии» вместо первоисточников. Тем не менее наличие прямой интеграции с актуальной базой нормативно-правовых актов является её существенным преимуществом.
Наши ожидания были связаны и с базой судебной практики, которая есть у Гаранта, но пока «Искра» к ней не подключена. 
Будем надеяться на дальнейшие доработки и более интересный продукт от Гаранта.
  • Ускорить подготовку документов в 10 раз
  • Полностью исключить простые ошибки
  • Забыть про неактуальные шаблоны
  • Избавиться от рутины и перепроверок

Читайте также