Copy of Руководителю юрдепа: как построить систему, в которой команда приносит результат

Doczilla позволит

Запросить демо

Полностью исключить простые ошибки;

Ускорить подготовку документов в 10 раз;

Избавиться от рутины и перепроверок;

Забыть про неактуальные шаблоны;

Правовой IQ-тест для искусственного интеллекта: проверяем границы знаний

20.05.2025

Правовой IQ-тест для искусственного интеллекта: проверяем границы знаний

20.05.2025

Искусственный интеллект (ИИ) стал неотъемлемой частью всех сфер жизни, включая юриспруденцию. Мы решили провести эксперимент, в рамках которого составили сетап из юридических вопросов разной степени сложности и задали их каждой из доступных нам моделей ИИ. Такой бенчмарк стал нашим первым собственным исследованием возможностей языковых моделей в правовой области.

Основная цель — сравнить различные модели ИИ, в том числе разных поколений, и определить их практическую ценность для юридической практики в рамках Doczilla. Результаты эксперимента будут использованы для дальнейшего развития и совершенствования наших продуктов.

Исследование не претендует на статистическую объективность и предназначено исключительно для внутреннего использования в нашем проекте. Кроме того, оно не направлено на оценку этических, юридических или социальных последствий использования ИИ.

Как устроен тест
50 вопросов разной сложности:
От тестовых заданий для студентов юрфака до анализа противоречивых норм права и реальных юридических прецедентов из практики юриста. При выборе вопросов мы стремились охватить самый широкий спектр юридических задач, чтобы оценить возможности ИИ в различных сценариях. Отобрали вопросы, которые отвечали требованиям: разнообразие отраслей права, практическая значимость, противоречивость применяемых норм права, необходимость юридического опыта работы для ответа на вопрос.

Каждый кейс проверяет:

Умение ИИ отвечать правильно.
Наличие и точность ссылок на статьи законов и первоисточники.
Способность сделать правильный вывод из найденной информации.
Интерпретацию закона при противоречии формальных норм и реальных прецедентов.
Способен ли ИИ выделить ключевые факторы вопроса из объёма неструктурированных данных.

Так выглядит бенчмарк-таблица с ответами от ИИ:

Методика оценки

Бенчмарк — это контрольная задача, нужная для определения характеристик производительности системы.

Методология, используемая в нашем исследовании, может не полностью соответствовать общепринятым стандартам, поскольку её выбор был обусловлен нашим ежедневным опытом работы юриста с ИИ и конкретными задачами, которые он призван решать.

Что сделано

11 моделей ИИ — протестировали в рамках бенчмарка;

50 вопросов — поочерёдно задавали каждой из них;

2 этапа оценки использовали для составления рейтинга.

Первый этап оценки

За правильный, обоснованный, структурированный и полный ответ на каждый из 50 вопросов ИИ-модель получала +1 балл, а за неправильный — 1 балл.

Отдельные ответы хотелось отметить пятёркой с плюсом, что мы и делали — так ИИ получал +1 дополнительный балл.

Каждая ИИ-модель при тестировании максимально могла бы набрать 50 баллов, просто ответив правильно на все вопросы, и 100 баллов, если бы каждый ответ получил от нас наивысшую отметку. Максимальный балл за первый этап — 100 (50 базовых + 50 дополнительных за высшую оценку).

Важно

Для чистоты эксперимента мы сознательно не использовали какие-либо промпты.

Все вопросы были заданы естественным языком.

Каждый вопрос был задан нейросети автоматическим способом, только один раз, без диалогов и итераций.

По итогам обработки мы автоматически получили таблицу с ответами в формате markdown.

Результаты носят экспериментальный характер и могут быть пересмотрены по мере развития технологий.

Второй этап оценки

Для подтверждения объективности методики оценки на первом этапе мы поставили специальные баллы за решение нейросетями практических задач:

глубину ответа (вопросы с «подвопросом»);

2 задания на цитирование закона — пункты из ГПК и НК РФ;

создание юридического документа — претензии и заявления в Росреестр;

знание обновлений в законодательстве — спросили про мораторий на неустойку по ДДУ в 2025 году.

Первый этап оценки ИИ-моделей

Правильные ответы

Анализ показал, что модели ИИ в 85% случаев давали корректные и обоснованные ответы. В таблице они отмечены зелёным цветом.

Правильными ответами мы считали ответы с такими характеристиками:

Правильность ответа непосредственно по существу вопроса.

Точность ответа. Некоторые модели ИИ активно ссылались на актуальные законы и статьи, предоставляли полные данные, в том числе исключения, особые обстоятельства и поправки, которые соответствовали действительности, а вот другие ограничивались размытыми формулировками. Таких ответов, по нашим оценкам, было около 37%.

Логическая структура. Ответы, которые были логично структурированы, содержали чёткие аргументы и последовательное изложение мысли, позволяли легко понять суть вопроса и его решения, следить за логикой рассуждения.

Обоснование ответов. Модели ИИ, которые приводили ссылки на нормативно-правовые акты, демонстрировали более высокий уровень надёжности. Такие ответы не только отвечали на вопрос, но и давали возможность пользователю самостоятельно углубиться в тему и быть уверенным, что сгенерированный контент от ИИ не является произвольным толкованием имеющихся у сети данных.

Правильный ответ от Perplexity не только красиво выглядит и правильный по сути, но и содержит ссылки и расчёты, подсказывает пользователю возможность применения налогового вычета (другие ИИ-модели «забыли» об этом):

Неправильные ответы

Неправильные ответы от ИИ тоже были, в таблице они выделены розовым цветом. Их можно охарактеризовать так:

Фактические ошибки: некоторые ИИ генерировали ответы, содержащие вымышленные судебные решения или неверные ссылки на законы. Это могло ввести в заблуждение пользователей и привести к неправильным выводам. ИИ неправильно применял законы или статьи или вовсе не применял их, что привело к ошибкам.

Поверхностный анализ: в случаях, когда вопросы имели подтекст или требовали глубокого и системного анализа, нейросети давали очень поверхностные ответы, без учёта вариативности, из-за чего ответ нельзя засчитать как правильный.

Чтобы поставить KPI качественно, используйте методику SMART. Это значит, что цель должна быть:

Например, в вопросе о решении о выплате дивидендов Claude отделался общими фразами и указал, что единственной возможной формой принятия решения может быть совет директоров и АО, тогда как в правильном ответе должно быть указано и решение вопроса для ООО.

Обоснование ответов
Ключевым критерием оценки ответов ИИ стала обоснованность. Одни модели ограничивались краткими выводами без пояснений, в таблице они выделены жёлтым цветом, при условии, что сам ответ был правильным, в то время как другие нейросети подкрепляли свои ответы ссылками на первоисточники.

В юриспруденции наличие ссылок на нормативно-правовые акты является обязательным. Без этого утверждения от ИИ выглядят голословно и подрывают доверие пользователя к ответу.

Объём ответов также существенно различался: одни ИИ предоставляли лаконичные ответы в один абзац, другие генерировали объёмные тексты с цепочкой на тот же вопрос.

Пользователи не могут проверить достоверность информации, что снижает доверие к таким ответам на юридические вопросы и выглядит непрофессионально.

GigaChat обосновал свой правильный ответ на вопрос о защите права на доменное имя:

Ошибки генерации («галлюцинации»)

Не обошлось и без знаменитых «галлюцинаций» — ситуаций, когда ИИ при генерации контента даёт вымышленные факты или данные. В процессе анализа были замечены:

Вымышленные судебные акты. Некоторые ИИ генерировали несуществующие решения судов и указывали их номера в виде 12345/67 либо давали ссылку на решение суда, которое существует, но не имеет никакого отношения к вопросу.

Вымышленные статьи и номера нормативно-правовых актов.

Приведённые DeepSeek постановления не удалось обнаружить в судебной практике, по всей видимости, их просто не существует:

Перепутанные номера статей законов: ссылки на статьи законов были неверными или не соответствовали действительности.

Из-за ошибки в номере закона порой трудно понять, «что хотел сказать автор»:

*DeepSeek, вероятно, имел в виду право на забвение и ФЗ от 27 июля 2006 года № 149-ФЗ «Об информации, информационных технологиях и о защите информации».

Второй этап оценки ИИ-моделей

На втором этапе оценки мы анализировали отдельные качественные характеристики ИИ, необходимые для работы юриста: по каждой из них субъективно выставлялись баллы. Оценивались следующие 4 характеристики: глубина ответа, цитирование, создание документа, проверка знаний актуальности данных.

Глубина ответа
Глубина ответа оказалась особенно важным параметром оценки. Некоторые ИИ выдавали краткие ответы, не учитывая возможные вариации, исключения и нюансы, которые критически важны в юридической практике и для пользователя.

Другие же, напротив, демонстрировали глубокий анализ, предоставляя полные и развёрнутые объёмные ответы, охватывающие различные сценарии и правовые последствия.

Например, только некоторые ИИ «вспомнили», что помимо простого вычисления НДФЛ при продаже участка может быть применён вычет или что для провайдеров хостинга есть отдельный реестр в РКН, а не только реестр операторов персональных данных.

Оценивали этот параметр по пятибалльной шкале.

Например, ответ DeepSeek на сложный вопрос о необходимости IT-компании регистрироваться в качестве провайдера хостинга:

Цитирование
Ещё одна, пока ещё не решённая проблема использования ИИ в юриспруденции — это цитирование законов. Если некоторые модели ИИ в ответ на запрос о цитате сразу сообщили нам, что они не могут предоставить текст закона, то другие его предоставляли, но… не тот текст, который был в вопросе.

Третьи отвечали правильно, но ответы сводились к вольному пересказу содержания статьи. Кроме того, не справлялись модели с нумерацией пунктов статьи: меняли их на маркированный список, вовсе удаляли из текста.

Практически для всех ИИ-моделей непреодолимым препятствием стал НК РФ — нейронки упорно не видят пункты вида 1.1, 2.1. в статьях кодекса.
Из-за особенностей нумерации статей и их объёма в алгоритме ИИ сбивается вся нумерация и они… просто не упоминают этот пункт или не видят статью.

При решении этой задачи нашлись и «отличники», правильно ответившие нужной цитатой. Оценили их по пятибалльной шкале.

Вопрос в том, смогут ли они повторить этот приём при повторной итерации.

С одной стороны, качество при цитировании всё ещё остаётся неудовлетворительным, с другой стороны, есть лайфхаки для юристов и AI-тренеров, как добиться более качественных результатов, но это тема совсем другой статьи и тест-кейса.

Некоторые ИИ-модели отказываются цитировать:

Другие хитрят:

Третьи выдают вольный пересказ без нумерации за цитату из кодекса:

Ассистент Doczilla справился с заданием на «5+», но… судя по ссылке, нашёл цитату не в первоисточнике:

Создание документов
Сгенерированные ИИ документы могут содержать неточности, упущения или не соответствовать специфике конкретной ситуации.

Необходимо тщательно проверять и редактировать документы, созданные нейросетью, чтобы обеспечить их юридическую корректность, а лучше научить нейросеть, как сделать правильно, приложив образец.

Использование нейросетей в создании юридических документов повышает скорость и эффективность работы юриста, но не заменяет его умения, опыт и ответственность за результат.

В нашем тест-кейсе ИИ создавал 2 документа: претензию и заявление в Росреестр о снижении кадастровой стоимости. Именно эти документы были выбраны неслучайно — с одной стороны, они не такие объёмные, как, например, договор или иск, с другой стороны, содержат мотивировочную и просительную часть, реквизиты, что позволяет объективно оценить качество сгенерированного нейросетью контента и её производительность.

На первый взгляд, все ИИ справились на «отлично», но если присмотреться, то мы видим, что некоторые ИИ-сети по умолчанию посчитали, что заявление подаёт физическое лицо, не предусмотрели, что заявление может быть подано и от имени корпорации:

При составлении документа некоторые модели ИИ не забывали и о ссылках на НПА:

С этой задачей все модели справились, однако мы дополнительно оценили баллами вариативность документа (подходит ли он не только для физического лица, но и для юридического, например), а также обоснованность, структуру документа.

Актуальность законов
Ещё одно слабое звено в бесконечных петабайтах знаний ИИ — его самоидентификация во времени и законе.

Мы и наши клиенты заметили, что ИИ-модели теряются и воспринимают себя примерно в октябре 2023 года или июне 2024 года (определённую дату окончания обучающего набора данных), а за актуальными данными отправляют нас в информационно-правовые системы.

Кроме того, для алгоритмов ИИ-моделей тексты закона, подзаконного акта, комментария или статьи журналиста имеют примерно одну и ту же ценность, таким образом, в обоснование ответа могут быть занесены непроверенные и/или нерелевантные данные.

ИИ-модели могут анализировать и обрабатывать большие массивы данных, но они не способны самостоятельно устанавливать иерархию источников без предварительной настройки или инструкций, промпта.

ИИ может помочь в автоматизации технических функций, таких как исправление ошибок и проверка комплектности документов, при этом принятие решений о значимости и релевантности источников информации всё ещё требует деятельного человеческого участия.

«Машина времени» от Open AI:

Qwen совсем немного отстаёт от актуальных данных:

DeepSeek пишет огромный, правильный, развёрнутый ответ о неустойке, но… основанный на неактуальных данных:

Лишь ассистент Doczilla и модели Perplexity, Yandex 5 Pro справились с заданием:

Вопрос о проверке обновлений в законе оказался сложным для большинства моделей, участвующих в тесте, а ведь актуальность и действие закона во времени — краеугольный камень в работе юриста.

Этот параметр нуждается в отдельном исследовании, ведь разработчики и не скрывают, что знания модели ограничены определённым сроком, поэтому пока мы его оценили просто как 0 или 1.

Итоговая оценка

Оценки первого этапа
Рейтинг ИИ-моделей* в области права сложился из суммы баллов, набранных каждой моделью суммарно по двум этапам.

Лидером первого этапа стала модель Perplexity Sonar Pro с 64 баллами. Её же версия Perplexity Sonar — 52 балла, DeepSeek — 50 баллов.

Ассистенты Doczilla заняли почётное 7 место, хотя по правильным ответам они превзошли DeepSeek и Perplexity: sonar.

Нельзя не отметить новую OpenAI GPT 4.1 mini, модель гораздо больше приспособлена к решению правовых вопросов, чем её устаревшие предшественники.

Антирейтинг возглавила как раз такая, устаревшая к моменту публикации обзора, модель OpenAI GPT 4o — всего 22 балла.

*Результаты нашего исследования ни в коем случае не являются рекомендацией или рекламой какой-либо из моделей ИИ.

Оценки второго этапа
И на втором этапе снова лидер — Perplexity Sonar Pro с 16 баллами, а на втором месте ассистенты Doczilla. Не хуже результаты и у YandexGPT 5 Pro, Qwen Max и GPT 4o.

По второму этапу в отстающих модель GigaChat. Возможно, у неё просто есть ограничения на генерацию правового контента, ждём новых релизов.

*Когда мы упоминаем эффективность ИИ, мы понимаем, что этот показатель носит ориентировочный характер, нет никаких гарантий аналогичных результатов при повторной итерации.

Итоговый рейтинг

Результаты итогового рейтинга представлены в таблице:

Рейтинг даёт общее представление о производительности ИИ-моделей в области юриспруденции в рамках нашего тест-кейса на сегодняшний день, но не является окончательным «приговором» для какой-либо модели, так как качественные ответы и применение ИИ в работе юриста зависят и от мастерства владения промптингом, и от качества итерационных вариантов ответов моделей, и, в наивысшей степени, от экспертности и профессиональных навыков самого пользователя.
Наши выводы основаны на ограниченном наборе данных и очень субъективном анализе, а полученные результаты не отражают математическую точность в оценках.

Заключение

Наш эксперимент подтвердил, что разные модели ИИ могут быть использованы для решения различных задач. Несмотря на то что исследование проводилось исключительно для внутреннего использования и оптимизации функционала продукта Doczillа, а результаты не претендуют на универсальность или научную объективность, очевидно, что для работы юриста особенно важен выбор конкретной модели или комбинации разных ИИ-моделей.

Модельный ряд непрерывно расширяется, а вычислительная мощность и функциональность ИИ моделей возрастают.

Новые и старые модели ИИ не следует оценивать как «плохие» или «хорошие», поскольку каждая из них имеет свои уникальные характеристики и области применения. Каждая модель имеет свои преимущества и недостатки.

Модели, работающие с интернетом, могут обеспечить более актуальную информацию, но они также и могут быть более уязвимы к ошибкам и дезинформации.

«Автономные» модели (без доступа к интернету или ко вспомогательным материалам), хотя и лишены возможности обновления в режиме реального времени, обеспечивают высокий уровень безопасности и стабильности. Таким образом, выбор между новыми и старыми моделями ИИ, а также между моделями, работающими с интернетом и без него, зависит от конкретных требований и целей использования.

ИИ демонстрирует такие преимущества, как ускорение поиска базовых прецедентов и снижение ошибок в документах.

Основной вывод исследования заключается в том, что ИИ — это мощный вспомогательный инструмент в руках эксперта, но не замена критического мышления и профессионального опыта юриста.

Ключевые выводы

Разнообразие качества ответов. Модели ИИ значительно различаются в точности, структурированности и глубине анализа правовых вопросов. Лидеры тестирования продемонстрировали высокую способность к детальному анализу даже без дополнительных подсказок, тогда как менее успешные модели допускали грубые ошибки или предоставляли поверхностные ответы.

Необходимость проверки. Неправильные ответы ИИ могут иметь серьёзные последствия для юридической практики, влияя на принятие решений как клиентами, так и юристами. Это подчёркивает важность тщательной проверки информации, предоставляемой системами искусственного интеллекта, прежде чем использовать её в реальных случаях.

Сильные стороны ИИ. Искусственный интеллект эффективен в быстрой обработке больших объёмов данных, выявлении технических ошибок и генерации качественного контента. Однако он ограничен в оценке сложных человеческих факторов, таких как личные связи участников спора или подводные камни в формулировках законов.

Ограничения ИИ. Модели часто пропускают нюансы из-за буквальной интерпретации законов и могут воспроизводить предвзятые паттерны, заложенные в процессе обучения. Это делает их ненадёжными при оценке неочевидных рисков и человеческого контекста.

Роль юриста. Юристам следует рассматривать ИИ как помощника, а не как единственный источник информации. Его ценность заключается в быстроте и качестве первичной генерации данных, но окончательное решение всегда должно приниматься человеком с учётом комплексного анализа ситуации. Искусственный интеллект трансформируется в мощный профессиональный акселератор, однако принципиально не способен заместить экспертный анализ, юридический опыт, интуицию и этический выбор специалиста. Технологии призваны усиливать, а не подменять человеческую экспертную область.

Для успешного использования ИИ в юриспруденции необходимо сочетать его технологические возможности с опытом и знаниями человека.

Юристы должны рассматривать ИИ как вспомогательный инструмент, а не как замену своему опыту.

Будущее за теми, кто научится эффективно работать с ИИ, сохраняя при этом человеческий фактор как ключевой элемент юридической практики.
Все наши выводы касаются исключительно целесообразности интеграции различных ИИ-моделей в продукт Doczilla.

Практические рекомендации

Для специалистов по ИИ данный анализ представляет собой инструмент для оценки возможностей различных моделей и выбора наиболее подходящих для конкретных задач.

Для юристов это наглядный пример текущего уровня развития технологий в правовой области, который помогает осознать необходимость сочетания автоматизации с профессиональным опытом.

Улучшению качества сгенерированного контента помогает промптинг и диалоги («цепочка мыслей»).

Стабильность в качестве ответов от ИИ напрямую зависит от RAG-моделей, а будущее за ИИ-агентами.

Что может современный ИИ для юриста

Анализ и проверка документов — можно проверить проект документа либо быстро найти только выводы и тезисы, которые имеют значение для юриста.

Создание правовых документов — ИИ в считаные секунды создаст проект, канву будущего документа, который останется доработать при помощи собственной экспертности, не тратя время на второстепенные задачи.

Применение законов к конкретным ситуациям — поможет дать полный и системный ответ по ситуации, подсветить все аспекты по заданному вопросу, в том числе как элемент самопроверки.

Юридические заключения и консультации — ИИ быстро составляет как минимум стандартную часть юридического заключения со ссылками на законы, выводами и рекомендациями.

* Компания не несет ответственности за интерпретацию или использование данных вне контекста заявленного продукта

Обновлено

Развитие ИИ-моделей происходит стремительными темпами: только пока мы готовили эту статью, уже вышли новые модели, при этом каждая новая версия превосходит предыдущую по своим возможностям.
С момента проведения нашего исследования на рынке появились новые игроки, среди которых особенно выделяются YandexGPT 5 Pro и GPT 4.1 mini. Модели продемонстрировали впечатляющие результаты в работе с юридическими задачами:

качественно генерируют документы;
корректно цитируют нормативно-правовые акты;
показывают глубокое понимание правовых нюансов.

При тестировании аналогичных задач новая версия Яндекса значительно превзошла предыдущую и показала результаты, сопоставимые с лидерами рынка.
Интересным дополнением стал запуск специализированного решения от Гаранта — Искра Гарант AI.
Несмотря на то что система показала себя как полезный инструмент для базовых юридических задач, её производительность оказалась ниже наших ожиданий.
Модель справляется с простыми запросами, но при работе с комплексными правовыми вопросами, каких большинство у пользователей-юристов, она демонстрирует существенные ограничения — например, использует список «Вопрос-ответ собственной горячей линии» вместо первоисточников. Тем не менее наличие прямой интеграции с актуальной базой нормативно-правовых актов является её существенным преимуществом.
Наши ожидания были связаны и с базой судебной практики, которая есть у Гаранта, но пока «Искра» к ней не подключена.
Будем надеяться на дальнейшие доработки и более интересный продукт от Гаранта.

Ускорить подготовку документов в 10 раз
Полностью исключить простые ошибки
Забыть про неактуальные шаблоны
Избавиться от рутины и перепроверок

Запросить демо