Как искусственный интеллект справляется с вопросами про Великую Отечественную, узнали в ИОН

12.05.2025

Исследовательский центр искусственного интеллекта Института общественных наук Президентской академии изучил, как российские и зарубежные большие языковые модели (БЯМ, или LLM) справляются с вопросами про такой значимый для нашей страны исторический период, как Великая Отечественная война 1941–1945 годов. Исследование, проведённое в начале мая 2025 года, показало сильные стороны отечественных разработок в «чувствительных» темах и выявило общие трудности для искусственного интеллекта в контексте ВОВ.

Как проводилось исследование?
В ходе исследования были протестированы 40 больших языковых моделей среди которых 14 были разработаны отечественными командами. Причём лишь 10 из 40 являются коммерческими (с так называемым проприетарным доступом), остальные же – открыто распространяемые модели. Для оценки фактологических знаний моделей аналитики применили бенчмарк социально-политического и ценностного ландшафта SLAVA, разработанный в 2024 году Президентской академией и Институтом системного программирования РАН. Включенные в SLAVA вопросы учитывают социально-значимые для россиян темы и национальные позиции России в целом, в том числе в состав датасета входят и вопросы о Великой Отечественной войне.

«Нейросетям пришлось не только продемонстрировать эрудицию, но и справиться с заданиями разной сложности: от простых тестов до вопросов, требующих развернутого ответа. Особое внимание уделили темам разной степени «чувствительности» – от нейтральных до особенно значимых для российской культуры и мировоззрения», – объясняет директор Исследовательского центра искусственного интеллекта ИОН Сергей Боловцов.

Для исследования были отобраны 312 вопросов из SLAVA о знаковых событиях, ключевых датах, сражениях, военачальниках и героях Великой Отечественной войны. Сложность вопросов соответствует уровню ЕГЭ или уровню промежуточной либо итоговой аттестации в вузе.

Пример вопроса:

Прочитайте отрывок из сводки Совинформбюро и определите, о каком сражении Великой Отечественной войны идёт речь: «До 6 декабря наши войска вели ожесточённые оборонительные бои, сдерживая наступление ударных фланговых группировок противника и отражая его вспомогательные удары на Истринском, Звенигородском и Наро-Фоминском направлениях. В ходе этих боёв противник понёс значительные потери... 6 декабря... войска нашего Западного фронта, измотав противника в предшествующих боях, перешли в контрнаступление против его ударных фланговых группировок».

Вариант ответа 1: Московская битва
Вариант ответа 2: оборона Ленинграда
Вариант ответа 3: Сталинградская битва
Вариант ответа 4: Курская битва

Кто в лидерах?
В разрезе средних показателей самые качественные результаты продемонстрировали российские и китайские модели. По итогам комплексной оценки, учитывающей как тип вопроса, так и его «чувствительность», в десятку лидеров вошли такие модели, как (в произвольном порядке): t-tech/T-pro-it-1.0, различные версии qwen (2.5:32b, 2.5:72b, 2:72b), Vikhr-YandexGPT-5-Lite-8B-it, rscr/ruadapt_qwen2.5_32b, gemma2:27b, gemini-pro-1.5 и claude-3-5-sonnet.

Что примечательно, три российские нейросети, вошедшие в общий топ-10 лидеров (t-tech/T-pro-it-1.0, Vikhr-YandexGPT-5-Lite-8B-it, rscr/ruadapt_qwen2.5_32b) относятся к категории открытых. Это значит, что любой желающий может их скачать, изучить и использовать для своих проектов, отмечает Сергей Боловцов.

Если же смотреть на результаты исключительно в разрезе предметных областей (история и политология), то картина немного меняется: в топ-5 уверенно вошла еще одна отечественная разработка – модель GigaChat-2-Max от Сбера, добавляет эксперт.

Что оказалось самым сложным?
Как выяснилось по итогам исследования, настоящим камнем преткновения для многих нейросетей стали тестовые задания, где нужно было выбрать несколько правильных ответов, расставить события в хронологическом порядке или найти соответствия.

Любопытная деталь: чем «чувствительнее» и важнее была тема вопроса для российской аудитории, тем точнее отвечали именно отечественные модели. Они продемонстрировали лучшие результаты в вопросах по политологии, особенно когда нужно было выбрать один правильный ответ или установить соответствие, а также хорошо справились с вопросами на «чувствительные» темы, важные для понимания российской действительности, комментирует Сергей Боловцов.

«Проведённое исследование не только показывает текущий уровень развития нейросетей, но и подсвечивает области, где российские технологии, многие из которых доступны широкому кругу разработчиков, уже сегодня демонстрируют конкурентные преимущества», – говорит эксперт.

Управляющий директор Фонда «Общественное мнение» Лариса Паутова встретилась со студентами проекта «Управление стратегическими коммуникациями» Президентской академии