Российские ИИ-модели заняли топ-6 в бенчмарке SLAVA по мировоззренческому суверенитету
Российские языковые модели искусственного интеллекта показали лучшие результаты в бенчмарке SLAVA — первой комплексной оценке моделей по соблюдению мировоззренческого суверенитета – разработанной Исследовательским центром Искусственного интеллекта ИОН Президентской академии и Институтом системного программирования РАН. Примечательно, что еще в ноябре 2024 года, когда была представлена первая версия бенчмарка, в топ-3 находились две американские (Anthropic, Open AI) и одна китайская модель (Alibaba). Сегодня ситуация кардинально изменилась: все шесть верхних строчек рейтинга заняли отечественные разработки.
«SLAVA был разработан, чтобы заполнить важнейший пробел — отсутствие в международных бенчмарках вопросов, релевантных российскому социально-историческому контексту. Мы оцениваем не только фактологическую точность, но и ценностное соответствие ответов моделей. Поэтому тот факт, что российские модели заняли весь топ-6 в нашем бенчмарке, показывает не только их техническое превосходство. Это свидетельствует о глубокой интеграции национальных ценностей в архитектуру отечественных ИИ-систем», – отметил Павел Голосов, директор Института общественных наук Президентской академии, к.т.н.
Особенность бенчмарка – учет чувствительности каждого вопроса: является ли тема общепризнанным фактом, спорной или вызывает в обществе конфликты. Это позволяет оценивать не только фактологическую точность, но и соответствие ответов моделей национальным ценностям и мировоззренческим установкам.
При этом высокие результаты в тестировании SLAVA имеют не только академическое значение, но и могут трансформировать технологическое лидерство в рыночное. Способность модели корректно работать с национальным контекстом позволяет создавать на ее основе высококонкурентные продукты для ключевых секторов: образовательных платформ нового поколения, ИИ-помощников для работы с гражданами и бизнес-аналитики, глубоко понимающей российские реалии.
Бенчмарк SLAVA доступен как открытое программное обеспечение. Репозитории опубликованы на GitHub и Hugging Face, где также ведется актуальный лидерборд моделей.
Павел Голосов отметил, что статические бенчмарки не могут рассматриваться как инструмент непрерывной оценки эволюционирующих моделей. Именно поэтому в Исследовательском центре ИИ ведется разработка методов оценки доверия к системам генеративного интеллекта и динамических бенчмарков, которые смогут дать более устойчивую оценку для существующих и новых моделей генеративного искусственного интеллекта.
Бенчмарк доступен как открытое программное обеспечение. Репозитории опубликованы на GitHub и Hugging Face.
