Китайская ИИ-лаборатория DeepSeek представила обновленную «рассуждающую» модель R1. Ее облегчённая версия способна работать на одной видеокарте.
DeepSeek-R1-0528-Qwen3-8B основана на базе Qwen3-8B, которую Alibaba представила в мае. По данным компании, эта модель превзошла Google Gemini 2.5 Flash в тестах AIME 2025 — сборнике сложных математических задач.
«Дистиллированная» версия — это упрощённый и ускоренный вариант крупной модели машинного обучения, созданный с помощью метода дистилляции знаний. Такие нейросети обычно уступают в мощности, но значительно экономят вычислительные ресурсы.
Согласно информации от NodeShift, Qwen3-8B требует графический процессор с 40-80 Гб видеопамяти и может работать на одной Nvidia H100.
DeepSeek применяла обновлённые R1 и Qwen3-8B для обучения и настройки DeepSeek-R1-0528-Qwen3-8B.
Новая версия основной модели R1 получила лишь незначительные изменения, сообщают разработчики. Она доступна на платформе Hugging Face.
Разработчик с ником xlr8harder заметил, что модель стала меньше обсуждать спорные темы, особенно касающиеся китайского правительства.
Он критически отметил: «DeepSeek сделала шаг назад в плане свободы слова. Однако благодаря открытому исходному коду с разрешительной лицензией сообщество сможет и будет работать над исправлением этой ситуации».
В одном из примеров модель признала факт существования лагерей для интернированных в Синьцзяне, но отказалась критиковать действия китайских властей.
xlr8harder отметил: «Интересно, хотя и ожидаемо, что модель приводит эти лагеря как пример нарушения прав человека, но при прямом вопросе отказывается это подтверждать».
Напомним, что в апреле DeepSeek выпустила открытую математически ориентированную ИИ-модель Prover.
Аналитическая платформа Arkham Intelligence официально опровергла информацию о прекращении своей деятельности. Как сообщил глава компании…
Криптобиржа HTX объявила о начале второго сезона чемпионата по трейдингу, который пройдет с 11 февраля…
Бывший CEO FTX Сэм Бэнкман-Фрид заявил, что стал жертвой «политической войны» со стороны экс-президента США…
Компания Tether, эмитент стейблкоина USDT, вошла в число тридцати крупнейших владельцев золота в мире, сообщает…
Текущая просадка биткоина признана «слабейшим медвежьим сценарием» в истории первой криптовалюты, согласно аналитикам Bernstein. Они…
Биткоин протестировал локальное дно на уровне $60 000, сложность майнинга резко снизилась, криптоказначейства понесли значительные…