DeepSeek — китайский ИИ с открытым исходным кодом. Есть ли у Гонконга шанс победить OpenAI?
11 февраля 2025 / AI
DeepSeek — это серия моделей китайского языка, которая впечатляет своей производительностью и низкой стоимостью обучения. Благодаря открытому исходному коду DeepSeek-R1 и DeepSeek-V3 вызывают большой ажиотаж в индустрии ИИ.
Источник: www.deepseek.com
DeepSeek: революция в мире ИИ родом из Гонконга
DeepSeek все чаще появляется в дискуссиях о будущем искусственного интеллекта. Этот проект, базирующийся в Гонконге, предлагает большие языковые модели (LLM), характеризующиеся открытым кодом, высокой производительностью и — что очень важно — гораздо меньшей стоимостью обучения, чем конкурирующие решения от OpenAI или Meta.
В этой статье мы рассмотрим DeepSeek-R1 и DeepSeek-V3, а также обсудим последнюю информацию о процессе разработки и распространения этих моделей — на основе как официальных материалов, доступных наплатформе Hugging Face, так и публикацийSpider’s Webиchina24.com.
Оглавление
- Как родилась компания DeepSeek?
- DeepSeek-R1 и DeepSeek-V3: краткое техническое введение
- Стоимость обучения и производительность: где секрет?
- Открытый исходный код и лицензирование
- Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?
- Соперничество Китая и США: санкции, полупроводники и инновации
- Будет ли DeepSeek угрожать доминированию OpenAI?
- Резюме
- Источники
Как родилась DeepSeek?
По последним сообщениям прессы, в 2015 году в Гонконге была основана High-Flyer Capital Management — компания, которая до недавнего времени была практически неизвестна в IT-индустрии за пределами Азии. Ситуация кардинально изменилась с появлением DeepSeek, серии больших языковых моделей, которые покорили экспертов Кремниевой долины.
Однако DeepSeek — это не просто коммерческий проект, это еще и глоток открытости в мире, где обычно доминируют закрытые решения с огромными бюджетами, такие как модели от OpenAI (включая GPT-4 и OpenAI o1).
DeepSeek-R1 и DeepSeek-V3: краткое техническое представление
Согласноофициальной странице проекта на Hugging Face, DeepSeek в настоящее время выпускает несколько вариантов своих моделей:
- DeepSeek-R1-Zero: создается в результате продвинутого обучения без начального этапа SFT (Supervised Fine-Tuning), фокусируясь на укреплении навыков рассуждения (так называемой цепочки мыслей).
- DeepSeek-R1: авторы включили дополнительную предварительную тонкую настройку (SFT) перед этапом обучения с подкреплением, что улучшило читабельность и согласованность генерируемого текста.
- DeepSeek-V3: названа в честь базовой модели, на основе которой были получены описанные выше варианты R1-Zero и R1. DeepSeek-V3 может иметь до 671 миллиарда параметров и была обучена за два месяца при стоимости около 5,58 миллиона долларов (данные:china24.com).
Технический контекст
- Большое количество параметров (до 671 миллиарда) означает возможность генерировать очень сложные утверждения и аналитические выкладки.
- Оптимизированный процесс обучения гарантирует, что даже такая большая архитектура не потребует бюджета, сопоставимого с OpenAI.
- Главная цель: самостоятельная выработка многоступенчатых решений и минимизация «галлюцинаций», столь характерных для других моделей.
Стоимость обучения и производительность: где секрет?
ИSpider’s Web, иchina24.comотмечают, что затраты на обучение DeepSeek-R1 (около 5 миллионов долларов США на первую итерацию) в разы ниже тех, о которых мы слышим в контексте GPT-4 или других закрытых моделей OpenAI, где речь идет о миллиардах долларов.
Где же кроется рецепт успеха?
- Собственные методы оптимизации процесса обучения,
- Маневренная архитектура, позволяющая модели обучаться эффективнее при меньшем количестве GPU,
- Экономное управление обучающими данными (избегание ненужных повторений и точный выбор набора данных).
Открытый исходный код и лицензирование
DeepSeek, в отличие от большинства западных конкурентов, опирается на открытый код. Как гласит официальная документация моделина Hugging Face:
«Серия DeepSeek-R1 поддерживает коммерческое использование, допускает любые модификации и производные работы, включая, но не ограничиваясь, дистилляцией…».
Это означает, что сообщество может не только свободно использовать эти модели, но и модифицировать и развивать их. Кроме того, в рамках линейки DeepSeek-R1-Distill уже разработано несколько вариантов, оптимизированных для более низких требований к ресурсам.
Важно:
- Модели DeepSeek-R1-Distill основаны, в частности, на общедоступных Qwen2.5 и Llama3, с которыми сочетаются соответствующие лицензии Apache 2.0 и Llama.
- Тем не менее, все это предоставляется сообществу на очень свободной основе, что стимулирует эксперименты и дальнейшие инновации.
Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?
Из документации, опубликованнойна Hugging Face, вытекает трехуровневое разделение:
1. DeepSeek-R1-Zero
- Обучение только с помощью RL (reinforcement learning), без предварительного SFT,
- Модель может генерировать очень сложные цепочки рассуждений (chain-of-thought),
- Однако может страдать от повторов и проблем с читабельностью.
2. DeepSeek-R1
- Включение фазы SFT перед RL решило проблемы, отмеченные в R1-Zero,
- Улучшилась согласованность и уменьшилась склонность к галлюцинациям,
- По результатам тестов (бенчмарков) он сопоставим с OpenAI o1 в математических, программистских и аналитических задачах.
3. DeepSeek-R1-Distill
- «Бережливые» версии модели (1.5B, 7B, 8B, 14B, 32B, 70B параметров),
- Позволяют упростить реализацию на более слабом оборудовании,
- Созданы путем дистилляции (переноса знаний с полной модели R1 на меньшие архитектуры).
Соперничество Китая и США: санкции, полупроводники и инновации
Как отмечаетSouth China Morning Post (цитата по china24.com), разработка китайских моделей ИИ происходит на фоне ограниченного доступа к передовым полупроводникам, вызванного санкциями США.
Между тем китайские компании — в том числе DeepSeek или ByteDance (Doubao) — демонстрируют, что даже в таком неблагоприятном климате они способны создавать модели
- Несравнимые с западными решениями,
- и зачастую гораздо дешевле в обслуживании.
Как отмечает Джим Фан (ученый из Nvidia), проект DeepSeek может стать доказательством того, что инновации и ограничительные условия (сокращение финансирования, санкции) не должны быть взаимоисключающими.
Будет ли DeepSeek угрожать доминированию OpenAI?
High-Flyer Capital Management и другие китайские компании выходят на рынок с моделью, которая:
- показывает лучшие результаты, чем западные конкуренты в некоторых тестах,
- дешевле в разработке и обслуживании,
- предоставляет открытые репозитории, что позволяет быстро развивать экосистему на основе сообщества.
Если OpenAI (и другие гиганты) не разработают стратегию конкуренции с более дешевыми и одинаково хорошими моделями, китайские решения — такие как DeepSeek или Doubao — могут оттянуть на себя значительную долю рынка.
Эра дорогих моделей ИИ подходит к концу?
DeepSeek — живой пример того, что эра гигантских и сверхдорогих моделей ИИ может подойти к концу. Благодаря открытому коду, низкой стоимости обучения и очень хорошим показателям бенчмарков амбициозные стартапы из Китая могут изменить существующую расстановку сил в индустрии ИИ.
Учитывая растущую технологическую напряженность между Китаем и США, дальнейшее развитие DeepSeek и подобных проектов, скорее всего, станет одной из главных нитей в глобальном соревновании за лидерство в области ИИ.
Источники
- «Китайский DeepSeek побеждает все модели OpenAI. У Запада большие проблемы» — Паутина
- «DeepSeek. Китайский стартап создает ИИ с открытым исходным кодом» — china24.com
- Официальный сайт DeepSeek-R1 на Hugging Face
Автор: собственная компиляция на основе указанных публикаций.
Текст предназначен для информационных и журналистских целей.
Potrzebujesz pomocy w tym temacie?
Напишите нашему эксперту
Статьи в этой категории
Со 2 февраля 2025 года действуют статьи 1-5 Закона об искусственном интеллекте, несоблюдение которых может привести к крупным штрафам
Со 2 февраля 2025 года действуют статьи 1-5 Закона об искусственном интеллекте, несоблюдение которых может привести к крупным штрафамGPT-чат не работает. Тысячи запросов от пользователей
GPT-чат не работает. Тысячи запросов от пользователейПроект «Звездные врата» — новая эра инфраструктуры искусственного интеллекта в США
Проект «Звездные врата» — новая эра инфраструктуры искусственного интеллекта в США