DeepSeek — китайский ИИ с открытым исходным кодом. Есть ли у Гонконга шанс победить OpenAI?

11 февраля 2025 / AI

DeepSeek — это серия моделей китайского языка, которая впечатляет своей производительностью и низкой стоимостью обучения. Благодаря открытому исходному коду DeepSeek-R1 и DeepSeek-V3 вызывают большой ажиотаж в индустрии ИИ.

DeepSeek

Источник: www.deepseek.com

DeepSeek: революция в мире ИИ родом из Гонконга

DeepSeek все чаще появляется в дискуссиях о будущем искусственного интеллекта. Этот проект, базирующийся в Гонконге, предлагает большие языковые модели (LLM), характеризующиеся открытым кодом, высокой производительностью и — что очень важно — гораздо меньшей стоимостью обучения, чем конкурирующие решения от OpenAI или Meta.

В этой статье мы рассмотрим DeepSeek-R1 и DeepSeek-V3, а также обсудим последнюю информацию о процессе разработки и распространения этих моделей — на основе как официальных материалов, доступных наплатформе Hugging Face, так и публикацийSpider’s Webиchina24.com.

Как родилась DeepSeek?

По последним сообщениям прессы, в 2015 году в Гонконге была основана High-Flyer Capital Management — компания, которая до недавнего времени была практически неизвестна в IT-индустрии за пределами Азии. Ситуация кардинально изменилась с появлением DeepSeek, серии больших языковых моделей, которые покорили экспертов Кремниевой долины.

Однако DeepSeek — это не просто коммерческий проект, это еще и глоток открытости в мире, где обычно доминируют закрытые решения с огромными бюджетами, такие как модели от OpenAI (включая GPT-4 и OpenAI o1).

DeepSeek-R1 и DeepSeek-V3: краткое техническое представление

Согласноофициальной странице проекта на Hugging Face, DeepSeek в настоящее время выпускает несколько вариантов своих моделей:

DeepSeek-R1-Zero: создается в результате продвинутого обучения без начального этапа SFT (Supervised Fine-Tuning), фокусируясь на укреплении навыков рассуждения (так называемой цепочки мыслей).
DeepSeek-R1: авторы включили дополнительную предварительную тонкую настройку (SFT) перед этапом обучения с подкреплением, что улучшило читабельность и согласованность генерируемого текста.
DeepSeek-V3: названа в честь базовой модели, на основе которой были получены описанные выше варианты R1-Zero и R1. DeepSeek-V3 может иметь до 671 миллиарда параметров и была обучена за два месяца при стоимости около 5,58 миллиона долларов (данные:china24.com).

ai tech

Технический контекст

Большое количество параметров (до 671 миллиарда) означает возможность генерировать очень сложные утверждения и аналитические выкладки.
Оптимизированный процесс обучения гарантирует, что даже такая большая архитектура не потребует бюджета, сопоставимого с OpenAI.
Главная цель: самостоятельная выработка многоступенчатых решений и минимизация «галлюцинаций», столь характерных для других моделей.

Стоимость обучения и производительность: где секрет?

ИSpider’s Web, иchina24.comотмечают, что затраты на обучение DeepSeek-R1 (около 5 миллионов долларов США на первую итерацию) в разы ниже тех, о которых мы слышим в контексте GPT-4 или других закрытых моделей OpenAI, где речь идет о миллиардах долларов.

Где же кроется рецепт успеха?

Собственные методы оптимизации процесса обучения,

Маневренная архитектура, позволяющая модели обучаться эффективнее при меньшем количестве GPU,

Экономное управление обучающими данными (избегание ненужных повторений и точный выбор набора данных).

open source

Открытый исходный код и лицензирование

DeepSeek, в отличие от большинства западных конкурентов, опирается на открытый код. Как гласит официальная документация моделина Hugging Face:

«Серия DeepSeek-R1 поддерживает коммерческое использование, допускает любые модификации и производные работы, включая, но не ограничиваясь, дистилляцией…».

Это означает, что сообщество может не только свободно использовать эти модели, но и модифицировать и развивать их. Кроме того, в рамках линейки DeepSeek-R1-Distill уже разработано несколько вариантов, оптимизированных для более низких требований к ресурсам.

Важно:

Модели DeepSeek-R1-Distill основаны, в частности, на общедоступных Qwen2.5 и Llama3, с которыми сочетаются соответствующие лицензии Apache 2.0 и Llama.

Тем не менее, все это предоставляется сообществу на очень свободной основе, что стимулирует эксперименты и дальнейшие инновации.

Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?

Из документации, опубликованнойна Hugging Face, вытекает трехуровневое разделение:

1. DeepSeek-R1-Zero

Обучение только с помощью RL (reinforcement learning), без предварительного SFT,

Модель может генерировать очень сложные цепочки рассуждений (chain-of-thought),

Однако может страдать от повторов и проблем с читабельностью.

2. DeepSeek-R1

Включение фазы SFT перед RL решило проблемы, отмеченные в R1-Zero,

Улучшилась согласованность и уменьшилась склонность к галлюцинациям,

По результатам тестов (бенчмарков) он сопоставим с OpenAI o1 в математических, программистских и аналитических задачах.

3. DeepSeek-R1-Distill

«Бережливые» версии модели (1.5B, 7B, 8B, 14B, 32B, 70B параметров),

Позволяют упростить реализацию на более слабом оборудовании,

Созданы путем дистилляции (переноса знаний с полной модели R1 на меньшие архитектуры).

Соперничество Китая и США: санкции, полупроводники и инновации

Как отмечаетSouth China Morning Post (цитата по china24.com), разработка китайских моделей ИИ происходит на фоне ограниченного доступа к передовым полупроводникам, вызванного санкциями США.

Между тем китайские компании — в том числе DeepSeek или ByteDance (Doubao) — демонстрируют, что даже в таком неблагоприятном климате они способны создавать модели

Несравнимые с западными решениями,

и зачастую гораздо дешевле в обслуживании.

Как отмечает Джим Фан (ученый из Nvidia), проект DeepSeek может стать доказательством того, что инновации и ограничительные условия (сокращение финансирования, санкции) не должны быть взаимоисключающими.

Будет ли DeepSeek угрожать доминированию OpenAI?

High-Flyer Capital Management и другие китайские компании выходят на рынок с моделью, которая:

показывает лучшие результаты, чем западные конкуренты в некоторых тестах,

дешевле в разработке и обслуживании,

предоставляет открытые репозитории, что позволяет быстро развивать экосистему на основе сообщества.

Если OpenAI (и другие гиганты) не разработают стратегию конкуренции с более дешевыми и одинаково хорошими моделями, китайские решения — такие как DeepSeek или Doubao — могут оттянуть на себя значительную долю рынка.

LLM przyszłość

Эра дорогих моделей ИИ подходит к концу?

DeepSeek — живой пример того, что эра гигантских и сверхдорогих моделей ИИ может подойти к концу. Благодаря открытому коду, низкой стоимости обучения и очень хорошим показателям бенчмарков амбициозные стартапы из Китая могут изменить существующую расстановку сил в индустрии ИИ.

Учитывая растущую технологическую напряженность между Китаем и США, дальнейшее развитие DeepSeek и подобных проектов, скорее всего, станет одной из главных нитей в глобальном соревновании за лидерство в области ИИ.

Источники

Автор: собственная компиляция на основе указанных публикаций.

Текст предназначен для информационных и журналистских целей.

Podziel się

Potrzebujesz pomocy w tym temacie?

Напишите нашему эксперту

Матеуш Боркевич

УПРАВЛЯЮЩИЙ ПАРТНЕР, АДВОКАТ

mb@lbplegal.com +48 663 683 888 Связаться с

Статьи в этой категории

Гигафабрика AI в Польше – прорывная инвестиция в искусственный интеллект

подробнее

Гигафабрика AI в Польше – прорывная инвестиция в искусственный интеллект

CapCut и вопросы лицензирования и права – что нужно знать авторам контента

подробнее

CapCut и вопросы лицензирования и права – что нужно знать авторам контента

Ответственность за ущерб, причиненный автономными транспортными средствами – кто несет ответственность по закону?

подробнее

Доминирование CUDA и NVIDIA — невидимая инфраструктура ИИ, выходящая за рамки регулирования?

подробнее

Доминирование CUDA и NVIDIA — невидимая инфраструктура ИИ, выходящая за рамки регулирования?

Sójka AI – цифровой страж этики и безопасности

подробнее

Sójka AI – цифровой страж этики и безопасности

подробнее

DeepSeek — китайский ИИ с открытым исходным кодом. Есть ли у Гонконга шанс победить OpenAI?

Оглавление

Как родилась DeepSeek?

DeepSeek-R1 и DeepSeek-V3: краткое техническое представление

Технический контекст

Стоимость обучения и производительность: где секрет?

Открытый исходный код и лицензирование

Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?

1. DeepSeek-R1-Zero

2. DeepSeek-R1

3. DeepSeek-R1-Distill

Соперничество Китая и США: санкции, полупроводники и инновации

Будет ли DeepSeek угрожать доминированию OpenAI?

Эра дорогих моделей ИИ подходит к концу?

Источники

Офис в Варшаве

Офис во Вроцлаве

DeepSeek — китайский ИИ с открытым исходным кодом. Есть ли у Гонконга шанс победить OpenAI?

Оглавление

Как родилась DeepSeek?

DeepSeek-R1 и DeepSeek-V3: краткое техническое представление

Технический контекст

Стоимость обучения и производительность: где секрет?

Открытый исходный код и лицензирование

Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?

1. DeepSeek-R1-Zero

2. DeepSeek-R1

3. DeepSeek-R1-Distill

Соперничество Китая и США: санкции, полупроводники и инновации

Будет ли DeepSeek угрожать доминированию OpenAI?

Эра дорогих моделей ИИ подходит к концу?

Источники

Офис в Варшаве

Офис во Вроцлаве

Ustawienia Prywatności

Za pomocą suwaka można włączać i wyłączać różne typy plików ciasteczek:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie: