DeepSeek — китайский ИИ с открытым исходным кодом. Есть ли у Гонконга шанс победить OpenAI?

11 февраля 2025   /  AI

DeepSeek — это серия моделей китайского языка, которая впечатляет своей производительностью и низкой стоимостью обучения. Благодаря открытому исходному коду DeepSeek-R1 и DeepSeek-V3 вызывают большой ажиотаж в индустрии ИИ.

DeepSeek

Источник: www.deepseek.com

DeepSeek: революция в мире ИИ родом из Гонконга

DeepSeek все чаще появляется в дискуссиях о будущем искусственного интеллекта. Этот проект, базирующийся в Гонконге, предлагает большие языковые модели (LLM), характеризующиеся открытым кодом, высокой производительностью и — что очень важно — гораздо меньшей стоимостью обучения, чем конкурирующие решения от OpenAI или Meta.

В этой статье мы рассмотрим DeepSeek-R1 и DeepSeek-V3, а также обсудим последнюю информацию о процессе разработки и распространения этих моделей — на основе как официальных материалов, доступных наплатформе Hugging Face, так и публикацийSpider’s Webиchina24.com.

Оглавление

  1. Как родилась компания DeepSeek?
  2. DeepSeek-R1 и DeepSeek-V3: краткое техническое введение
  3. Стоимость обучения и производительность: где секрет?
  4. Открытый исходный код и лицензирование
  5. Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?
  6. Соперничество Китая и США: санкции, полупроводники и инновации
  7. Будет ли DeepSeek угрожать доминированию OpenAI?
  8. Резюме
  9. Источники

AI born

Как родилась DeepSeek?

По последним сообщениям прессы, в 2015 году в Гонконге была основана High-Flyer Capital Management — компания, которая до недавнего времени была практически неизвестна в IT-индустрии за пределами Азии. Ситуация кардинально изменилась с появлением DeepSeek, серии больших языковых моделей, которые покорили экспертов Кремниевой долины.

Однако DeepSeek — это не просто коммерческий проект, это еще и глоток открытости в мире, где обычно доминируют закрытые решения с огромными бюджетами, такие как модели от OpenAI (включая GPT-4 и OpenAI o1).

DeepSeek-R1 и DeepSeek-V3: краткое техническое представление

Согласноофициальной странице проекта на Hugging Face, DeepSeek в настоящее время выпускает несколько вариантов своих моделей:

  1. DeepSeek-R1-Zero: создается в результате продвинутого обучения без начального этапа SFT (Supervised Fine-Tuning), фокусируясь на укреплении навыков рассуждения (так называемой цепочки мыслей).
  2. DeepSeek-R1: авторы включили дополнительную предварительную тонкую настройку (SFT) перед этапом обучения с подкреплением, что улучшило читабельность и согласованность генерируемого текста.
  3. DeepSeek-V3: названа в честь базовой модели, на основе которой были получены описанные выше варианты R1-Zero и R1. DeepSeek-V3 может иметь до 671 миллиарда параметров и была обучена за два месяца при стоимости около 5,58 миллиона долларов (данные:china24.com).

ai tech

Технический контекст

  • Большое количество параметров (до 671 миллиарда) означает возможность генерировать очень сложные утверждения и аналитические выкладки.
  • Оптимизированный процесс обучения гарантирует, что даже такая большая архитектура не потребует бюджета, сопоставимого с OpenAI.
  • Главная цель: самостоятельная выработка многоступенчатых решений и минимизация «галлюцинаций», столь характерных для других моделей.

Стоимость обучения и производительность: где секрет?

ИSpider’s Web, иchina24.comотмечают, что затраты на обучение DeepSeek-R1 (около 5 миллионов долларов США на первую итерацию) в разы ниже тех, о которых мы слышим в контексте GPT-4 или других закрытых моделей OpenAI, где речь идет о миллиардах долларов.

Где же кроется рецепт успеха?

  • Собственные методы оптимизации процесса обучения,
  • Маневренная архитектура, позволяющая модели обучаться эффективнее при меньшем количестве GPU,
  • Экономное управление обучающими данными (избегание ненужных повторений и точный выбор набора данных).

open source

Открытый исходный код и лицензирование

DeepSeek, в отличие от большинства западных конкурентов, опирается на открытый код. Как гласит официальная документация моделина Hugging Face:

«Серия DeepSeek-R1 поддерживает коммерческое использование, допускает любые модификации и производные работы, включая, но не ограничиваясь, дистилляцией…».

Это означает, что сообщество может не только свободно использовать эти модели, но и модифицировать и развивать их. Кроме того, в рамках линейки DeepSeek-R1-Distill уже разработано несколько вариантов, оптимизированных для более низких требований к ресурсам.

Важно:

  • Модели DeepSeek-R1-Distill основаны, в частности, на общедоступных Qwen2.5 и Llama3, с которыми сочетаются соответствующие лицензии Apache 2.0 и Llama.
  • Тем не менее, все это предоставляется сообществу на очень свободной основе, что стимулирует эксперименты и дальнейшие инновации.

AI

Модели DeepSeek-R1, R1-Zero и Distill: чем они отличаются?

Из документации, опубликованнойна Hugging Face, вытекает трехуровневое разделение:

1. DeepSeek-R1-Zero

  • Обучение только с помощью RL (reinforcement learning), без предварительного SFT,
  • Модель может генерировать очень сложные цепочки рассуждений (chain-of-thought),
  • Однако может страдать от повторов и проблем с читабельностью.

2. DeepSeek-R1

  • Включение фазы SFT перед RL решило проблемы, отмеченные в R1-Zero,
  • Улучшилась согласованность и уменьшилась склонность к галлюцинациям,
  • По результатам тестов (бенчмарков) он сопоставим с OpenAI o1 в математических, программистских и аналитических задачах.

3. DeepSeek-R1-Distill

  • «Бережливые» версии модели (1.5B, 7B, 8B, 14B, 32B, 70B параметров),
  • Позволяют упростить реализацию на более слабом оборудовании,
  • Созданы путем дистилляции (переноса знаний с полной модели R1 на меньшие архитектуры).

Соперничество Китая и США: санкции, полупроводники и инновации

Как отмечаетSouth China Morning Post (цитата по china24.com), разработка китайских моделей ИИ происходит на фоне ограниченного доступа к передовым полупроводникам, вызванного санкциями США.

Между тем китайские компании — в том числе DeepSeek или ByteDance (Doubao) — демонстрируют, что даже в таком неблагоприятном климате они способны создавать модели

  • Несравнимые с западными решениями,
  • и зачастую гораздо дешевле в обслуживании.

Как отмечает Джим Фан (ученый из Nvidia), проект DeepSeek может стать доказательством того, что инновации и ограничительные условия (сокращение финансирования, санкции) не должны быть взаимоисключающими.

Будет ли DeepSeek угрожать доминированию OpenAI?

High-Flyer Capital Management и другие китайские компании выходят на рынок с моделью, которая:

  • показывает лучшие результаты, чем западные конкуренты в некоторых тестах,
  • дешевле в разработке и обслуживании,
  • предоставляет открытые репозитории, что позволяет быстро развивать экосистему на основе сообщества.

Если OpenAI (и другие гиганты) не разработают стратегию конкуренции с более дешевыми и одинаково хорошими моделями, китайские решения — такие как DeepSeek или Doubao — могут оттянуть на себя значительную долю рынка.

LLM przyszłość

Эра дорогих моделей ИИ подходит к концу?

DeepSeek — живой пример того, что эра гигантских и сверхдорогих моделей ИИ может подойти к концу. Благодаря открытому коду, низкой стоимости обучения и очень хорошим показателям бенчмарков амбициозные стартапы из Китая могут изменить существующую расстановку сил в индустрии ИИ.

Учитывая растущую технологическую напряженность между Китаем и США, дальнейшее развитие DeepSeek и подобных проектов, скорее всего, станет одной из главных нитей в глобальном соревновании за лидерство в области ИИ.

Источники

  1. «Китайский DeepSeek побеждает все модели OpenAI. У Запада большие проблемы» — Паутина
  2. «DeepSeek. Китайский стартап создает ИИ с открытым исходным кодом» — china24.com
  3. Официальный сайт DeepSeek-R1 на Hugging Face

Автор: собственная компиляция на основе указанных публикаций.

Текст предназначен для информационных и журналистских целей.

Podziel się

Podziel się

Potrzebujesz pomocy w tym temacie?

Напишите нашему эксперту

Матеуш Боркевич

УПРАВЛЯЮЩИЙ ПАРТНЕР, АДВОКАТ

+48 663 683 888 Связаться с

Статьи в этой категории

Со 2 февраля 2025 года действуют статьи 1-5 Закона об искусственном интеллекте, несоблюдение которых может привести к крупным штрафам

AI

подробнее
Со 2 февраля 2025 года действуют статьи 1-5 Закона об искусственном интеллекте, несоблюдение которых может привести к крупным штрафам

И «Оскар» получает… Э. И. Броуди

AI

подробнее
И «Оскар» получает… Э. И. Броуди

Новый указ президента Трампа

AI

подробнее
Новый указ президента Трампа

GPT-чат не работает. Тысячи запросов от пользователей

AI

подробнее
GPT-чат не работает. Тысячи запросов от пользователей

Проект «Звездные врата» — новая эра инфраструктуры искусственного интеллекта в США

AI

подробнее
Проект «Звездные врата» — новая эра инфраструктуры искусственного интеллекта в США
подробнее

Связаться с

У вас есть вопросы?zobacz telefon+48 570 913 713
zobacz e-mail

Офис в Варшаве

03-737 Варшава

(Пресс-центр «Конесера» - Пространства)

pl. Конесера, 12, стр. 119

google maps

Офис во Вроцлаве

53-659 Вроцлав

(Кворум D)

Ген. Владислава Сикорского 26

google maps

Эй, пользователь,
ты уже в рассылке?

    Erfahren Sie hier, wie wir Ihre personenbezogenen Daten verarbeiten