DeepSeek – китайський штучний інтелект з відкритим кодом. Чи є у Гонконгу шанс перемогти OpenAI?

11 Лютого 2025 / AI

DeepSeek – це серія китайськомовних моделей, які вражають своєю продуктивністю та низькою вартістю навчання. Завдяки своєму підходу з відкритим вихідним кодом DeepSeek-R1 і DeepSeek-V3 викликають неабиякий ажіотаж в індустрії ШІ.

DeepSeek

Джерело: www.deepseek.com

DeepSeek: революція в світі ШІ родом з Гонконгу

DeepSeek все частіше згадується в дискусіях про майбутнє штучного інтелекту. Цей гонконгський проект пропонує великі мовні моделі (LLM), що характеризуються відкритим кодом, високою продуктивністю і – що дуже важливо – набагато меншими витратами на навчання, ніж конкуруючі рішення від OpenAI або Meta.

У цій статті ми розглянемо DeepSeek-R1, DeepSeek-V3 та обговоримо останню інформацію про процес розробки та розповсюдження цих моделей – на основі як офіційних матеріалів, доступних наHugging Face, так і публікацій зSpider’s Webтаchina24.com.

Зміст

AI born

Як народився DeepSeek?

Останні повідомлення в пресі вказують на те, що в 2015 році в Гонконзі була заснована компанія High-Flyer Capital Management – компанія, яка донедавна була майже невідома в ІТ-індустрії за межами Азії. Ситуація кардинально змінилася з появою DeepSeek, серії великих мовних моделей, які взяли штурмом експертів Кремнієвої долини.

Однак DeepSeek – це не просто комерційний проект, це також подих відкритості у світі, де зазвичай домінують закриті рішення з величезними бюджетами, такі як моделі від OpenAI (в тому числі GPT-4 і OpenAI o1).

DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ

Згідно зофіційною сторінкою проекту на Hugging Face, DeepSeek наразі публікує кілька варіантів своїх моделей:

DeepSeek-R1-Zero: створена в результаті поглибленого навчання без початкового етапу SFT (Supervised Fine-Tuning), з акцентом на посилення навичок міркування (так званий ланцюжок думок).
DeepSeek-R1: автори додали додаткове точне налаштування під контролем (SFT) перед етапом навчання з підкріпленням, що покращило читабельність і послідовність згенерованого тексту.
DeepSeek-V3: названа на честь базової моделі, з якої походять описані вище варіанти R1-Zero і R1. DeepSeek-V3 може мати до 671 мільярда параметрів і була навчена за два місяці за ціною приблизно $5,58 млн (дані:china24.com).

ai tech

Технічний контекст

Велика кількість параметрів (до 671 мільярда) означає здатність генерувати дуже складні твердження та аналізи.
Оптимізований процес навчання гарантує, що навіть така велика архітектура не потребує бюджету, порівнянного з OpenAI.
Основна мета: самостійно розробляти багатокрокові рішення і мінімізувати «галюцинації», які так часто зустрічаються в інших моделях.

Витрати на навчання та продуктивність: у чому секрет?

ІSpider’s Web, іchina24.comвідзначають, що витрати на навчання DeepSeek-R1 (близько 5 мільйонів доларів США для першої ітерації) в рази нижчі, ніж ті, про які ми чуємо в контексті GPT-4 або інших закритих моделей OpenAI, де, як кажуть, задіяні мільярди доларів.

У чому ж полягає рецепт успіху?

Власні методи оптимізації процесу навчання,

Гнучка архітектура, яка дозволяє моделі ефективніше навчатися на меншій кількості графічних процесорів,

економне управління навчальними даними (уникнення непотрібних повторень і точний вибір набору даних).

open source

Відкритий вихідний код та ліцензування

DeepSeek, на відміну від більшості західних конкурентів, покладається на відкритий код. Як зазначено в офіційній документації до моделіHugging Face:

«Серія DeepSeek-R1 підтримує комерційне використання, дозволяє будь-які модифікації та похідні роботи, включаючи, але не обмежуючись, дистиляцію…».

Це означає, що спільнота може не тільки вільно використовувати ці моделі, але й модифікувати та розвивати їх. Крім того, в рамках лінійки DeepSeek-R1-Distill вже розроблено кілька варіантів, оптимізованих для менших потреб у ресурсах.

Важливо:

Моделі DeepSeek-R1-Distill базуються, серед іншого, на загальнодоступних Qwen2.5 і Llama3, з якими поєднуються відповідні ліцензії Apache 2.0 і Llama.

Тим не менш, все це надається спільноті на дуже ліберальній основі, що стимулює експерименти та подальші інновації.

Моделі DeepSeek-R1, R1-Zero і Distill: чим вони відрізняються?

З документації, опублікованоїна Hugging Face, випливає трирівневий поділ:

1. DeepSeek-R1-Zero

Навчання тільки за допомогою RL (навчання з підкріпленням), без попереднього SFT,

Модель може генерувати дуже складні ланцюжки міркувань (ланцюжки думок),

однак може страждати від повторень і проблем з читабельністю.

2 DeepSeek-R1

Включення фази SFT перед RL вирішило проблеми, зазначені в R1-Zero,

Краща консистенція і менша схильність до галюцинацій,

За результатами тестів (бенчмарків) порівнянний з OpenAI o1 в математичних, програмних та аналітичних завданнях.

3. DeepSeek-R1-Distill

«Схудлі» версії моделі (параметри 1.5B, 7B, 8B, 14B, 32B, 70B),

Дозволяють полегшити реалізацію на слабшому обладнанні,

Створені шляхом дистиляції (перенесення знань з повної моделі R1 на менші архітектури).

Китайсько-американське суперництво: санкції, напівпровідники і інновації

Як зазначаєSouth China Morning Post (цитується за china24.com), розробка китайських моделей ШІ відбувається на тлі обмеженого доступу до передових напівпровідників, спричиненого санкціями США.

Тим часом китайські компанії, зокрема DeepSeek або ByteDance (Дубао), демонструють, що навіть у такому несприятливому кліматі вони здатні створювати моделі, які

Незрівнянні із західними рішеннями,

і часто набагато дешевші в обслуговуванні.

Як зазначає Джим Фан (науковець Nvidia), проект DeepSeek може стати доказом того, що інновації та обмежувальні умови (менше фінансування, санкції) не обов’язково мають бути взаємовиключними.

Чи загрожує DeepSeek домінуванню OpenAI?

High-Flyer Capital Management та інші китайські фірми виходять на ринок з моделлю, яка

працює краще, ніж західні конкуренти в деяких тестах,

дешевша у розробці та підтримці

надає відкриті репозиторії, що дозволяє швидко розвивати екосистему на основі спільноти.

Якщо OpenAI (та інші гіганти) не розроблять стратегію конкуренції з дешевшими і не менш якісними моделями, китайські рішення – такі як DeepSeek або Doubao – можуть завоювати значну частку ринку.

LLM przyszłość

Ера дорогих моделей ШІ добігає кінця?

DeepSeek – живий приклад того, що ера гігантських і наддорогих моделей ШІ, можливо, добігає кінця. Завдяки відкритому коду, низьким витратам на навчання і дуже хорошим показникам в тестах, амбітні стартапи з Китаю можуть похитнути існуючий баланс сил в індустрії ШІ.

З огляду на зростаючу технологічну напруженість між Китаєм і США, подальший розвиток DeepSeek і подібних проектів, швидше за все, стане однією з головних ниток у глобальній конкуренції за лідерство в ШІ.

Джерела

Автор: власна компіляція на основі зазначених публікацій.

Текст призначений для інформаційних та журналістських цілей.

Podziel się

Potrzebujesz pomocy w tym temacie?

Напишіть нашому експерту

Матеуш Боркевич

КЕРУЮЧИЙ ПАРТНЕР, АДВОКАТ

mb@lbplegal.com +48 663 683 888 Контакти

Статті в цій категорії

Гігафабрика AI в Польщі – проривна інвестиція в штучний інтелект

більше

Гігафабрика AI в Польщі – проривна інвестиція в штучний інтелект

CapCut та ліцензійні та юридичні питання – що потрібно знати творцям контенту

більше

CapCut та ліцензійні та юридичні питання – що потрібно знати творцям контенту

Відповідальність за шкоду, заподіяну автономними транспортними засобами – хто несе відповідальність згідно із законом?

більше

MiCA в Польщі — довідник про перехідні періоди та терміни в проекті закону про ринок криптоактивів

більше

MiCA в Польщі — довідник про перехідні періоди та терміни в проекті закону про ринок криптоактивів

Домінування CUDA та NVIDIA – невидима інфраструктура штучного інтелекту, що виходить за межі регулювання?

більше

Домінування CUDA та NVIDIA – невидима інфраструктура штучного інтелекту, що виходить за межі регулювання?

більше

DeepSeek – китайський штучний інтелект з відкритим кодом. Чи є у Гонконгу шанс перемогти OpenAI?

Зміст

Як народився DeepSeek?

DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ

Технічний контекст

Витрати на навчання та продуктивність: у чому секрет?

Відкритий вихідний код та ліцензування

Моделі DeepSeek-R1, R1-Zero і Distill: чим вони відрізняються?

1. DeepSeek-R1-Zero

2 DeepSeek-R1

3. DeepSeek-R1-Distill

Китайсько-американське суперництво: санкції, напівпровідники і інновації

Чи загрожує DeepSeek домінуванню OpenAI?

Ера дорогих моделей ШІ добігає кінця?

Джерела

Офіс у Варшаві

Офіс у Вроцлаві

DeepSeek – китайський штучний інтелект з відкритим кодом. Чи є у Гонконгу шанс перемогти OpenAI?

Зміст

Як народився DeepSeek?

DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ

Технічний контекст

Витрати на навчання та продуктивність: у чому секрет?

Відкритий вихідний код та ліцензування

Моделі DeepSeek-R1, R1-Zero і Distill: чим вони відрізняються?

1. DeepSeek-R1-Zero

2 DeepSeek-R1

3. DeepSeek-R1-Distill

Китайсько-американське суперництво: санкції, напівпровідники і інновації

Чи загрожує DeepSeek домінуванню OpenAI?

Ера дорогих моделей ШІ добігає кінця?

Джерела

Офіс у Варшаві

Офіс у Вроцлаві

Ustawienia Prywatności

Za pomocą suwaka można włączać i wyłączać różne typy plików ciasteczek:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie: