DeepSeek – китайський штучний інтелект з відкритим кодом. Чи є у Гонконгу шанс перемогти OpenAI?

11 Лютого 2025   /  AI

DeepSeek – це серія китайськомовних моделей, які вражають своєю продуктивністю та низькою вартістю навчання. Завдяки своєму підходу з відкритим вихідним кодом DeepSeek-R1 і DeepSeek-V3 викликають неабиякий ажіотаж в індустрії ШІ.

DeepSeek

Джерело: www.deepseek.com

DeepSeek: революція в світі ШІ родом з Гонконгу

DeepSeek все частіше згадується в дискусіях про майбутнє штучного інтелекту. Цей гонконгський проект пропонує великі мовні моделі (LLM), що характеризуються відкритим кодом, високою продуктивністю і – що дуже важливо – набагато меншими витратами на навчання, ніж конкуруючі рішення від OpenAI або Meta.

У цій статті ми розглянемо DeepSeek-R1, DeepSeek-V3 та обговоримо останню інформацію про процес розробки та розповсюдження цих моделей – на основі як офіційних матеріалів, доступних наHugging Face, так і публікацій зSpider’s Webтаchina24.com.

Зміст

  1. Як народився DeepSeek?
  2. DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ
  3. Витрати на навчання та продуктивність: у чому секрет?
  4. Відкритий вихідний код та ліцензування
  5. Моделі DeepSeek-R1, R1-Zero та Distill: чим вони відрізняються?
  6. Китайсько-американське суперництво: санкції, напівпровідники та інновації
  7. Чи загрожує DeepSeek домінуванню OpenAI?
  8. Підсумок
  9. Джерела

AI born

Як народився DeepSeek?

Останні повідомлення в пресі вказують на те, що в 2015 році в Гонконзі була заснована компанія High-Flyer Capital Management – компанія, яка донедавна була майже невідома в ІТ-індустрії за межами Азії. Ситуація кардинально змінилася з появою DeepSeek, серії великих мовних моделей, які взяли штурмом експертів Кремнієвої долини.

Однак DeepSeek – це не просто комерційний проект, це також подих відкритості у світі, де зазвичай домінують закриті рішення з величезними бюджетами, такі як моделі від OpenAI (в тому числі GPT-4 і OpenAI o1).

DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ

Згідно зофіційною сторінкою проекту на Hugging Face, DeepSeek наразі публікує кілька варіантів своїх моделей:

  1. DeepSeek-R1-Zero: створена в результаті поглибленого навчання без початкового етапу SFT (Supervised Fine-Tuning), з акцентом на посилення навичок міркування (так званий ланцюжок думок).
  2. DeepSeek-R1: автори додали додаткове точне налаштування під контролем (SFT) перед етапом навчання з підкріпленням, що покращило читабельність і послідовність згенерованого тексту.
  3. DeepSeek-V3: названа на честь базової моделі, з якої походять описані вище варіанти R1-Zero і R1. DeepSeek-V3 може мати до 671 мільярда параметрів і була навчена за два місяці за ціною приблизно $5,58 млн (дані:china24.com).

ai tech

Технічний контекст

  • Велика кількість параметрів (до 671 мільярда) означає здатність генерувати дуже складні твердження та аналізи.
  • Оптимізований процес навчання гарантує, що навіть така велика архітектура не потребує бюджету, порівнянного з OpenAI.
  • Основна мета: самостійно розробляти багатокрокові рішення і мінімізувати «галюцинації», які так часто зустрічаються в інших моделях.

Витрати на навчання та продуктивність: у чому секрет?

ІSpider’s Web, іchina24.comвідзначають, що витрати на навчання DeepSeek-R1 (близько 5 мільйонів доларів США для першої ітерації) в рази нижчі, ніж ті, про які ми чуємо в контексті GPT-4 або інших закритих моделей OpenAI, де, як кажуть, задіяні мільярди доларів.

У чому ж полягає рецепт успіху?

  • Власні методи оптимізації процесу навчання,
  • Гнучка архітектура, яка дозволяє моделі ефективніше навчатися на меншій кількості графічних процесорів,
  • економне управління навчальними даними (уникнення непотрібних повторень і точний вибір набору даних).

open source

Відкритий вихідний код та ліцензування

DeepSeek, на відміну від більшості західних конкурентів, покладається на відкритий код. Як зазначено в офіційній документації до моделіHugging Face:

«Серія DeepSeek-R1 підтримує комерційне використання, дозволяє будь-які модифікації та похідні роботи, включаючи, але не обмежуючись, дистиляцію…».

Це означає, що спільнота може не тільки вільно використовувати ці моделі, але й модифікувати та розвивати їх. Крім того, в рамках лінійки DeepSeek-R1-Distill вже розроблено кілька варіантів, оптимізованих для менших потреб у ресурсах.

Важливо:

  • Моделі DeepSeek-R1-Distill базуються, серед іншого, на загальнодоступних Qwen2.5 і Llama3, з якими поєднуються відповідні ліцензії Apache 2.0 і Llama.
  • Тим не менш, все це надається спільноті на дуже ліберальній основі, що стимулює експерименти та подальші інновації.

AI

Моделі DeepSeek-R1, R1-Zero і Distill: чим вони відрізняються?

З документації, опублікованоїна Hugging Face, випливає трирівневий поділ:

1. DeepSeek-R1-Zero

  • Навчання тільки за допомогою RL (навчання з підкріпленням), без попереднього SFT,
  • Модель може генерувати дуже складні ланцюжки міркувань (ланцюжки думок),
  • однак може страждати від повторень і проблем з читабельністю.

2 DeepSeek-R1

  • Включення фази SFT перед RL вирішило проблеми, зазначені в R1-Zero,
  • Краща консистенція і менша схильність до галюцинацій,
  • За результатами тестів (бенчмарків) порівнянний з OpenAI o1 в математичних, програмних та аналітичних завданнях.

3. DeepSeek-R1-Distill

  • «Схудлі» версії моделі (параметри 1.5B, 7B, 8B, 14B, 32B, 70B),
  • Дозволяють полегшити реалізацію на слабшому обладнанні,
  • Створені шляхом дистиляції (перенесення знань з повної моделі R1 на менші архітектури).

Китайсько-американське суперництво: санкції, напівпровідники і інновації

Як зазначаєSouth China Morning Post (цитується за china24.com), розробка китайських моделей ШІ відбувається на тлі обмеженого доступу до передових напівпровідників, спричиненого санкціями США.

Тим часом китайські компанії, зокрема DeepSeek або ByteDance (Дубао), демонструють, що навіть у такому несприятливому кліматі вони здатні створювати моделі, які

  • Незрівнянні із західними рішеннями,
  • і часто набагато дешевші в обслуговуванні.

Як зазначає Джим Фан (науковець Nvidia), проект DeepSeek може стати доказом того, що інновації та обмежувальні умови (менше фінансування, санкції) не обов’язково мають бути взаємовиключними.

Чи загрожує DeepSeek домінуванню OpenAI?

High-Flyer Capital Management та інші китайські фірми виходять на ринок з моделлю, яка

  • працює краще, ніж західні конкуренти в деяких тестах,
  • дешевша у розробці та підтримці
  • надає відкриті репозиторії, що дозволяє швидко розвивати екосистему на основі спільноти.

Якщо OpenAI (та інші гіганти) не розроблять стратегію конкуренції з дешевшими і не менш якісними моделями, китайські рішення – такі як DeepSeek або Doubao – можуть завоювати значну частку ринку.

LLM przyszłość

Ера дорогих моделей ШІ добігає кінця?

DeepSeek – живий приклад того, що ера гігантських і наддорогих моделей ШІ, можливо, добігає кінця. Завдяки відкритому коду, низьким витратам на навчання і дуже хорошим показникам в тестах, амбітні стартапи з Китаю можуть похитнути існуючий баланс сил в індустрії ШІ.

З огляду на зростаючу технологічну напруженість між Китаєм і США, подальший розвиток DeepSeek і подібних проектів, швидше за все, стане однією з головних ниток у глобальній конкуренції за лідерство в ШІ.

Джерела

  1. “Китайський DeepSeek перевершує всі моделі OpenAI. У Заходу велика проблема” – Павутина
  2. “DeepSeek. Китайський стартап створює ШІ з відкритим вихідним кодом» – china24.com
  3. Офіційний сайт DeepSeek-R1 на Hugging Face

Автор: власна компіляція на основі зазначених публікацій.

Текст призначений для інформаційних та журналістських цілей.

Podziel się

Podziel się

Potrzebujesz pomocy w tym temacie?

Напишіть нашому експерту

Матеуш Боркевич

КЕРУЮЧИЙ ПАРТНЕР, АДВОКАТ

+48 663 683 888 Контакти

Статті в цій категорії

З 2 лютого 2025 року діють статті 1-5 Закону про штучний інтелект, невиконання яких може призвести до великих штрафів

AI

більше
З 2 лютого 2025 року діють статті 1-5 Закону про штучний інтелект, невиконання яких може призвести до великих штрафів

І «Оскар» отримує… Ел Ел Броуді

AI

більше
І «Оскар» отримує… Ел Ел Броуді

Новий указ президента Трампа

AI

більше
Новий указ президента Трампа

Не працює GPT-чат. Тисячі запитів від користувачів

AI

більше
Не працює GPT-чат. Тисячі запитів від користувачів

Stargate Project – нова ера інфраструктури штучного інтелекту в США

AI

більше
Stargate Project – нова ера інфраструктури штучного інтелекту в США
більше

Контакти

Маєте запитання?zobacz telefon+48 570 913 713
zobacz e-mail

Офіс у Варшаві

03-737 Варшава

(Прес-центр Koneser - Spaces)

pl. Konesera 12 lok. 119

google maps

Офіс у Вроцлаві

53-659 Вроцлав

(Кворум D)

Генерала Владислава Сікорського 26

google maps

Привіт, користувачу,
ти вже підписаний на розсилку?

    Erfahren Sie hier, wie wir Ihre personenbezogenen Daten verarbeiten