DeepSeek – китайський штучний інтелект з відкритим кодом. Чи є у Гонконгу шанс перемогти OpenAI?
11 Лютого 2025 / AI
DeepSeek – це серія китайськомовних моделей, які вражають своєю продуктивністю та низькою вартістю навчання. Завдяки своєму підходу з відкритим вихідним кодом DeepSeek-R1 і DeepSeek-V3 викликають неабиякий ажіотаж в індустрії ШІ.
Джерело: www.deepseek.com
DeepSeek: революція в світі ШІ родом з Гонконгу
DeepSeek все частіше згадується в дискусіях про майбутнє штучного інтелекту. Цей гонконгський проект пропонує великі мовні моделі (LLM), що характеризуються відкритим кодом, високою продуктивністю і – що дуже важливо – набагато меншими витратами на навчання, ніж конкуруючі рішення від OpenAI або Meta.
У цій статті ми розглянемо DeepSeek-R1, DeepSeek-V3 та обговоримо останню інформацію про процес розробки та розповсюдження цих моделей – на основі як офіційних матеріалів, доступних наHugging Face, так і публікацій зSpider’s Webтаchina24.com.
Зміст
- Як народився DeepSeek?
- DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ
- Витрати на навчання та продуктивність: у чому секрет?
- Відкритий вихідний код та ліцензування
- Моделі DeepSeek-R1, R1-Zero та Distill: чим вони відрізняються?
- Китайсько-американське суперництво: санкції, напівпровідники та інновації
- Чи загрожує DeepSeek домінуванню OpenAI?
- Підсумок
- Джерела
Як народився DeepSeek?
Останні повідомлення в пресі вказують на те, що в 2015 році в Гонконзі була заснована компанія High-Flyer Capital Management – компанія, яка донедавна була майже невідома в ІТ-індустрії за межами Азії. Ситуація кардинально змінилася з появою DeepSeek, серії великих мовних моделей, які взяли штурмом експертів Кремнієвої долини.
Однак DeepSeek – це не просто комерційний проект, це також подих відкритості у світі, де зазвичай домінують закриті рішення з величезними бюджетами, такі як моделі від OpenAI (в тому числі GPT-4 і OpenAI o1).
DeepSeek-R1 і DeepSeek-V3: короткий технічний вступ
Згідно зофіційною сторінкою проекту на Hugging Face, DeepSeek наразі публікує кілька варіантів своїх моделей:
- DeepSeek-R1-Zero: створена в результаті поглибленого навчання без початкового етапу SFT (Supervised Fine-Tuning), з акцентом на посилення навичок міркування (так званий ланцюжок думок).
- DeepSeek-R1: автори додали додаткове точне налаштування під контролем (SFT) перед етапом навчання з підкріпленням, що покращило читабельність і послідовність згенерованого тексту.
- DeepSeek-V3: названа на честь базової моделі, з якої походять описані вище варіанти R1-Zero і R1. DeepSeek-V3 може мати до 671 мільярда параметрів і була навчена за два місяці за ціною приблизно $5,58 млн (дані:china24.com).
Технічний контекст
- Велика кількість параметрів (до 671 мільярда) означає здатність генерувати дуже складні твердження та аналізи.
- Оптимізований процес навчання гарантує, що навіть така велика архітектура не потребує бюджету, порівнянного з OpenAI.
- Основна мета: самостійно розробляти багатокрокові рішення і мінімізувати «галюцинації», які так часто зустрічаються в інших моделях.
Витрати на навчання та продуктивність: у чому секрет?
ІSpider’s Web, іchina24.comвідзначають, що витрати на навчання DeepSeek-R1 (близько 5 мільйонів доларів США для першої ітерації) в рази нижчі, ніж ті, про які ми чуємо в контексті GPT-4 або інших закритих моделей OpenAI, де, як кажуть, задіяні мільярди доларів.
У чому ж полягає рецепт успіху?
- Власні методи оптимізації процесу навчання,
- Гнучка архітектура, яка дозволяє моделі ефективніше навчатися на меншій кількості графічних процесорів,
- економне управління навчальними даними (уникнення непотрібних повторень і точний вибір набору даних).
Відкритий вихідний код та ліцензування
DeepSeek, на відміну від більшості західних конкурентів, покладається на відкритий код. Як зазначено в офіційній документації до моделіHugging Face:
«Серія DeepSeek-R1 підтримує комерційне використання, дозволяє будь-які модифікації та похідні роботи, включаючи, але не обмежуючись, дистиляцію…».
Це означає, що спільнота може не тільки вільно використовувати ці моделі, але й модифікувати та розвивати їх. Крім того, в рамках лінійки DeepSeek-R1-Distill вже розроблено кілька варіантів, оптимізованих для менших потреб у ресурсах.
Важливо:
- Моделі DeepSeek-R1-Distill базуються, серед іншого, на загальнодоступних Qwen2.5 і Llama3, з якими поєднуються відповідні ліцензії Apache 2.0 і Llama.
- Тим не менш, все це надається спільноті на дуже ліберальній основі, що стимулює експерименти та подальші інновації.
Моделі DeepSeek-R1, R1-Zero і Distill: чим вони відрізняються?
З документації, опублікованоїна Hugging Face, випливає трирівневий поділ:
1. DeepSeek-R1-Zero
- Навчання тільки за допомогою RL (навчання з підкріпленням), без попереднього SFT,
- Модель може генерувати дуже складні ланцюжки міркувань (ланцюжки думок),
- однак може страждати від повторень і проблем з читабельністю.
2 DeepSeek-R1
- Включення фази SFT перед RL вирішило проблеми, зазначені в R1-Zero,
- Краща консистенція і менша схильність до галюцинацій,
- За результатами тестів (бенчмарків) порівнянний з OpenAI o1 в математичних, програмних та аналітичних завданнях.
3. DeepSeek-R1-Distill
- «Схудлі» версії моделі (параметри 1.5B, 7B, 8B, 14B, 32B, 70B),
- Дозволяють полегшити реалізацію на слабшому обладнанні,
- Створені шляхом дистиляції (перенесення знань з повної моделі R1 на менші архітектури).
Китайсько-американське суперництво: санкції, напівпровідники і інновації
Як зазначаєSouth China Morning Post (цитується за china24.com), розробка китайських моделей ШІ відбувається на тлі обмеженого доступу до передових напівпровідників, спричиненого санкціями США.
Тим часом китайські компанії, зокрема DeepSeek або ByteDance (Дубао), демонструють, що навіть у такому несприятливому кліматі вони здатні створювати моделі, які
- Незрівнянні із західними рішеннями,
- і часто набагато дешевші в обслуговуванні.
Як зазначає Джим Фан (науковець Nvidia), проект DeepSeek може стати доказом того, що інновації та обмежувальні умови (менше фінансування, санкції) не обов’язково мають бути взаємовиключними.
Чи загрожує DeepSeek домінуванню OpenAI?
High-Flyer Capital Management та інші китайські фірми виходять на ринок з моделлю, яка
- працює краще, ніж західні конкуренти в деяких тестах,
- дешевша у розробці та підтримці
- надає відкриті репозиторії, що дозволяє швидко розвивати екосистему на основі спільноти.
Якщо OpenAI (та інші гіганти) не розроблять стратегію конкуренції з дешевшими і не менш якісними моделями, китайські рішення – такі як DeepSeek або Doubao – можуть завоювати значну частку ринку.
Ера дорогих моделей ШІ добігає кінця?
DeepSeek – живий приклад того, що ера гігантських і наддорогих моделей ШІ, можливо, добігає кінця. Завдяки відкритому коду, низьким витратам на навчання і дуже хорошим показникам в тестах, амбітні стартапи з Китаю можуть похитнути існуючий баланс сил в індустрії ШІ.
З огляду на зростаючу технологічну напруженість між Китаєм і США, подальший розвиток DeepSeek і подібних проектів, швидше за все, стане однією з головних ниток у глобальній конкуренції за лідерство в ШІ.
Джерела
- “Китайський DeepSeek перевершує всі моделі OpenAI. У Заходу велика проблема” – Павутина
- “DeepSeek. Китайський стартап створює ШІ з відкритим вихідним кодом» – china24.com
- Офіційний сайт DeepSeek-R1 на Hugging Face
Автор: власна компіляція на основі зазначених публікацій.
Текст призначений для інформаційних та журналістських цілей.
Potrzebujesz pomocy w tym temacie?
Напишіть нашому експерту
Статті в цій категорії
З 2 лютого 2025 року діють статті 1-5 Закону про штучний інтелект, невиконання яких може призвести до великих штрафів
З 2 лютого 2025 року діють статті 1-5 Закону про штучний інтелект, невиконання яких може призвести до великих штрафівНе працює GPT-чат. Тисячі запитів від користувачів
Не працює GPT-чат. Тисячі запитів від користувачівStargate Project – нова ера інфраструктури штучного інтелекту в США
Stargate Project – нова ера інфраструктури штучного інтелекту в США