DeepSeek – Chinas Open-Source-KI. Hat Hongkong eine Chance, OpenAI zu schlagen?
11 Februar 2025 / AI
DeepSeek ist eine Reihe von chinesischen Sprachmodellen, die durch ihre Leistung und geringen Trainingskosten beeindrucken. Mit ihrem Open-Source-Ansatz sorgen DeepSeek-R1 und DeepSeek-V3 für Aufsehen in der KI-Branche.
Quelle: www.deepseek.com
DeepSeek: eine Revolution in der Welt der KI mit Sitz in Hongkong
DeepSeek taucht immer häufiger in Diskussionen über die Zukunft der künstlichen Intelligenz auf. Dieses in Hongkong ansässige Projekt liefert Large Language Models (LLMs), die sich durch offenen Code, hohe Leistung und – was entscheidend ist – viel niedrigere Trainingskosten als konkurrierende Lösungen von OpenAI oder Meta auszeichnen.
In diesem Artikel werfen wir einen Blick auf DeepSeek-R1 und DeepSeek-V3 und erörtern die neuesten Informationen über den Entwicklungs- und Vertriebsprozess dieser Modelle – basierend auf dem offiziellen Material, das auf derPlattform Hugging Face verfügbar ist, sowie auf Veröffentlichungen vonSpider’s Webundchina24.com.
Inhaltsübersicht
- Wie wurde DeepSeek geboren?
- DeepSeek-R1 und DeepSeek-V3: eine kurze technische Einführung
- Trainingskosten und Leistung: Wo liegt das Geheimnis?
- Offene Quelle und Lizenzierung
- Die Modelle DeepSeek-R1, R1-Zero und Distill: was unterscheidet sie?
- Rivalität zwischen China und den USA: Sanktionen, Halbleiter und Innovation
- Wird DeepSeek die Vorherrschaft von OpenAI bedrohen?
- Zusammenfassung
- Quellen
Wie wurde DeepSeek geboren?
Jüngsten Presseberichten zufolge wurde High-Flyer Capital Management im Jahr 2015 in Hongkong gegründet – ein Unternehmen, das bis vor kurzem in der IT-Branche außerhalb Asiens nahezu unbekannt war. Mit DeepSeek, einer Reihe von großen Sprachmodellen, die die Experten im Silicon Valley im Sturm erobert haben, hat sich die Situation grundlegend geändert.
DeepSeek ist jedoch nicht nur ein kommerzielles Projekt – es ist auch ein Hauch von Offenheit in einer Welt, die normalerweise von geschlossenen Lösungen mit riesigen Budgets dominiert wird, wie z. B. die Modelle von OpenAI (einschließlich GPT-4 und OpenAI o1).
DeepSeek-R1 und DeepSeek-V3: eine kurze technische Einführung
Lautder offiziellen Projektseite auf Hugging Face veröffentlicht DeepSeek derzeit mehrere Varianten seiner Modelle:
- DeepSeek-R1-Zero: erstellt durch fortgeschrittenes Training ohne die anfängliche SFT-Phase (Supervised Fine-Tuning), wobei der Schwerpunkt auf der Stärkung der logischen Fähigkeiten liegt (sogenannte chain-of-thought).
- DeepSeek-R1: Die Autoren haben vor der Reinforcement-Learning-Phase ein zusätzliches Pre-Supervised Fine-Tuning (SFT) eingebaut, das die Lesbarkeit und Konsistenz des generierten Textes verbessert.
- DeepSeek-V3: benannt nach dem Basismodell, von dem die oben beschriebenen Varianten R1-Zero und R1 abgeleitet sind. DeepSeek-V3 kann bis zu 671 Milliarden Parameter haben und wurde in zwei Monaten mit einem Kostenaufwand von etwa 5,58 Millionen Dollar trainiert (Daten:china24.com).
Technischer Kontext
- Die hohe Anzahl von Parametern (bis zu 671 Milliarden) ermöglicht es, hochkomplexe Aussagen und Analysen zu erstellen.
- Ein optimierter Trainingsprozess sorgt dafür, dass selbst eine so große Architektur kein mit OpenAI vergleichbares Budget benötigt.
- Das Hauptziel: selbständige Erarbeitung von mehrstufigen Lösungen und Minimierung der bei anderen Modellen üblichen „Halluzinationen“.
Trainingskosten und Leistung: Wo liegt das Geheimnis?
SowohlSpider’s Web als auchchina24.comweisen darauf hin, dass die Kosten für das Training von DeepSeek-R1 (rund 5 Millionen US-Dollar für die erste Iteration) um ein Vielfaches niedriger sind als die Kosten, von denen man im Zusammenhang mit GPT-4 oder anderen geschlossenen OpenAI-Modellen hört, bei denen es um Milliarden von Dollar gehen soll.
Wo liegt das Erfolgsrezept?
- Proprietäre Methoden zur Optimierung des Lernprozesses,
- Agile Architektur, die es dem Modell ermöglicht, mit weniger GPUs effizienter zu lernen,
- Sparsame Verwaltung der Trainingsdaten (Vermeidung unnötiger Wiederholungen und genaue Auswahl des Datensatzes).
Offene Quelle und Lizenzierung
Im Gegensatz zu den meisten westlichen Wettbewerbern basiert DeepSeek auf offenem Code. In der offiziellen Modelldokumentationvon Hugging Face heißt es:
„Die DeepSeek-R1-Serie unterstützt die kommerzielle Nutzung, erlaubt jegliche Modifikationen und abgeleitete Arbeiten, einschließlich, aber nicht beschränkt auf Destillation…“.
Das bedeutet, dass es der Gemeinschaft nicht nur freisteht, diese Modelle zu verwenden, sondern sie auch zu verändern und weiterzuentwickeln. Darüber hinaus wurden innerhalb der DeepSeek-R1-Distill-Linie bereits mehrere Varianten entwickelt, die für einen geringeren Ressourcenbedarf optimiert sind.
Wichtig!
- Die DeepSeek-R1-Distill-Modelle basieren u.a. auf den öffentlich verfügbaren Qwen2.5 und Llama3, mit denen die entsprechenden Apache 2.0- und Llama-Lizenzen verbunden sind.
- Nichtsdestotrotz wird das Ganze der Community auf einer sehr liberalen Basis zur Verfügung gestellt – was das Experimentieren und weitere Innovationen anregt.
Die Modelle DeepSeek-R1, R1-Zero und Distill: Was unterscheidet sie?
Aus derauf Hugging Faceveröffentlichten Dokumentation geht eine Dreiteilung hervor:
1. DeepSeek-R1-Zero
- Training nur mit RL (Reinforcement Learning), ohne vorherige SFT,
- Das Modell kann sehr ausgefeilte Argumentationsketten erzeugen (chain-of-thought),
- Es kann jedoch unter Wiederholungs- und Lesbarkeitsproblemen leiden.
2) DeepSeek-R1
- Die Einbeziehung der SFT-Phase vor RL löste die in R1-Zero festgestellten Probleme,
- Bessere Konsistenz und weniger Neigung zu Halluzinationen,
- Laut Tests (Benchmarks) ist es vergleichbar mit OpenAI o1 in mathematischen, programmtechnischen und analytischen Aufgaben.
3) DeepSeek-R1-Distill
- „Schlanke“ Versionen des Modells (1,5B, 7B, 8B, 14B, 32B, 70B Parameter),
- Ermöglichen einfachere Implementierungen auf schwächerer Hardware,
- Erstellt durch Destillation (Übertragung von Wissen vom vollständigen R1-Modell auf kleinere Architekturen).
Rivalität zwischen China und den USA: Sanktionen, Halbleiter und Innovation
Wiedie South China Morning Post feststellt (zitiert von china24.com), findet die Entwicklung chinesischer KI-Modelle vor dem Hintergrund des eingeschränkten Zugangs zu modernen Halbleitern statt, der durch die US-Sanktionen bedingt ist.
Inzwischen zeigen chinesische Unternehmen – darunter DeepSeek oder ByteDance (Doubao) -, dass sie selbst in einem solch ungünstigen Klima in der Lage sind, Modelle zu entwickeln
- Sie sind mit westlichen Lösungen nicht vergleichbar,
- und oft viel billiger in der Wartung.
Wie Jim Fan (Nvidia-Wissenschaftler) anmerkt, könnte das DeepSeek-Projekt ein Beweis dafür sein, dass sich Innovation und restriktive Bedingungen (weniger Finanzmittel, Sanktionen) nicht gegenseitig ausschließen müssen.
Wird DeepSeek die Vorherrschaft von OpenAI bedrohen?
High-Flyer Capital Management und andere chinesische Firmen betreten den Markt mit einem Modell, das:
- in einigen Tests besser abschneidet als die westliche Konkurrenz,
- billiger in der Entwicklung und Wartung ist,
- offene Repositories zur Verfügung stellt, die eine rasche Entwicklung eines gemeinschaftsbasierten Ökosystems ermöglichen.
Wenn OpenAI (und andere Giganten) keine Strategie entwickeln, um mit billigeren und ebenso guten Modellen zu konkurrieren, könnten chinesische Lösungen – wie DeepSeek oder Doubao – einen bedeutenden Marktanteil gewinnen.
Geht die Ära der teuren KI-Modelle zu Ende?
DeepSeek ist ein lebendiges Beispiel dafür, dass die Ära der riesigen und extrem teuren KI-Modelle möglicherweise zu Ende geht. Mit seinem offenen Code, niedrigen Trainingskosten und sehr guten Benchmark-Ergebnissen könnten ehrgeizige Startups aus China das bestehende Kräfteverhältnis in der KI-Branche ins Wanken bringen.
Angesichts der zunehmenden technologischen Spannungen zwischen China und den USA dürfte die weitere Entwicklung von DeepSeek und ähnlichen Projekten zu einem der Hauptthemen im globalen Wettbewerb um die Führungsposition im Bereich der KI werden.
Quellen
- „Chinas DeepSeek schlägt alle OpenAI-Modelle. Der Westen hat ein großes Problem“ – Spider’s Web
- „DeepSeek. Chinesisches Startup baut Open-Source-KI“ – china24.com
- DeepSeek-R1 offizielle Seite auf Hugging Face
Autor: eigene Zusammenstellung auf der Grundlage der angegebenen Veröffentlichungen.
Der Text dient zur Information und für journalistische Zwecke.
Brauchen Sie Hilfe zu diesem Thema?
Schreiben Sie an unseren Experten
Artikel in dieser Kategorie
Ab dem 2. Februar 2025 gelten die Artikel 1-5 des AI-Gesetzes, deren Nichteinhaltung mit hohen Strafen geahndet werden kann
Ab dem 2. Februar 2025 gelten die Artikel 1-5 des AI-Gesetzes, deren Nichteinhaltung mit hohen Strafen geahndet werden kannBREAKING Die neue Durchführungsverordnung von Präsident Trump
BREAKING Die neue Durchführungsverordnung von Präsident TrumpGPT-Chat funktioniert nicht. Tausende von Anfragen von Nutzern
GPT-Chat funktioniert nicht. Tausende von Anfragen von NutzernTrump ändert Regulierung künstlicher Intelligenz – ein neuer Ansatz für KI in den USA
Trump ändert Regulierung künstlicher Intelligenz – ein neuer Ansatz für KI in den USA