DeepSeek – L’IA cinese open source. Hong Kong ha la possibilità di battere OpenAI?
11 Febbraio 2025 / Articoli
DeepSeek è una serie di modelli di lingua cinese che impressiona per le sue prestazioni e i bassi costi di formazione. Con il loro approccio open source, DeepSeek-R1 e DeepSeek-V3 stanno facendo scalpore nel settore dell’IA.
Fonte: www.deepseek.com
DeepSeek: una rivoluzione nel mondo dell’IA nativa di Hong Kong
DeepSeek è sempre più presente nelle discussioni sul futuro dell’intelligenza artificiale. Questo progetto con sede a Hong Kong fornisce modelli linguistici di grandi dimensioni (Large Language Models, LLM) caratterizzati da codice aperto, alte prestazioni e – cosa fondamentale – costi di addestramento molto più bassi rispetto alle soluzioni concorrenti di OpenAI o Meta.
In questo articolo, diamo uno sguardo a DeepSeek-R1, DeepSeek-V3 e discutiamo le ultime informazioni sul processo di sviluppo e distribuzione di questi modelli, basandoci sia sul materiale ufficiale disponibile sullapiattaforma Hugging Face, sia sulle pubblicazioni diSpider’s Webechina24.com.
Indice dei contenuti
- Come è nato DeepSeek?
- DeepSeek-R1 e DeepSeek-V3: una breve introduzione tecnica
- Costi di formazione e prestazioni: dov’è il segreto?
- Open source e licenze
- I modelli DeepSeek-R1, R1-Zero e Distill: cosa li differenzia?
- Rivalità Cina-USA: sanzioni, semiconduttori e innovazione
- DeepSeek minaccerà il dominio di OpenAI?
- Sintesi
- Fonti
Come è nato DeepSeek?
Secondo recenti notizie di stampa, nel 2015 è stata fondata a Hong Kong High-Flyer Capital Management, una società che fino a poco tempo fa era quasi sconosciuta nel settore IT al di fuori dell’Asia. La situazione è cambiata radicalmente con DeepSeek, una serie di modelli linguistici di grandi dimensioni che hanno conquistato gli esperti della Silicon Valley.
Tuttavia, DeepSeek non è solo un progetto commerciale: è anche una ventata di apertura in un mondo solitamente dominato da soluzioni chiuse con budget enormi, come i modelli di OpenAI (tra cui GPT-4 e OpenAI o1).
DeepSeek-R1 e DeepSeek-V3: una breve introduzione tecnica
Secondo lapagina ufficiale del progetto su Hugging Face, DeepSeek sta attualmente pubblicando diverse varianti dei suoi modelli:
- DeepSeek-R1-Zero: creato attraverso un addestramento avanzato senza la fase iniziale di SFT (Supervised Fine-Tuning), concentrandosi sul rafforzamento delle capacità di ragionamento (la cosiddetta catena del pensiero).
- DeepSeek-R1: in cui gli autori hanno inserito un ulteriore fine-tuning pre-supervisionato (SFT) prima della fase di apprendimento per rinforzo, che ha migliorato la leggibilità e la coerenza del testo generato.
- DeepSeek-V3: il nome del modello di base da cui sono derivate le varianti R1-Zero e R1 descritte sopra. DeepSeek-V3 può avere fino a 671 miliardi di parametri ed è stato addestrato in due mesi al costo di circa 5,58 milioni di dollari (dati:china24.com).
Contesto tecnico
- L’elevato numero di parametri (fino a 671 miliardi) si traduce nella capacità di generare dichiarazioni e analisi molto complesse.
- Un processo di addestramento ottimizzato fa sì che anche un’architettura così grande non richieda un budget paragonabile a quello di OpenAI.
- L’obiettivo principale: elaborare soluzioni a più fasi in modo indipendente e ridurre al minimo le “allucinazioni” così comuni in altri modelli.
Costi di formazione e prestazioni: dov’è il segreto?
SiaSpider’s Web chechina24.comsottolineano che i costi di addestramento di DeepSeek-R1 (circa 5 milioni di dollari per la prima iterazione) sono di gran lunga inferiori a quelli di cui si parla nel contesto del GPT-4 o di altri modelli OpenAI chiusi, per i quali si parla di miliardi di dollari.
Dove sta la ricetta del successo?
- Metodi proprietari per ottimizzare il processo di apprendimento,
- Architettura agile che consente al modello di apprendere in modo più efficiente con un numero inferiore di GPU,
- Gestione economica dei dati di addestramento (evitando inutili ripetizioni e selezionando con precisione il set di dati).
Open source e licenze
DeepSeek, a differenza della maggior parte dei concorrenti occidentali, si basa su un codice aperto. Come si legge nella documentazione ufficiale del modellosu Hugging Face:
“La serie DeepSeek-R1 supporta l’uso commerciale, consente qualsiasi modifica e opera derivata, compresa, ma non solo, la distillazione…”.
Ciò significa che la comunità non solo è libera di utilizzare questi modelli, ma anche di modificarli e svilupparli. Inoltre, all’interno della linea DeepSeek-R1-Distill sono già state sviluppate diverse varianti, ottimizzate per ridurre i requisiti di risorse.
Importante:
- I modelli DeepSeek-R1-Distill si basano, tra l’altro, su Qwen2.5 e Llama3, disponibili pubblicamente, con le relative licenze Apache 2.0 e Llama.
- Tuttavia, il tutto è reso disponibile alla comunità su base molto libera, stimolando la sperimentazione e l’ulteriore innovazione.
I modelli DeepSeek-R1, R1-Zero e Distill: cosa li differenzia?
Dalla documentazione pubblicatasu Hugging Face, emerge una divisione in tre livelli:
1. DeepSeek-R1-Zero
- Addestramento solo con RL (apprendimento per rinforzo), senza SFT preliminare,
- Il modello può generare catene di ragionamento molto elaborate (chain-of-thought),
- Tuttavia, può soffrire di problemi di ripetizione e leggibilità.
2. DeepSeek-R1
- L’inclusione della fase SFT prima di RL ha risolto i problemi riscontrati in R1-Zero,
- migliore coerenza e minore tendenza all’allucinazione,
- Secondo i test (benchmark) è paragonabile a OpenAI o1 nei compiti matematici, di programmazione e di analisi.
3. DeepSeek-R1-Distill
- Versioni “snelle” del modello (parametri 1.5B, 7B, 8B, 14B, 32B, 70B),
- Consentono implementazioni più semplici su hardware più debole,
- Creati attraverso la distillazione (trasferimento di conoscenze dal modello R1 completo ad architetture più piccole).
Rivalità Cina-USA: sanzioni, semiconduttori e innovazione
Come sottolineail South China Morning Post (citato da china24.com), lo sviluppo dei modelli di IA cinesi avviene in un contesto di accesso limitato ai semiconduttori avanzati, a causa delle sanzioni statunitensi.
Nel frattempo, le aziende cinesi – tra cui DeepSeek o ByteDance (Doubao) – stanno dimostrando che, anche in un clima così sfavorevole, sono in grado di creare modelli
- Incomparabili con le soluzioni occidentali,
- e spesso molto più economiche da mantenere.
Come osserva Jim Fan (scienziato di Nvidia), il progetto DeepSeek potrebbe essere la prova che l’innovazione e le condizioni restrittive (meno finanziamenti, sanzioni) non si escludono a vicenda.
DeepSeek minaccerà il dominio di OpenAI?
High-Flyer Capital Management e altre aziende cinesi stanno entrando nel mercato con un modello che:
- si comporta meglio dei concorrenti occidentali in alcuni test,
- è più economico da sviluppare e mantenere
- fornisce repository aperti, consentendo un rapido sviluppo dell’ecosistema basato sulla comunità.
A meno che OpenAI (e altri colossi) non sviluppino una strategia per competere con modelli più economici e altrettanto validi, le soluzioni cinesi – come DeepSeek o Doubao – potrebbero attirare una quota significativa del mercato.
L’era dei modelli di IA costosi sta per finire?
DeepSeek è un esempio vivente del fatto che l’era dei modelli di IA giganti e ultra costosi potrebbe essere giunta al termine. Con il suo codice aperto, i bassi costi di formazione e gli ottimi punteggi dei benchmark, le ambiziose startup cinesi potrebbero scuotere l’attuale equilibrio di potere nel settore dell’IA.
Date le crescenti tensioni tecnologiche tra Cina e Stati Uniti, è probabile che l’ulteriore sviluppo di DeepSeek e di progetti simili diventi uno dei fili conduttori della competizione globale per diventare leader nell’IA.
Fonti
- “DeepSeek della Cina batte tutti i modelli OpenAI. L’Occidente ha un grosso problema” – La tela del ragno
- “DeepSeek. Una startup cinese costruisce un’intelligenza artificiale open-source” – china24.com
- Il sito ufficiale di DeepSeek-R1 su Hugging Face
Autore: compilazione propria basata sulle pubblicazioni indicate.
Testo a scopo informativo e giornalistico.
Hai bisogno di aiuto con questo argomento?
Scrivi al nostro esperto
Articoli in questa categoria
Fondo PMI 2025 – finanziamenti per la registrazione dei marchi per le PMI
Fondo PMI 2025 – finanziamenti per la registrazione dei marchi per le PMIAspetti fiscali dell’attività commerciale in Germania
Aspetti fiscali dell’attività commerciale in GermaniaDal 2 febbraio 2025 sono in vigore gli articoli 1-5 della legge sull’AI, il mancato rispetto può comportare pesanti sanzioni
Dal 2 febbraio 2025 sono in vigore gli articoli 1-5 della legge sull’AI, il mancato rispetto può comportare pesanti sanzioniTrump cambia la normativa sull’intelligenza artificiale: un nuovo approccio all’IA negli Stati Uniti
Trump cambia la normativa sull’intelligenza artificiale: un nuovo approccio all’IA negli Stati UnitiIn che modo l’intelligenza artificiale può migliorare l’analisi dei dati finanziari della GOCC e aumentare la trasparenza dell’ente?
In che modo l’intelligenza artificiale può migliorare l’analisi dei dati finanziari della GOCC e aumentare la trasparenza dell’ente?