DeepSeek – L’IA cinese open source. Hong Kong ha la possibilità di battere OpenAI?

11 Febbraio 2025 / Articoli

DeepSeek è una serie di modelli di lingua cinese che impressiona per le sue prestazioni e i bassi costi di formazione. Con il loro approccio open source, DeepSeek-R1 e DeepSeek-V3 stanno facendo scalpore nel settore dell’IA.

DeepSeek

Fonte: www.deepseek.com

DeepSeek: una rivoluzione nel mondo dell’IA nativa di Hong Kong

DeepSeek è sempre più presente nelle discussioni sul futuro dell’intelligenza artificiale. Questo progetto con sede a Hong Kong fornisce modelli linguistici di grandi dimensioni (Large Language Models, LLM) caratterizzati da codice aperto, alte prestazioni e – cosa fondamentale – costi di addestramento molto più bassi rispetto alle soluzioni concorrenti di OpenAI o Meta.

In questo articolo, diamo uno sguardo a DeepSeek-R1, DeepSeek-V3 e discutiamo le ultime informazioni sul processo di sviluppo e distribuzione di questi modelli, basandoci sia sul materiale ufficiale disponibile sullapiattaforma Hugging Face, sia sulle pubblicazioni diSpider’s Webechina24.com.

Indice dei contenuti

AI born

Come è nato DeepSeek?

Secondo recenti notizie di stampa, nel 2015 è stata fondata a Hong Kong High-Flyer Capital Management, una società che fino a poco tempo fa era quasi sconosciuta nel settore IT al di fuori dell’Asia. La situazione è cambiata radicalmente con DeepSeek, una serie di modelli linguistici di grandi dimensioni che hanno conquistato gli esperti della Silicon Valley.

Tuttavia, DeepSeek non è solo un progetto commerciale: è anche una ventata di apertura in un mondo solitamente dominato da soluzioni chiuse con budget enormi, come i modelli di OpenAI (tra cui GPT-4 e OpenAI o1).

DeepSeek-R1 e DeepSeek-V3: una breve introduzione tecnica

Secondo lapagina ufficiale del progetto su Hugging Face, DeepSeek sta attualmente pubblicando diverse varianti dei suoi modelli:

DeepSeek-R1-Zero: creato attraverso un addestramento avanzato senza la fase iniziale di SFT (Supervised Fine-Tuning), concentrandosi sul rafforzamento delle capacità di ragionamento (la cosiddetta catena del pensiero).
DeepSeek-R1: in cui gli autori hanno inserito un ulteriore fine-tuning pre-supervisionato (SFT) prima della fase di apprendimento per rinforzo, che ha migliorato la leggibilità e la coerenza del testo generato.
DeepSeek-V3: il nome del modello di base da cui sono derivate le varianti R1-Zero e R1 descritte sopra. DeepSeek-V3 può avere fino a 671 miliardi di parametri ed è stato addestrato in due mesi al costo di circa 5,58 milioni di dollari (dati:china24.com).

ai tech

Contesto tecnico

L’elevato numero di parametri (fino a 671 miliardi) si traduce nella capacità di generare dichiarazioni e analisi molto complesse.
Un processo di addestramento ottimizzato fa sì che anche un’architettura così grande non richieda un budget paragonabile a quello di OpenAI.
L’obiettivo principale: elaborare soluzioni a più fasi in modo indipendente e ridurre al minimo le “allucinazioni” così comuni in altri modelli.

Costi di formazione e prestazioni: dov’è il segreto?

SiaSpider’s Web chechina24.comsottolineano che i costi di addestramento di DeepSeek-R1 (circa 5 milioni di dollari per la prima iterazione) sono di gran lunga inferiori a quelli di cui si parla nel contesto del GPT-4 o di altri modelli OpenAI chiusi, per i quali si parla di miliardi di dollari.

Dove sta la ricetta del successo?

Metodi proprietari per ottimizzare il processo di apprendimento,

Architettura agile che consente al modello di apprendere in modo più efficiente con un numero inferiore di GPU,

Gestione economica dei dati di addestramento (evitando inutili ripetizioni e selezionando con precisione il set di dati).

Open source e licenze

DeepSeek, a differenza della maggior parte dei concorrenti occidentali, si basa su un codice aperto. Come si legge nella documentazione ufficiale del modellosu Hugging Face:

“La serie DeepSeek-R1 supporta l’uso commerciale, consente qualsiasi modifica e opera derivata, compresa, ma non solo, la distillazione…”.

Ciò significa che la comunità non solo è libera di utilizzare questi modelli, ma anche di modificarli e svilupparli. Inoltre, all’interno della linea DeepSeek-R1-Distill sono già state sviluppate diverse varianti, ottimizzate per ridurre i requisiti di risorse.

Importante:

I modelli DeepSeek-R1-Distill si basano, tra l’altro, su Qwen2.5 e Llama3, disponibili pubblicamente, con le relative licenze Apache 2.0 e Llama.

Tuttavia, il tutto è reso disponibile alla comunità su base molto libera, stimolando la sperimentazione e l’ulteriore innovazione.

I modelli DeepSeek-R1, R1-Zero e Distill: cosa li differenzia?

Dalla documentazione pubblicatasu Hugging Face, emerge una divisione in tre livelli:

1. DeepSeek-R1-Zero

Addestramento solo con RL (apprendimento per rinforzo), senza SFT preliminare,

Il modello può generare catene di ragionamento molto elaborate (chain-of-thought),

Tuttavia, può soffrire di problemi di ripetizione e leggibilità.

2. DeepSeek-R1

L’inclusione della fase SFT prima di RL ha risolto i problemi riscontrati in R1-Zero,

migliore coerenza e minore tendenza all’allucinazione,

Secondo i test (benchmark) è paragonabile a OpenAI o1 nei compiti matematici, di programmazione e di analisi.

3. DeepSeek-R1-Distill

Versioni “snelle” del modello (parametri 1.5B, 7B, 8B, 14B, 32B, 70B),

Consentono implementazioni più semplici su hardware più debole,

Creati attraverso la distillazione (trasferimento di conoscenze dal modello R1 completo ad architetture più piccole).

Rivalità Cina-USA: sanzioni, semiconduttori e innovazione

Come sottolineail South China Morning Post (citato da china24.com), lo sviluppo dei modelli di IA cinesi avviene in un contesto di accesso limitato ai semiconduttori avanzati, a causa delle sanzioni statunitensi.

Nel frattempo, le aziende cinesi – tra cui DeepSeek o ByteDance (Doubao) – stanno dimostrando che, anche in un clima così sfavorevole, sono in grado di creare modelli

Incomparabili con le soluzioni occidentali,

e spesso molto più economiche da mantenere.

Come osserva Jim Fan (scienziato di Nvidia), il progetto DeepSeek potrebbe essere la prova che l’innovazione e le condizioni restrittive (meno finanziamenti, sanzioni) non si escludono a vicenda.

DeepSeek minaccerà il dominio di OpenAI?

High-Flyer Capital Management e altre aziende cinesi stanno entrando nel mercato con un modello che:

si comporta meglio dei concorrenti occidentali in alcuni test,

è più economico da sviluppare e mantenere

fornisce repository aperti, consentendo un rapido sviluppo dell’ecosistema basato sulla comunità.

A meno che OpenAI (e altri colossi) non sviluppino una strategia per competere con modelli più economici e altrettanto validi, le soluzioni cinesi – come DeepSeek o Doubao – potrebbero attirare una quota significativa del mercato.

LLM przyszłość

L’era dei modelli di IA costosi sta per finire?

DeepSeek è un esempio vivente del fatto che l’era dei modelli di IA giganti e ultra costosi potrebbe essere giunta al termine. Con il suo codice aperto, i bassi costi di formazione e gli ottimi punteggi dei benchmark, le ambiziose startup cinesi potrebbero scuotere l’attuale equilibrio di potere nel settore dell’IA.

Date le crescenti tensioni tecnologiche tra Cina e Stati Uniti, è probabile che l’ulteriore sviluppo di DeepSeek e di progetti simili diventi uno dei fili conduttori della competizione globale per diventare leader nell’IA.

Fonti

Autore: compilazione propria basata sulle pubblicazioni indicate.

Testo a scopo informativo e giornalistico.

Condividere

Hai bisogno di aiuto con questo argomento?

Scrivi al nostro esperto

Mateusz Borkiewicz

Managing partner, attorney at law

mb@lbplegal.com +48 663 683 888 Contatto

Articoli in questa categoria

La MiCA non riguarda la DeFi. Cosa significa questo per il mercato delle criptoattività nell’UE?

Articoli

Maggiori informazioni

La MiCA non riguarda la DeFi. Cosa significa questo per il mercato delle criptoattività nell’UE?

Responsabilità per i danni causati dai veicoli autonomi: chi è responsabile ai sensi della legge?

Articoli

Maggiori informazioni

Responsabilità per i danni causati dai veicoli autonomi: chi è responsabile ai sensi della legge?

Jacek Cieśliński su Puls Biznesu riguardo alla corretta indicazione delle promozioni

Articoli

Maggiori informazioni

Jacek Cieśliński su Puls Biznesu riguardo alla corretta indicazione delle promozioni

Bugie verdi, conseguenze reali: il greenwashing alla luce della legge

Articoli

Maggiori informazioni

Bugie verdi, conseguenze reali: il greenwashing alla luce della legge

Atto europeo sull’accessibilità (EAA) – guida completa per le imprese

Articoli

Maggiori informazioni

Atto europeo sull’accessibilità (EAA) – guida completa per le imprese

Maggiori informazioni

DeepSeek – L’IA cinese open source. Hong Kong ha la possibilità di battere OpenAI?

Indice dei contenuti

Come è nato DeepSeek?

DeepSeek-R1 e DeepSeek-V3: una breve introduzione tecnica

Contesto tecnico

Costi di formazione e prestazioni: dov’è il segreto?

Open source e licenze

I modelli DeepSeek-R1, R1-Zero e Distill: cosa li differenzia?

1. DeepSeek-R1-Zero

2. DeepSeek-R1

3. DeepSeek-R1-Distill

Rivalità Cina-USA: sanzioni, semiconduttori e innovazione

DeepSeek minaccerà il dominio di OpenAI?

L’era dei modelli di IA costosi sta per finire?

Fonti

Ufficio a Varsavia

Ufficio a Breslavia

DeepSeek – L’IA cinese open source. Hong Kong ha la possibilità di battere OpenAI?

Indice dei contenuti

Come è nato DeepSeek?

DeepSeek-R1 e DeepSeek-V3: una breve introduzione tecnica

Contesto tecnico

Costi di formazione e prestazioni: dov’è il segreto?

Open source e licenze

I modelli DeepSeek-R1, R1-Zero e Distill: cosa li differenzia?

1. DeepSeek-R1-Zero

2. DeepSeek-R1

3. DeepSeek-R1-Distill

Rivalità Cina-USA: sanzioni, semiconduttori e innovazione

DeepSeek minaccerà il dominio di OpenAI?

L’era dei modelli di IA costosi sta per finire?

Fonti

Ufficio a Varsavia

Ufficio a Breslavia

Ustawienia Prywatności

Za pomocą suwaka można włączać i wyłączać różne typy plików ciasteczek:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie:

Ta strona będzie:

Ta strona internetowa nie będzie: