Inteligența artificială chineză ia prin surprindere giganții tehnologiei
DeepSeek-R1, cel mai recent model AI dezvoltat cu resurse reduse, provoacă giganții OpenAI, Google și Meta.
Articol de Radio România, 29 Ianuarie 2025, 12:06
Laboratorul chinez de inteligență artificială (AI) DeepSeek a surprins Silicon Valley prin dezvoltarea unui model lingvistic de mari dimensiuni (LLM) care a devenit unul dintre cei mai mari competitori ai ChatGPT, creat de compania americană OpenAI.
Cele mai recente modele DeepSeek, lansate luna aceasta, sunt considerate extrem de rapide și ieftine.
DeepSeek-R1, ultimul dintre modelele dezvoltate cu mai puține cipuri, deja provoacă giganții OpenAI, Google și Meta, ceea ce a dus la scăderea acțiunilor producătorului de cipuri Nvidia luni, informează Radio România citând Euronews.
De unde provine DeepSeek
Compania, cu sediul în Hangzhou, China, a fost fondată în iulie 2023 de către Liang Wenfeng, un inginer în informații și electronică, absolvent al Universității Zhejiang.
DeepSeek a fost parte a programului de incubare High-Flyer, un fond creat de expert în 2015. Ca și alți specialiști din industrie, Liang Wenfeng și-a propus să atingă nivelul de "inteligență generală artificială", capabilă să egaleze sau să depășească oamenii în diverse sarcini.
DeepSeek funcționează independent, având un model de finanțare care îi permite să urmeze proiecte AI ambițioase fără presiunea investitorilor externi, prioritizând cercetarea și dezvoltarea pe termen lung.
Echipa DeepSeek este formată din tineri absolvenți ai celor mai prestigioase universitați chinezești, iar procesul de recrutare al companiei pune accent pe competențe tehnice în detrimentul experienței de muncă.
Drumul DeepSeek a început în noiembrie 2023, odată cu lansarea DeepSeek Coder, un model open-source destinat sarcinilor de programare.
Acesta a fost urmat de DeepSeek LLM, conceput pentru a concura cu alte modele lingvistice majore. DeepSeek-V2, lansat în mai 2024, a câștigat popularitate datorită performanței puternice și costurilor reduse.
De asemenea, a forțat giganții chinezi precum ByteDance, Tencent, Baidu și Alibaba să reducă prețurile propriilor modele AI.
Capacitatea modelelor DeepSeek
DeepSeek-V2 a fost ulterior înlocuit de DeepSeek-Coder-V2, un model mai avansat cu 236 de miliarde de parametri.
Proiectat pentru solicitări complexe de programare, modelul are o fereastră de context de până la 128.000 de tokeni.
Fereastra de context reprezintă lungimea maximă a textului de intrare pe care modelul o poate procesa simultan. O fereastră mai mare permite modelului să analizeze, rezumeze sau înțeleagă texte mai lungi, ceea ce este un avantaj major pentru documente, cărți sau dialoguri complexe.
Modelele cele mai recente, DeepSeek-V3 și DeepSeek-R1, au consolidat încă și mai mult poziția companiei.
Cu 671.000 de parametri, DeepSeek-V3 necesită mult mai puține resurse decât concurenții săi, a demonstrat performanțe impresionante în diverse teste comparative.
Lansat luna aceasta, DeepSeek-R1 este specializat în sarcini complexe precum raționamentul, programarea și matematica. Datorită acestor capabilități, el concurează direct cu o1, unul dintre cele mai recente modele ChatGPT.
Gratuit pentru utilizatorii finali
Unul dintre motivele principale pentru care DeepSeek a atras atenția este faptul că este gratuit pentru utilizatorii finali.
Este primul sistem AI avansat disponibil gratuit. Alte sisteme puternice, precum OpenAI o1 și Claude Sonnet, necesită un abonament plătit. Chiar și unele dintre acestea impun cote de folosire.
Google Gemini este, de asemenea, disponibil gratuit, dar versiunile gratuite sunt limitate la modelele mai vechi. DeepSeek nu are astfel de limitări pentru moment.
Cât de sigur este
DeepSeek, la fel ca alte servicii, solicită datele utilizatorilor, care sunt probabil stocate pe servere din China.
Deoarece este open-source, cercetătorii independenți pot examina codul modelului pentru a determina nivelul său de securitate. Mai multe informații despre posibilele probleme de securitate sunt așteptate în perioada următoare.
Compania a semnat parteneriate strategice pentru a-și spori capacitățile tehnologice, inclusiv cu producătorul american de cipuri AMD.
Potrivit Forbes, DeepSeek a folosit GPU-urile AMD Instinct și software-ul ROCM pentru a dezvolta DeepSeek-V3.
MIT Technology Review a raportat că Liang Wenfeng a achiziționat un stoc considerabil de cipuri Nvidia A100, interzise ulterior pentru export în China.
Restricțiile SUA privind exportul de cipuri au forțat DeepSeek să creeze algoritmi mai eficienți energetic pentru a compensa lipsa puterii de calcul.
Cum a fost primit DeepSeek
Alexandr Wang, CEO ScaleAI, a numit produsul DeepSeek "un model revoluționar" la Forumul Economic Mondial de la Davos.
În timp ce DeepSeek a surprins rivalii americani, unii analiști avertizează asupra implicațiilor geopolitice ale lansării sale.
Gregory Allen, director la Wadhwani AI Center, a afirmat că lansarea modelului DeepSeek este un mesaj politic în contextul restricțiilor impuse Chinei de către SUA.