
شرکت چینی دیپسیک (DeepSeek) در مقالهای منتشرشده در مجله Nature اعلام کرد که آموزش مدل R1 تنها 294 هزار دلار هزینه داشته است؛ رقمی که فاصله زیادی با هزینههای چندصد میلیون دلاری رقبای آمریکایی دارد. این خبر بار دیگر نگاهها را به رقابت جهانی بر سر مدلهای بزرگ هوش مصنوعی معطوف کرده است.
به گزارش همیار وردپرس، انتشار جزئیات مربوط به هزینه آموزش مدل R1 توسط دیپسیک، پرسشهای تازهای درباره جایگاه چین در بازار جهانی هوش مصنوعی ایجاد کرده است. این شرکت میگوید برای آموزش این مدل، از 512 تراشه NVIDIA H800 استفاده کرده و کل هزینه به 294 هزار دلار رسیده است. این رقم در مقایسه با هزینههای اعلامشده توسط شرکتهای غربی بسیار اندک به نظر میرسد. به عنوان نمونه، سم آلتمن مدیرعامل OpenAI، سال 2023 تأکید کرده بود که هزینه آموزش مدلهای پایهای این شرکت بیش از 100 میلیون دلار بوده است.
مدل R1 که بهعنوان یک مدل منطقی-تحلیلی معرفی شده، در ژانویه منتشر شد و نگرانیهایی را در بازار جهانی سرمایهگذاری برانگیخت. بسیاری از سرمایهگذاران نگران شدند که موفقیت دیپسیک میتواند سهم شرکتهای پیشرو مانند انویدیا را کاهش دهد و ارزش سهام فناوری را تحت تأثیر قرار دهد. پس از این اتفاق، شرکت و بنیانگذار آن، لیانگ وینفنگ، تا حد زیادی از رسانهها دور ماندند.
در این گزارش علمی، دیپسیک برای نخستین بار به طور غیرمستقیم به برخی انتقادهای مقامات آمریکایی درباره منابع و روشهای خود پاسخ داده است. این شرکت تأکید کرده که بخشی از موفقیت آن ناشی از استفاده از روش «تقطیر» (Distillation) است؛ روشی که در آن یک مدل هوش مصنوعی از یک مدل بزرگتر یاد میگیرد و بدون نیاز به صرف هزینههای سنگین، به عملکرد مشابه دست پیدا میکند. به گفته دیپسیک، برخی نسخههای اصلاحشده مدلهای این شرکت بر پایه مدلهای OpenAI ساخته شدهاند.
علاوه بر این، دیپسیک تأیید کرده که در برخی پروژهها از مدل منبع باز LLaMA متعلق به متا استفاده کرده و در مدل V3، دادههایی شامل پاسخهای تولیدشده توسط مدلهای OpenAI را نیز بهکار گرفته است؛ هرچند تأکید کرده که این امر «به طور عمدی» صورت نگرفته است.
این ادعاها بحثهای گستردهای را در محافل فناوری و اقتصادی به راه انداخته است. برخی کارشناسان معتقدند بهینهسازی در معماری، استفاده از تراشههای خاص و تکنیکهای آموزشی متفاوت دلیل اصلی کاهش هزینه بوده است. با این حال، برخی دیگر میپرسند که آیا همه واقعیتها بیان شده یا بخشهایی از فرآیند آموزش همچنان پنهان مانده است.
در مجموع، انتشار این گزارش میتواند رقابت میان چین و آمریکا در حوزه مدلهای زبانی بزرگ (LLM) را وارد مرحله تازهای کند؛ مرحلهای که در آن هزینه پایینتر و دسترسپذیری بیشتر نقش مهمی در تعیین برنده خواهد داشت.