دیپ‌سیک مدعی شد: آموزش مدل R1 تنها 294 هزار دلار هزینه داشته است

دیپ‌سیک مدعی شد: آموزش مدل R1 تنها 294 هزار دلار هزینه داشته است

شرکت چینی دیپ‌سیک (DeepSeek) در مقاله‌ای منتشرشده در مجله Nature اعلام کرد که آموزش مدل R1 تنها 294 هزار دلار هزینه داشته است؛ رقمی که فاصله زیادی با هزینه‌های چندصد میلیون دلاری رقبای آمریکایی دارد. این خبر بار دیگر نگاه‌ها را به رقابت جهانی بر سر مدل‌های بزرگ هوش مصنوعی معطوف کرده است.

به گزارش همیار وردپرس، انتشار جزئیات مربوط به هزینه آموزش مدل R1 توسط دیپ‌سیک، پرسش‌های تازه‌ای درباره جایگاه چین در بازار جهانی هوش مصنوعی ایجاد کرده است. این شرکت می‌گوید برای آموزش این مدل، از 512 تراشه NVIDIA H800 استفاده کرده و کل هزینه به 294 هزار دلار رسیده است. این رقم در مقایسه با هزینه‌های اعلام‌شده توسط شرکت‌های غربی بسیار اندک به نظر می‌رسد. به عنوان نمونه، سم آلتمن مدیرعامل OpenAI، سال 2023 تأکید کرده بود که هزینه آموزش مدل‌های پایه‌ای این شرکت بیش از 100 میلیون دلار بوده است.

مدل R1 که به‌عنوان یک مدل منطقی-تحلیلی معرفی شده، در ژانویه منتشر شد و نگرانی‌هایی را در بازار جهانی سرمایه‌گذاری برانگیخت. بسیاری از سرمایه‌گذاران نگران شدند که موفقیت دیپ‌سیک می‌تواند سهم شرکت‌های پیشرو مانند انویدیا را کاهش دهد و ارزش سهام فناوری را تحت تأثیر قرار دهد. پس از این اتفاق، شرکت و بنیان‌گذار آن، لیانگ وین‌فنگ، تا حد زیادی از رسانه‌ها دور ماندند.

در این گزارش علمی، دیپ‌سیک برای نخستین بار به طور غیرمستقیم به برخی انتقادهای مقامات آمریکایی درباره منابع و روش‌های خود پاسخ داده است. این شرکت تأکید کرده که بخشی از موفقیت آن ناشی از استفاده از روش «تقطیر» (Distillation) است؛ روشی که در آن یک مدل هوش مصنوعی از یک مدل بزرگ‌تر یاد می‌گیرد و بدون نیاز به صرف هزینه‌های سنگین، به عملکرد مشابه دست پیدا می‌کند. به گفته دیپ‌سیک، برخی نسخه‌های اصلاح‌شده مدل‌های این شرکت بر پایه مدل‌های OpenAI ساخته شده‌اند.

ChatGPT Go از هند فراتر رفت

علاوه بر این، دیپ‌سیک تأیید کرده که در برخی پروژه‌ها از مدل منبع باز LLaMA متعلق به متا استفاده کرده و در مدل V3، داده‌هایی شامل پاسخ‌های تولیدشده توسط مدل‌های OpenAI را نیز به‌کار گرفته است؛ هرچند تأکید کرده که این امر «به طور عمدی» صورت نگرفته است.

این ادعاها بحث‌های گسترده‌ای را در محافل فناوری و اقتصادی به راه انداخته است. برخی کارشناسان معتقدند بهینه‌سازی در معماری، استفاده از تراشه‌های خاص و تکنیک‌های آموزشی متفاوت دلیل اصلی کاهش هزینه بوده است. با این حال، برخی دیگر می‌پرسند که آیا همه واقعیت‌ها بیان شده یا بخش‌هایی از فرآیند آموزش همچنان پنهان مانده است.

در مجموع، انتشار این گزارش می‌تواند رقابت میان چین و آمریکا در حوزه مدل‌های زبانی بزرگ (LLM) را وارد مرحله تازه‌ای کند؛ مرحله‌ای که در آن هزینه پایین‌تر و دسترس‌پذیری بیشتر نقش مهمی در تعیین برنده خواهد داشت.

آیا این مقاله برای شما مفید بود؟
تقریبا
خیر

دیدگاهتان را بنویسید

ارسال دیدگاه به معنی این است که شما ابتدا قوانین ارسال دیدگاه را مطالعه کرده‌اید و با آن موافق هستید.