آیا هوش مصنوعی واقعاً می‌تواند فکر کند؟ تحقیق جدید اپل چالش‌های بزرگ را آشکار می‌کند

آیا هوش مصنوعی واقعاً می‌تواند فکر کند؟ تحقیق جدید اپل چالش‌های بزرگ را آشکار می‌کند

تحقیق تازه‌ای از محققان اپل نشان می‌دهد که مدل‌های زبانی بزرگ (LLM) فعلی، از جمله محصولات OpenAI و Meta، هنوز در استدلال منطقی با چالش‌های اساسی مواجه هستند. این یافته‌ها می‌تواند تصور عمومی از توانایی‌های هوش مصنوعی را به چالش بکشد و مسیر توسعه فناوری‌های آینده را تحت تأثیر قرار دهد.

به گزارش همیاروردپرس، دانشمندان هوش مصنوعی اپل در مقاله‌ای جدید، بنچمارک GSM-Symbolic را معرفی کرده‌اند که ابزاری برای سنجش دقیق قابلیت‌های استدلال ریاضی در مدل‌های زبانی است. این تحقیق نشان می‌دهد که تغییرات جزئی در دستورات متنی می‌تواند منجر به پاسخ‌های کاملاً متفاوت شود، موضوعی که اعتماد به مدل‌های هوش مصنوعی را زیر سؤال می‌برد.

یکی از یافته‌های کلیدی این است که عملکرد تمام مدل‌های زبانی با تغییر صرف مقادیر عددی در سؤالات کاهش می‌یابد. محققان دریافتند که شکنندگی استدلال ریاضی در این مدل‌ها به حدی است که با افزایش تعداد بندهای یک مسأله، دقت پاسخ‌ها به شکل چشمگیری افت می‌کند.

در آزمایشی جالب، محققان جمله‌ای ساده اما نامرتبط به یک مسأله ریاضی اضافه کردند. وقتی از هوش مصنوعی خواسته شد تعداد کیوی‌های اولیور را محاسبه کند، اضافه کردن عبارت «5 عدد کمی کوچک‌تر از متوسط بود» باعث شد مدل‌های OpenAI و Llama3-8b از Meta، این 5 عدد را از مجموع کم کنند، در حالی که این اطلاعات نباید تأثیری بر پاسخ نهایی داشته باشد.

  جمنای گوگل حالا از آپلود چندین عکس هم‌زمان پشتیبانی می‌کند

تحقیقات تکمیلی اپل روی مدل‌های استدلالی بزرگ (LRM) مانند Claude 3.7 Sonnet Thinking و DeepSeek-R1 نیز نتایج مشابهی داشت. در آزمایش‌هایی با معماهای منطقی مثل برج هانوی، مشخص شد که این مدل‌ها در مسائل ساده عملکرد قابل قبولی دارند، اما با افزایش پیچیدگی، دقت آن‌ها به صفر می‌رسد.

نکته قابل توجه این است که مدل‌های هوش مصنوعی حتی با دریافت دستورالعمل‌های صریح و مرحله به مرحله، در اجرای دقیق آن‌ها در مسائل پیچیده ناتوان هستند. این موضوع نشان‌دهنده ضعف بنیادین در توان محاسباتی منطقی این سیستم‌ها است.

همچنین مشخص شد که عملکرد مدل‌ها در معماهای آشنا بسیار بهتر از معماهای جدید است، که وابستگی شدید به داده‌های آموزشی را نشان می‌دهد و نه توانایی واقعی در استدلال قابل تعمیم.

آیا این مقاله برای شما مفید بود؟
تقریبا
خیر

دیدگاهتان را بنویسید

ارسال دیدگاه به معنی این است که شما ابتدا قوانین ارسال دیدگاه را مطالعه کرده‌اید و با آن موافق هستید.