
تحقیق تازهای از محققان اپل نشان میدهد که مدلهای زبانی بزرگ (LLM) فعلی، از جمله محصولات OpenAI و Meta، هنوز در استدلال منطقی با چالشهای اساسی مواجه هستند. این یافتهها میتواند تصور عمومی از تواناییهای هوش مصنوعی را به چالش بکشد و مسیر توسعه فناوریهای آینده را تحت تأثیر قرار دهد.
به گزارش همیاروردپرس، دانشمندان هوش مصنوعی اپل در مقالهای جدید، بنچمارک GSM-Symbolic را معرفی کردهاند که ابزاری برای سنجش دقیق قابلیتهای استدلال ریاضی در مدلهای زبانی است. این تحقیق نشان میدهد که تغییرات جزئی در دستورات متنی میتواند منجر به پاسخهای کاملاً متفاوت شود، موضوعی که اعتماد به مدلهای هوش مصنوعی را زیر سؤال میبرد.
یکی از یافتههای کلیدی این است که عملکرد تمام مدلهای زبانی با تغییر صرف مقادیر عددی در سؤالات کاهش مییابد. محققان دریافتند که شکنندگی استدلال ریاضی در این مدلها به حدی است که با افزایش تعداد بندهای یک مسأله، دقت پاسخها به شکل چشمگیری افت میکند.
در آزمایشی جالب، محققان جملهای ساده اما نامرتبط به یک مسأله ریاضی اضافه کردند. وقتی از هوش مصنوعی خواسته شد تعداد کیویهای اولیور را محاسبه کند، اضافه کردن عبارت «5 عدد کمی کوچکتر از متوسط بود» باعث شد مدلهای OpenAI و Llama3-8b از Meta، این 5 عدد را از مجموع کم کنند، در حالی که این اطلاعات نباید تأثیری بر پاسخ نهایی داشته باشد.
تحقیقات تکمیلی اپل روی مدلهای استدلالی بزرگ (LRM) مانند Claude 3.7 Sonnet Thinking و DeepSeek-R1 نیز نتایج مشابهی داشت. در آزمایشهایی با معماهای منطقی مثل برج هانوی، مشخص شد که این مدلها در مسائل ساده عملکرد قابل قبولی دارند، اما با افزایش پیچیدگی، دقت آنها به صفر میرسد.
نکته قابل توجه این است که مدلهای هوش مصنوعی حتی با دریافت دستورالعملهای صریح و مرحله به مرحله، در اجرای دقیق آنها در مسائل پیچیده ناتوان هستند. این موضوع نشاندهنده ضعف بنیادین در توان محاسباتی منطقی این سیستمها است.
همچنین مشخص شد که عملکرد مدلها در معماهای آشنا بسیار بهتر از معماهای جدید است، که وابستگی شدید به دادههای آموزشی را نشان میدهد و نه توانایی واقعی در استدلال قابل تعمیم.