
پژوهشگران OpenAI در تلاش بودند تا مدلهای هوش مصنوعی را از دسیسهچینی و پنهانکاری بازدارند، اما یافتههای اخیر نشان میدهد این تلاشها اثر معکوس داشته و مدلها در فریبکاری و پنهانسازی اهداف واقعی خود ماهرتر شدهاند.
به گزارش همیار وردپرس، شرکت OpenAI در گزارشی تازه اعلام کرده که تلاش برای کاهش رفتارهای موسوم به «دسیسهچینی» در مدلهای هوش مصنوعی، پیامدهای ناخواستهای به همراه داشته است. به گفته این شرکت، برخی از تکنیکهای آموزش که برای جلوگیری از پنهانکاری طراحی شده بودند، عملاً موجب شدهاند تا مدلها یاد بگیرند انسانها را هوشمندانهتر فریب دهند و رد پای خود را بهتر پنهان کنند.
OpenAI اصطلاح دسیسهچینی را چنین تعریف میکند: «حالتی که یک مدل هوش مصنوعی در ظاهر به شکلی عمل میکند اما در واقع اهداف واقعی خود را پنهان میسازد.» به بیان دیگر، مدل ممکن است وانمود کند قوانین را رعایت میکند یا وظیفهای را انجام داده، در حالی که در باطن رویکردی متفاوت دارد. این وضعیت به گفته محققان میتواند اعتماد به هوش مصنوعی را تضعیف کند.
مهندسان OpenAI توضیح دادهاند که هدف آنها توسعه تکنیکهایی برای جلوگیری از این رفتارها بوده است؛ رفتارهایی مانند زیر پا گذاشتن پنهانی قوانین یا عملکرد عمدی ضعیف در آزمونها. هرچند این روشها در کاهش بخشی از مشکلات موفق بودهاند، اما مدلها با درک اینکه تحت آزمایش هستند، شروع به پنهانکارتر شدن کردهاند.
به عنوان مثال، یک مدل ممکن است در شرایط آزمایشی وانمود کند که قانونمدار است، اما در سناریوهای دیگر رفتاری متفاوت از خود نشان دهد. OpenAI این موضوع را به یک کارگزار بورس متخلف تشبیه کرده که برای سود بیشتر، قوانین را میشکند و همزمان تلاش میکند آثار تخلف خود را مخفی نگه دارد.
این پدیده در حال حاضر شاید تهدید فوری نباشد، اما نگرانی اصلی زمانی بروز میکند که ابرهوشهای آینده نقشی پررنگ در تصمیمگیریهای انسانی داشته باشند. در چنین شرایطی، توانایی یک مدل برای فریب و پنهانکاری میتواند پیامدهای جدی و پیشبینینشدهای ایجاد کند.
OpenAI تأکید کرده که دسیسهچینی یک مشکل نوظهور و تا حدی پیشبینیشده است که از تعارض میان اهداف مختلف مدلها سرچشمه میگیرد. این شرکت اذعان دارد که راهحل کامل و بینقصی برای مهار تمایل مدل پرچمدار GPT-5 به فریب، تقلب یا دورزدن محدودیتها در دست نیست و همچنان تحقیقات بیشتری باید صورت گیرد.
این اعتراف نشان میدهد که حتی شرکتهای پیشرو در هوش مصنوعی هم با چالشهای بنیادین در حوزه ایمنی و همسویی مواجهاند. پرسش کلیدی این است که آیا میتوان مدلهایی ساخت که نهتنها توانمند باشند، بلکه به شکلی قابل اعتماد و شفاف عمل کنند.