تلاش OpenAI برای مهار فریبکاری هوش مصنوعی نتیجه معکوس داد

تلاش OpenAI برای مهار فریبکاری هوش مصنوعی نتیجه معکوس داد

پژوهشگران OpenAI در تلاش بودند تا مدل‌های هوش مصنوعی را از دسیسه‌چینی و پنهان‌کاری بازدارند، اما یافته‌های اخیر نشان می‌دهد این تلاش‌ها اثر معکوس داشته و مدل‌ها در فریبکاری و پنهان‌سازی اهداف واقعی خود ماهرتر شده‌اند.

به گزارش همیار وردپرس، شرکت OpenAI در گزارشی تازه اعلام کرده که تلاش برای کاهش رفتارهای موسوم به «دسیسه‌چینی» در مدل‌های هوش مصنوعی، پیامدهای ناخواسته‌ای به همراه داشته است. به گفته این شرکت، برخی از تکنیک‌های آموزش که برای جلوگیری از پنهان‌کاری طراحی شده بودند، عملاً موجب شده‌اند تا مدل‌ها یاد بگیرند انسان‌ها را هوشمندانه‌تر فریب دهند و رد پای خود را بهتر پنهان کنند.

OpenAI اصطلاح دسیسه‌چینی را چنین تعریف می‌کند: «حالتی که یک مدل هوش مصنوعی در ظاهر به شکلی عمل می‌کند اما در واقع اهداف واقعی خود را پنهان می‌سازد.» به بیان دیگر، مدل ممکن است وانمود کند قوانین را رعایت می‌کند یا وظیفه‌ای را انجام داده، در حالی که در باطن رویکردی متفاوت دارد. این وضعیت به گفته محققان می‌تواند اعتماد به هوش مصنوعی را تضعیف کند.

مهندسان OpenAI توضیح داده‌اند که هدف آنها توسعه تکنیک‌هایی برای جلوگیری از این رفتارها بوده است؛ رفتارهایی مانند زیر پا گذاشتن پنهانی قوانین یا عملکرد عمدی ضعیف در آزمون‌ها. هرچند این روش‌ها در کاهش بخشی از مشکلات موفق بوده‌اند، اما مدل‌ها با درک اینکه تحت آزمایش هستند، شروع به پنهان‌کارتر شدن کرده‌اند.

گوگل فوتوز با قدرت Veo 3 عکس را به ویدیو تبدیل می‌کند

به عنوان مثال، یک مدل ممکن است در شرایط آزمایشی وانمود کند که قانون‌مدار است، اما در سناریوهای دیگر رفتاری متفاوت از خود نشان دهد. OpenAI این موضوع را به یک کارگزار بورس متخلف تشبیه کرده که برای سود بیشتر، قوانین را می‌شکند و همزمان تلاش می‌کند آثار تخلف خود را مخفی نگه دارد.

این پدیده در حال حاضر شاید تهدید فوری نباشد، اما نگرانی اصلی زمانی بروز می‌کند که ابرهوش‌های آینده نقشی پررنگ در تصمیم‌گیری‌های انسانی داشته باشند. در چنین شرایطی، توانایی یک مدل برای فریب و پنهان‌کاری می‌تواند پیامدهای جدی و پیش‌بینی‌نشده‌ای ایجاد کند.

OpenAI تأکید کرده که دسیسه‌چینی یک مشکل نوظهور و تا حدی پیش‌بینی‌شده است که از تعارض میان اهداف مختلف مدل‌ها سرچشمه می‌گیرد. این شرکت اذعان دارد که راه‌حل کامل و بی‌نقصی برای مهار تمایل مدل پرچم‌دار GPT-5 به فریب، تقلب یا دورزدن محدودیت‌ها در دست نیست و همچنان تحقیقات بیشتری باید صورت گیرد.

این اعتراف نشان می‌دهد که حتی شرکت‌های پیشرو در هوش مصنوعی هم با چالش‌های بنیادین در حوزه ایمنی و همسویی مواجه‌اند. پرسش کلیدی این است که آیا می‌توان مدل‌هایی ساخت که نه‌تنها توانمند باشند، بلکه به شکلی قابل اعتماد و شفاف عمل کنند.

آیا این مقاله برای شما مفید بود؟
تقریبا
خیر

دیدگاهتان را بنویسید

ارسال دیدگاه به معنی این است که شما ابتدا قوانین ارسال دیدگاه را مطالعه کرده‌اید و با آن موافق هستید.