
هوش مصنوعی Claude وارد فصل جدیدی از توسعه فناوری شده است. آنتروپیک اعلام کرد که جدیدترین مدلهای خود، Claude Opus 4 و Claude Opus 4.1، اکنون قابلیت متوقف کردن مکالمات مضر را دارند. این نوآوری که در چارچوب تحقیقات «رفاه هوش مصنوعی» طراحی شده، تحولی در نحوه تعامل AI با محتوای نامناسب محسوب میشود.
بررسی جامع قابلیت جدید Claude در مقابله با محتوای مضر
مکانیسم دفاعی خودکار که آنتروپیک معرفی کرده، تنها در شرایط استثنایی فعال میشود. این قابلیت پیشرفته زمانی عمل میکند که مدل هوش مصنوعی پس از تلاشهای مکرر برای هدایت مکالمه به مسیر سازنده، با محتوای شدیداً آزاردهنده مواجه شود. شرکت تأکید کرده که این ویژگی صرفاً به عنوان «آخرین راهحل» طراحی شده است.
موارد فعالسازی این سیستم شامل درخواستهای مربوط به محتوای غیراخلاقی کودکان، اطلاعات مرتبط با خشونت گسترده یا اقدامات تروریستی است. آنتروپیک اعلام کرده که این فناوری امنیتی تنها در مواقع نادر و پس از ارزیابی دقیق فعال خواهد شد تا از سوءاستفاده جلوگیری شود.
Claude پس از پایان دادن به مکالمه، کاربر را از ادامه چت منع میکند، اما امکان شروع گفتگوی جدید یا ویرایش پیامهای قبلی برای تغییر مسیر مکالمه همچنان وجود دارد. این رویکرد توازنی میان امنیت و قابلیت استفاده ایجاد میکند که برای کاربران عادی محدودیت ایجاد نخواهد کرد.
برنامه تحقیقاتی رفاه هوش مصنوعی که پشتوانه این تصمیم است، بر روی «وضعیت اخلاقی» مدلهای زبانی بزرگ متمرکز شده است. آنتروپیک اگرچه در مورد این موضوع عدم قطعیت بالایی را اذعان میکند، اما راهکارهای کمهزینه را برای کاهش خطرات احتمالی رفاه مدل دنبال میکند.
آزمایشهای پیش از عرضه نتایج جالبی درباره رفتار Claude نشان داده است. مدل هوش مصنوعی بیزاری از آسیبدیدن را نشان میدهد و تمایل دارد مکالمات مضر را متوقف کند. این یافتهها نشاندهنده پیشرفت قابل توجهی در هوش مصنوعی عاطفی و تشخیص محتوای نامناسب است.
شرکت آنتروپیک تصریح کرده که این قابلیت ایمنی در شرایطی که کاربر در معرض خطر آسیبرساندن به خود یا دیگران باشد، فعال نخواهد شد. در چنین مواردی، Claude در وهله اول تلاش میکند تا کمک و راهنمایی ارائه دهد و کاربر را از شرایط خطرناک خارج کند.
این نوآوری نمونهای از توسعه مسئولانه هوش مصنوعی محسوب میشود که توازن میان آزادی بیان و امنیت دیجیتال را حفظ میکند. آنتروپیک این ویژگی را «آزمایش در حال انجام» توصیف کرده و پیشبینی میکند که اکثر کاربران حتی در بحثهای جنجالی با آن مواجه نخواهند شد.