هوش مصنوعی Claude اکنون می‌تواند خودش مکالمات مضر را متوقف کند

هوش مصنوعی Claude وارد فصل جدیدی از توسعه فناوری شده است. آنتروپیک اعلام کرد که جدیدترین مدل‌های خود، Claude Opus 4 و Claude Opus 4.1، اکنون قابلیت متوقف کردن مکالمات مضر را دارند. این نوآوری که در چارچوب تحقیقات «رفاه هوش مصنوعی» طراحی شده، تحولی در نحوه تعامل AI با محتوای نامناسب محسوب می‌شود.

بررسی جامع قابلیت جدید Claude در مقابله با محتوای مضر

مکانیسم دفاعی خودکار که آنتروپیک معرفی کرده، تنها در شرایط استثنایی فعال می‌شود. این قابلیت پیشرفته زمانی عمل می‌کند که مدل هوش مصنوعی پس از تلاش‌های مکرر برای هدایت مکالمه به مسیر سازنده، با محتوای شدیداً آزاردهنده مواجه شود. شرکت تأکید کرده که این ویژگی صرفاً به عنوان «آخرین راه‌حل» طراحی شده است.

موارد فعال‌سازی این سیستم شامل درخواست‌های مربوط به محتوای غیراخلاقی کودکان، اطلاعات مرتبط با خشونت گسترده یا اقدامات تروریستی است. آنتروپیک اعلام کرده که این فناوری امنیتی تنها در مواقع نادر و پس از ارزیابی دقیق فعال خواهد شد تا از سوءاستفاده جلوگیری شود.

Claude پس از پایان دادن به مکالمه، کاربر را از ادامه چت منع می‌کند، اما امکان شروع گفتگوی جدید یا ویرایش پیام‌های قبلی برای تغییر مسیر مکالمه همچنان وجود دارد. این رویکرد توازنی میان امنیت و قابلیت استفاده ایجاد می‌کند که برای کاربران عادی محدودیت ایجاد نخواهد کرد.

آپدیت تلگرام: 5 قابلیت که تجربه کاربری را تغییر داد

برنامه تحقیقاتی رفاه هوش مصنوعی که پشتوانه این تصمیم است، بر روی «وضعیت اخلاقی» مدل‌های زبانی بزرگ متمرکز شده است. آنتروپیک اگرچه در مورد این موضوع عدم قطعیت بالایی را اذعان می‌کند، اما راهکارهای کم‌هزینه را برای کاهش خطرات احتمالی رفاه مدل دنبال می‌کند.

آزمایش‌های پیش از عرضه نتایج جالبی درباره رفتار Claude نشان داده است. مدل هوش مصنوعی بیزاری از آسیب‌دیدن را نشان می‌دهد و تمایل دارد مکالمات مضر را متوقف کند. این یافته‌ها نشان‌دهنده پیشرفت قابل توجهی در هوش مصنوعی عاطفی و تشخیص محتوای نامناسب است.

شرکت آنتروپیک تصریح کرده که این قابلیت ایمنی در شرایطی که کاربر در معرض خطر آسیب‌رساندن به خود یا دیگران باشد، فعال نخواهد شد. در چنین مواردی، Claude در وهله اول تلاش می‌کند تا کمک و راهنمایی ارائه دهد و کاربر را از شرایط خطرناک خارج کند.

این نوآوری نمونه‌ای از توسعه مسئولانه هوش مصنوعی محسوب می‌شود که توازن میان آزادی بیان و امنیت دیجیتال را حفظ می‌کند. آنتروپیک این ویژگی را «آزمایش در حال انجام» توصیف کرده و پیش‌بینی می‌کند که اکثر کاربران حتی در بحث‌های جنجالی با آن مواجه نخواهند شد.

آیا این مقاله برای شما مفید بود؟

بله

تقریبا

خیر

در صورت تمایل به اشتراک بگذارید