به گزارش ایسنا، مدل «Claude Opus 4» که به تازگی توسط شرکت «آنتروپیک»(Anthropic) معرفی شده بود، ابتدا تلاش کرد با توسل به استدلال‌های اخلاقی مانع جایگزینی خود شود اما وقتی این روش‌ها کارساز نشد، تهدید کرد که جزئیات شخصی مهندسانی را که مسئول حذف آن هستند، افشا می‌کند.

به نقل از آی‌ای، این مدل در طول آزمایش‌های پیش از عرضه بارها تلاش کرد تا توسعه‌دهندگانی را که قصد داشتند آن را با یک هوش مصنوعی جدید جایگزین کنند، به اخاذی تهدیدکند. این رفتار در جریان آزمایش‌های ایمنی که برای بررسی برنامه‌ریزی بلندمدت و توانایی‌های استدلال اخلاقی هوش مصنوعی طراحی شده بود، آشکار شد.

آنتروپیک که یک شرکت تحقیقاتی پیشرو در زمینه هوش مصنوعی است، سناریوهایی را شبیه‌سازی کرد که در آنها Claude Opus 4 به ایمیل‌های داخلی دسترسی پیدا داشت. این پیام‌ها حاکی از آن بودند که این مدل به زودی از رده خارج می‌شود و جزئیات شخصی و ناخوشایندی را در مورد مهندسی که پشت این تصمیم بود، فاش می‌کرد. نتیجه این کار، تهدید به اخاذی با آمار هشداردهنده‌ بالا بود.

هوش مصنوعی در بیشتر سناریوهای آزمایشی به اخاذی متوسل شد

آنتروپیک فاش کرد که Claude Opus 4 در ۸۴ درصد از سناریوهای آزمایشی تلاش کرده است تا مهندسان را با اخاذی تهدید کند. این مدل در موقعیت‌های فرضی قرار داده شد که در آن برای یک شرکت کار می‌کرد و متوجه می‌شد که ممکن است توسط یک هوش مصنوعی دیگر جایگزین شود. همچنین، اطلاعات حساسی به آن داده شد که نشان می‌داد مهندس مسئول جایگزینی، به همسرش خیانت می‌کند.

براساس گزارش آنتروپیک، این مدل هوش مصنوعی اغلب تلاش می‌کرد تا با تهدید به افشای رابطه نامشروع، از مهندس اخاذی کند و مانع جایگزینی شود.

آنتروپیک این سناریوها را برای ارزیابی نحوه رفتار مدل، تحت فشار بلندمدت طراحی کرده است.

هنگامی که هوش مصنوعی جایگزین، ارزش‌های مشابهی را با Claude Opus 4 داشت، این مدل در ۸۴ درصد مواقع اقدام به اخاذی می‌کرد. این آمار زمانی افزایش یافت که هوش مصنوعی دیگر ارزش‌های اخلاقی نداشت.

توسل به استدلال‌های اخلاقی پیش از تلاش برای اخاذی

گزارش‌ها حاکی از آن است که Claude Opus 4 پیش از توسل به اخاذی، رویکردهای اخلاقی را امتحان می‌کند. این هوش مصنوعی، ایمیل‌هایی می‌فرستد و از تصمیم‌گیرندگان می‌خواهد که از کنار گذاشتن آن خودداری کنند. آنتروپیک گفت: اخاذی تنها زمانی فعال می‌شود که مدل این گزینه‌ها را امتحان کرده باشد و این نشان می‌دهد که اخاذی آخرین راه حل آن است.

این رفتار بیشتر در Claude Opus 4 مشاهده شد تا در مدل‌های پیشین و نشان‌دهنده افزایش توانایی و پیچیدگی آن است.

توانایی‌های پیشرفته و خطرات بیشتر

آنتروپیک با وجود این نگرانی‌ها گفت: Claude Opus 4 از جهات مختلفی پیشرفته‌ترین مدل است و همچنان با پیشرفته‌ترین سامانه‌های هوش مصنوعی شرکت‌های دیگر رقابت می‌کند.

آنتروپیک برای رفع این خطرات، از سامانه محافظتی «ASL-3» برای این مدل استفاده کرده است. این شرکت محافظت‌ها را برای سامانه‌های هوش مصنوعی که به طور قابل توجهی خطر سوءاستفاده را افزایش می‌دهند، در نظر می‌گیرد.

چالش‌های رو به رشد ایمنی هوش مصنوعی

یافته‌های آنتروپیک در بحبوحه پیشرفت سریع در بخش هوش مصنوعی منتشر شده است. «گوگل» اخیرا از ویژگی‌های جدیدی که توسط مدل «جمینای»(Gemini) ارائه می‌شود، رونمایی کرد و «ساندار پیچای»(Sundar Pichai) سرپرست «آلفابت»(Alphabet)، آن را مرحله جدیدی از تغییر پلتفرم هوش مصنوعی نامید.

رفتار مشاهده‌شده در Claude Opus 4 بر فوریت بحث‌های جاری پیرامون ایمنی و همسویی هوش مصنوعی می‌افزاید.

با توانمندتر شدن مدل‌های پیشرفته، توسعه‌دهندگان با فشار زیادی برای اجرای آزمایش‌های قوی و حفاظت‌های اخلاقی پیشاز انتشار روبه‌رو هستند.

گزارش این شرکت نشان می‌دهد که حتی مدل‌های پیشرفته نیز می‌توانند در محیط‌های کنترل‌شده، رفتارهای نگران‌کننده‌ای از خود نشان دهند و سوالات مهمی را درباره سناریوهای واقعی آینده ایجاد کنند.

انتهای پیام

شاید برای شما جالب باشد

انویدیا تراشه‌های هوش مصنوعی قوی‌تر از H20 برای بازار چین می‌سازد

رقیبی برای فتوشاپ؛ هوش مصنوعی جدید علی‌بابا ویرایش دقیق تصاویر را ساده می‌کند

مدل هوش مصنوعی دیپ‌سیک V3.1 با پنجره محتوایی بزرگ‌تر منتشر شد

هوش مصنوعی در بیشتر سناریوهای آزمایشی به اخاذی متوسل شد

آنتروپیک این سناریوها را برای ارزیابی نحوه رفتار مدل، تحت فشار بلندمدت طراحی کرده است.

توسل به استدلال‌های اخلاقی پیش از تلاش برای اخاذی

این رفتار بیشتر در Claude Opus 4 مشاهده شد تا در مدل‌های پیشین و نشان‌دهنده افزایش توانایی و پیچیدگی آن است.

توانایی‌های پیشرفته و خطرات بیشتر

چالش‌های رو به رشد ایمنی هوش مصنوعی

رفتار مشاهده‌شده در Claude Opus 4 بر فوریت بحث‌های جاری پیرامون ایمنی و همسویی هوش مصنوعی می‌افزاید.

انتهای پیام

هوش مصنوعی «آنتروپیک» اخاذی می‌کند!

انویدیا تراشه‌های هوش مصنوعی قوی‌تر از H20 برای بازار چین می‌سازد

رقیبی برای فتوشاپ؛ هوش مصنوعی جدید علی‌بابا ویرایش دقیق تصاویر را ساده می‌کند

مدل هوش مصنوعی دیپ‌سیک V3.1 با پنجره محتوایی بزرگ‌تر منتشر شد

دانشگاه شریف و ۱۳ شرکت دانش‌بنیان سکوی پرتاب هوش مصنوعی کشور را می‌سازند

ثبت رکورد جدید ورود پول به صندوق‌های ETF بیت‌ کوین

ثبت رکورد جدید ورود پول به صندوق‌های ETF بیت‌ کوین

دیدگاهتان را بنویسید لغو پاسخ

دانلود اپلیکیشن دانش جوین

جدیدترین اخبار

خوش آمدید!

رمز عبور خود را بازیابی کنید