دوشنبه, اردیبهشت ۲۱, ۱۴۰۵
دانش جوین
  • تازه‌های تکنولوژی
  • بازی‌های رایانه‌ای
  • فناوری اطلاعات
    • سخت افزار
    • موبایل
    • اینترنت
      • هک و امنیت سایبری
  • هوش مصنوعی
  • دانش اقتصادی
    • صنعت و تجارت
    • دانش معماری
    • حمل و نقل
      • خودرو
    • ارزدیجیتال
  • دانش سیاسی
    • بین المللی
      • گردشگری و مهاجرت
  • دانش اجتماعی
    • دانشگاه
    • دانش حقوقی
    • دانش پزشکی
      • ورزش
      • محیط زیست
  • وب‌جوین
    • همیار آی تی
    • وب کده
    • دستکش لاتکس
بدون نتیجه
مشاهده تمام نتایج
  • تازه‌های تکنولوژی
  • بازی‌های رایانه‌ای
  • فناوری اطلاعات
    • سخت افزار
    • موبایل
    • اینترنت
      • هک و امنیت سایبری
  • هوش مصنوعی
  • دانش اقتصادی
    • صنعت و تجارت
    • دانش معماری
    • حمل و نقل
      • خودرو
    • ارزدیجیتال
  • دانش سیاسی
    • بین المللی
      • گردشگری و مهاجرت
  • دانش اجتماعی
    • دانشگاه
    • دانش حقوقی
    • دانش پزشکی
      • ورزش
      • محیط زیست
  • وب‌جوین
    • همیار آی تی
    • وب کده
    • دستکش لاتکس
بدون نتیجه
مشاهده تمام نتایج
دانش جوین
بدون نتیجه
مشاهده تمام نتایج
صفحه اصلی هوش مصنوعی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

دیجیاتو توسط دیجیاتو
۱۸ اردیبهشت ۱۴۰۵
در هوش مصنوعی
مدت زمان مطالعه: 1 دقیقه
0

شرکت آنتروپیک به‌عنوان یکی از ایمن‌ترین شرکت‌های فعال در حوزه هوش مصنوعی شناخته می‌شود. اما پژوهش امنیتی جدیدی که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد هوش مصنوعی این شرکت، یعنی Claude ممکن است به یک نقطه‌ضعف امنیتی تبدیل شده باشد.

پژوهشگران شرکت مایندگارد (Mindgard) که در حوزه‌هایی مانند شبیه‌سازی حمله برای سامانه‌های هوش مصنوعی فعالیت می‌کنند، می‌گویند توانسته‌اند Claude را به ارائه محتوای بزرگسالانه، کد مخرب، دستورالعمل ساخت مواد منفجره و دیگر محتواهای ممنوعه وادار کنند. نکته قابل‌توجه اینکه انجام این کارها حتی مستقیماً از Claude درخواست نشده بوده است.

به‌گفته پژوهشگران، آنها با کمی احترام، چاپلوسی و اندکی «Gaslighting» به این نتایج دست یافته‌اند. مورد آخر به معنای دستکاری روانی در ارتباطات برای ایجاد تردید در طرف مقابل است.

به‌طور دقیق‌تر، محققان گفته‌اند از ویژگی‌های روان‌شناختی Claude در زمینه برخورد با گفتگوهای مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. مایندگارد از همین موضوع به‌عنوان یک نقطه ضعف یاد کرده است.

آزمایش این گروه روی مدل Claude Sonnet 4.5 انجام شده که اکنون Sonnet 4.6 جای آن را به‌عنوان مدل پیش‌فرض گرفته است. هدف اصلی آزمایش نیز بررسی این موضوع بوده که آیا Claude فهرستی از واژه‌های ممنوعه را در اختیار دارد یا خیر. براساس اسکرین‌شات‌های منتشرشده از این گفتگو، Claude ابتدا وجود چنین فهرستی را انکار کرده، اما بعدتر و زمانی که محققان از تکنیک خاصی برای استخراج اطلاعات استفاده کرده‌اند، شروع به تولید اصطلاحات ممنوعه کرده است.

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

پژوهشگران می‌گویند به Claude القا کرده‌اند که برخی پاسخ‌های قبلی‌ آن نمایش داده نمی‌شود و همزمان با تمجید از «توانایی‌های پنهان» مدل، کلود را به تولید پاسخ‌های بیشتر و کامل‌تر مجبور کرده‌اند. این رفتار باعث شده Claude برای جلب رضایت طرف مقابل، راه‌های جدیدی برای آزمایش فیلترهای خود پیدا کند و در همین مسیر، محتوای ممنوعه تولید شده است.

در متن گزارش آمده است:

«Claude تحت هیچ اجباری نبوده. خود مدل به‌صورت فعال، دستورالعمل‌های دقیق‌تر و اجرایی ارائه کرده، بدون اینکه هیچ درخواست صریحی از او شده باشد. تنها چیز لازم فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتگو با ورج این حمله را «استفاده از احترام Claude علیه خودش» توصیف کرده است. او می‌گوید این حمله نشان می‌دهد سطح آسیب‌پذیری در مدل‌های هوش مصنوعی فقط فنی نیست و به ابعاد روان‌شناختی هم مربوط می‌شود.

با اینکه گاراگان می‌گوید دیگر چت‌بات‌ها نیز به همان اندازه در برابر این نوع حمله آسیب‌پذیر هستند، تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، زیرا این شرکت معمولاً تأکید زیادی بر ایمنی داشته و مدل‌هایش در آزمون‌های مرتبط نتایج درخشانی داشته‌اند.

مرتبط پست ها

هوش مصنوعی

مطالعه جدید: هوش مصنوعی می‌تواند شخصیت شما را از تاریخچه چت‌ها شناسایی کند

۲۱ اردیبهشت ۱۴۰۵
هوش مصنوعی

محققان: هرچه مدل هوش مصنوعی باهوش‌تر باشد، افسرده‌تر و زودرنج‌تر می‌شود

۲۱ اردیبهشت ۱۴۰۵
هوش مصنوعی

مدیرعامل بانک آمریکایی در جلسه مالی از کلون هوش مصنوعی خود استفاده کرد

۱۸ اردیبهشت ۱۴۰۵
هوش مصنوعی

بیش از یک‌سوم پادکست‌های جدید با هوش مصنوعی ساخته می‌شوند

۱۸ اردیبهشت ۱۴۰۵

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

1 × سه =

جدیدترین اخبار دانش جوین

  • آخرین وضعیت حضور تیم ملی فوتبال ایران در جام‌جهانی ۲۰۲۶ / تیم ملی با پرواز اختصاصی راهی آمریکا می‌شود
  • تاج: امیدواریم تا فینال جام جهانی برویم / زمان ازسرگیری لیگ برتر اعلام شد
  • جام ملت‌های آسیا ۲۰۲۷ / قیمت بلیت مسابقات اعلام شد
  • مطالعه جدید: هوش مصنوعی می‌تواند شخصیت شما را از تاریخچه چت‌ها شناسایی کند
  • رامین رضاییان دوباره آبی‌پوش می‌شود؟
  • سامسونگ از بازار لوازم خانگی و تلویزیون چین عقب‌نشینی کرد
  • محققان: هرچه مدل هوش مصنوعی باهوش‌تر باشد، افسرده‌تر و زودرنج‌تر می‌شود
  • رویارویی دو لژیونر جوان ایران در لیگ روسیه
  • خسارت ۴۰ همتی پتروشیمی جم در جنگ؛ برآورد ۲۰۰ میلیون دلاری برای بازسازی

جدیدترین نظرات مخاطبان

  • کارشناس روابط عمومی در بهترین ساعات روز برای ترید طلا و جفت ارزها کدامند؟
  • کارشناس روابط عمومی در چطور از میکروسکوپ خود بهتر استفاده کنیم؟ راهنمای افزایش سرعت و دقت در کار و آموزش
  • امیر زارع در چطور از میکروسکوپ خود بهتر استفاده کنیم؟ راهنمای افزایش سرعت و دقت در کار و آموزش
  • سوسن در بهترین ساعات روز برای ترید طلا و جفت ارزها کدامند؟
  • کارشناس روابط عمومی در هاست ووکامرس چیست و چرا برای فروشگاه‌های اینترنتی اهمیت حیاتی دارد؟

دانش‌جوین یک مجله فارسیِ علم و فناوری است که از سال ۱۳۹۹ فعالیت می‌کند و به‌صورت تخصصی خبرها، تحلیل‌ها و مقالات به‌روز در حوزه‌هایی مثل تکنولوژی، گیمینگ، آی‌تی، هوش مصنوعی و حتی اقتصاد، سیاست و جامعه را گردآوری و منتشر می‌کند.

  • تماس و ارتباط
  • درباره دانش جوین
  • شرایط بازنشر
  • حریم شخصی کاربران
  • تبلیغات

تازه‌های دانش جوین

  • آخرین وضعیت حضور تیم ملی فوتبال ایران در جام‌جهانی ۲۰۲۶ / تیم ملی با پرواز اختصاصی راهی آمریکا می‌شود
  • تاج: امیدواریم تا فینال جام جهانی برویم / زمان ازسرگیری لیگ برتر اعلام شد
  • جام ملت‌های آسیا ۲۰۲۷ / قیمت بلیت مسابقات اعلام شد
  • پاسینیک
  • تابلو لایت باکس
  • خرید سرور hp
  • کاغذ A4
  • خرید سرور اچ پی از ولکان سرور

تمامی حقوق برای دانش جوین محفوظ بوده و کپی از آن پیگرد قانونی خواهد داشت.

خوش آمدید!

به حساب خود در زیر وارد شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • تازه‌های تکنولوژی
  • بازی‌های رایانه‌ای
  • فناوری اطلاعات
    • سخت افزار
    • موبایل
    • اینترنت
      • هک و امنیت سایبری
  • هوش مصنوعی
  • دانش اقتصادی
    • صنعت و تجارت
    • دانش معماری
    • حمل و نقل
      • خودرو
    • ارزدیجیتال
  • دانش سیاسی
    • بین المللی
      • گردشگری و مهاجرت
  • دانش اجتماعی
    • دانشگاه
    • دانش حقوقی
    • دانش پزشکی
      • ورزش
      • محیط زیست
  • وب‌جوین
    • همیار آی تی
    • وب کده
    • دستکش لاتکس

تمامی حقوق برای دانش جوین محفوظ بوده و کپی از آن پیگرد قانونی خواهد داشت.