شنبه, آبان ۲۴, ۱۴۰۴
دانش جوین
  • تازه‌های تکنولوژی
  • بازی‌های رایانه‌ای
  • فناوری اطلاعات
    • سخت افزار
    • موبایل
    • اینترنت
      • هک و امنیت سایبری
  • هوش مصنوعی
  • دانش اقتصادی
    • صنعت و تجارت
    • دانش معماری
    • حمل و نقل
      • خودرو
    • ارزدیجیتال
  • دانش سیاسی
    • بین المللی
      • گردشگری و مهاجرت
  • دانش اجتماعی
    • دانشگاه
    • دانش حقوقی
    • دانش پزشکی
      • ورزش
      • محیط زیست
  • وب‌جوین
    • همیار آی تی
    • وب کده
    • سرور اچ پی G11
    • دستکش لاتکس
بدون نتیجه
مشاهده تمام نتایج
  • تازه‌های تکنولوژی
  • بازی‌های رایانه‌ای
  • فناوری اطلاعات
    • سخت افزار
    • موبایل
    • اینترنت
      • هک و امنیت سایبری
  • هوش مصنوعی
  • دانش اقتصادی
    • صنعت و تجارت
    • دانش معماری
    • حمل و نقل
      • خودرو
    • ارزدیجیتال
  • دانش سیاسی
    • بین المللی
      • گردشگری و مهاجرت
  • دانش اجتماعی
    • دانشگاه
    • دانش حقوقی
    • دانش پزشکی
      • ورزش
      • محیط زیست
  • وب‌جوین
    • همیار آی تی
    • وب کده
    • سرور اچ پی G11
    • دستکش لاتکس
بدون نتیجه
مشاهده تمام نتایج
دانش جوین
بدون نتیجه
مشاهده تمام نتایج
صفحه اصلی هوش مصنوعی

OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد

دیجیاتو توسط دیجیاتو
۰۵ مهر ۱۴۰۴
در هوش مصنوعی
مدت زمان مطالعه: 2 دقیقه
1
OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد

OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدل‌های هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان می‌دهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که می‌توانند خروجی‌هایی مشابه متخصصان انسانی ارائه کنند.

براساس توضیحات این شرکت، GDPval شامل 1320 وظیفه واقعی از 44 شغل مختلف مانند مهندسی نرم‌افزار، وکالت و پرستاری می‌شود. این وظایف توسط گروهی از متخصصان با میانگین 14 سال تجربه کاری طراحی شده‌اند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبت‌های پرستاری، فرمت خروجی مدل‌ها می‌تواند متفاوت باشد.

OpenAI تأکید کرده که برخلاف بنچمارک‌های متداول که اغلب ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد به چالش می‌کشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدل‌ها را به وظایف یک نیروی کار واقعی نزدیک‌تر کند.

در این آزمون مدل‌های GPT-5 ،o3 ،o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو گوگل و Grok 4 از xAI بررسی شده‌اند. سپس عملکرد آنها توسط کارشناسان ارزیابی شده است.

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

نتایج نشان داده که Claude Opus 4.1 بهترین عملکرد را از نظر زیبایی‌شناسی و ظاهر خروجی‌ها مثل چیدمان اسلایدها و قالب‌بندی اسناد داشت. در مقابل، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI همچنین اعلام کرده که توانایی مدل‌ها از زمان انتشار GPT-4o در بهار 2024 تا GPT-5 در تابستان 2025 بیش از دو برابر شده است.

یکی از نکات قابل توجه، صرفه‌جویی در زمان و هزینه است. به گفته OpenAI، مدل‌های پیشرفته می‌توانند وظایف GDPval را حدود 100 برابر سریع‌تر و 100 برابر ارزان‌تر از متخصصان انسانی انجام دهند. البته این آمار فقط مربوط به زمان پردازش و هزینه API است و مراحل مهمی مانند نظارت انسانی، اصلاح و ادغام در پروژه‌ها را در نظر نمی‌گیرد.

بااین‌حال، OpenAI می‌گوید که GDPval هنوز محدودیت‌هایی دارد. این آزمون تنها یک‌بار خروجی‌ها را بررسی می‌کند و نمی‌تواند توانایی مدل‌ها در ساخت چند پیش‌نویس یا مدیریت پروژه‌های طولانی‌مدت را بررسی کند. همچنین در دنیای واقعی بسیاری از وظایف به‌صورت مبهم یا با شرایط درحال تغییر تعریف می‌شوند، درحالی‌که GDPval بیشتر بر وظایف شفاف و مشخص تمرکز دارد.

OpenAI در جمع‌بندی خود تأکید کرده که با وجود تمام این محدودیت‌ها، نتایج نشان می‌دهد مدل‌های هوش مصنوعی درحال رسیدن به سطحی هستند که می‌توانند بخش بزرگی از وظایف کاری را برعهده بگیرند و این امر باعث می‌شود نیروی انسانی زمان بیشتری برای فعالیت‌های پیچیده‌تر داشته باشد.

این شرکت اعلام کرده قصد دارد نسخه‌های بعدی GDPval را به حوزه‌های بیشتری از صنایع گسترش دهد و وظایف دشوارتر و تعاملی‌تری را در آن بگنجاند.

مرتبط پست ها

نسخه جدید چت جی‌پی‌تی با ۸ شخصیت جدید می‌آید
هوش مصنوعی

نسخه جدید چت جی‌پی‌تی با ۸ شخصیت جدید می‌آید

۲۳ آبان ۱۴۰۴
«چت‌جی‌پی‌تی» ۱۰ برابر بیشتر از «خیر»، «بله» می‌گوید
هوش مصنوعی

«چت‌جی‌پی‌تی» ۱۰ برابر بیشتر از «خیر»، «بله» می‌گوید

۲۳ آبان ۱۴۰۴
مک‌های M1 دیگر از اپل اینتلیجنس پشتیبانی نمی‌کنند؛ اشتباه عجیب سایت اپل؟
هوش مصنوعی

مک‌های M1 دیگر از اپل اینتلیجنس پشتیبانی نمی‌کنند؛ اشتباه عجیب سایت اپل؟

۲۱ آبان ۱۴۰۴
دانشمند ارشد هوش مصنوعی متا احتمالاً کمپانی مارک زاکربرگ را ترک می‌کند
هوش مصنوعی

دانشمند ارشد هوش مصنوعی متا احتمالاً کمپانی مارک زاکربرگ را ترک می‌کند

۲۱ آبان ۱۴۰۴

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

4 × دو =

جدیدترین اخبار دانش جوین

  • اهمیت توجه به سئو در عصر دیجیتال: نقش کلیدی هوش مصنوعی در بهبود رتبه‌بندی و تجربه کاربری
  • آخرین وضعیت بازار لوازم خانگی: تعمیر، جای فروش را گرفت
  • وزارت راه: باید با خشکسالی زندگی کنیم/ راه نجات چیست؟
  • بیت کوین لیکوئید شد/ آنچه باید از کاهش بعدی نرخ بهره فدرال رزرو بدانیم!
  • راز آرایش مو در مصر باستان: کلاه گیس ۳۴۰۰ ساله معطر
  • طراحی ربات «اسکنر قنات» برای نوسازی هوشمند شبکه‌های آبی ایران
  • ریتون نقره هخامنشی با پیکره شیر شاخدار
  • 3 ماهواره ایرانی در آستانه پرتاب/ سند 10 ساله فضایی ایران به‌روزرسانی می‌شود
  • فاش شد: هکرهای چینی با هوش مصنوعی حمله می‌کنند

جدیدترین نظرات مخاطبان

  • مدیر بازاریابی دیجیتال در زیروکلاینت یا تین‌کلاینت؟ کدام انتخاب بهتری است؟
  • حیدر ایزدی در زیروکلاینت یا تین‌کلاینت؟ کدام انتخاب بهتری است؟
  • مدیر بازاریابی دیجیتال در معرفی بهترین روش برای دسترسی به طبیعت و افزایش ارش ملک؟! | اجرای روف گاردن با کارینو سبز
  • زهرا رضایی در معرفی بهترین روش برای دسترسی به طبیعت و افزایش ارش ملک؟! | اجرای روف گاردن با کارینو سبز
  • مدیر بازاریابی دیجیتال در هر آنچه درباره آزمون CSCA باید بدانید!

دانش‌جوین یک مجله فارسیِ علم و فناوری است که از سال ۱۳۹۹ فعالیت می‌کند و به‌صورت تخصصی خبرها، تحلیل‌ها و مقالات به‌روز در حوزه‌هایی مثل تکنولوژی، گیمینگ، آی‌تی، هوش مصنوعی و حتی اقتصاد، سیاست و جامعه را گردآوری و منتشر می‌کند.

  • تماس و ارتباط
  • درباره دانش جوین
  • شرایط بازنشر
  • حریم شخصی کاربران
  • تبلیغات

تازه‌های دانش جوین

  • اهمیت توجه به سئو در عصر دیجیتال: نقش کلیدی هوش مصنوعی در بهبود رتبه‌بندی و تجربه کاربری
  • آخرین وضعیت بازار لوازم خانگی: تعمیر، جای فروش را گرفت
  • وزارت راه: باید با خشکسالی زندگی کنیم/ راه نجات چیست؟
  • پاسینیک
  • ویرایش مقاله
  • تابلو لایت باکس
  • خرید سرور hp
  • کاغذ a4
  • خرید کتاب زبان انگلیسی – قیمت کتاب زبان انگلیسی با تخفیف – کتاب آموزشی زبان انگلیسی
  • آموزش متوسطه دوم

تمامی حقوق برای دانش جوین محفوظ بوده و کپی از آن پیگرد قانونی خواهد داشت.

خوش آمدید!

به حساب خود در زیر وارد شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • تازه‌های تکنولوژی
  • بازی‌های رایانه‌ای
  • فناوری اطلاعات
    • سخت افزار
    • موبایل
    • اینترنت
      • هک و امنیت سایبری
  • هوش مصنوعی
  • دانش اقتصادی
    • صنعت و تجارت
    • دانش معماری
    • حمل و نقل
      • خودرو
    • ارزدیجیتال
  • دانش سیاسی
    • بین المللی
      • گردشگری و مهاجرت
  • دانش اجتماعی
    • دانشگاه
    • دانش حقوقی
    • دانش پزشکی
      • ورزش
      • محیط زیست
  • وب‌جوین
    • همیار آی تی
    • وب کده
    • سرور اچ پی G11
    • دستکش لاتکس

تمامی حقوق برای دانش جوین محفوظ بوده و کپی از آن پیگرد قانونی خواهد داشت.