دانش جوین
یکشنبه, خرداد ۱۸, ۱۴۰۴
  • نخست
  • علمی
  • تکنولوژی
    • آرشیو تکنولوژی
    • نرم افزار، اپلیکیشن، سیستم عامل
    • خودرو
    • آرشیو فین‌تک
      • IT
      • دوربین
    • لپتاپ و کامپیوتر و سخت افزار
    • موبایل
  • بازی‌های کامپیوتری
  • پزشکی، سلامت، بهداشت
  • هنر و فرهنگ
  • مقالات
  • سایر پیوندها
    • همیار آی‌تی
  • ورود
بدون نتیجه
مشاهده همه نتیجه
  • نخست
  • علمی
  • تکنولوژی
    • آرشیو تکنولوژی
    • نرم افزار، اپلیکیشن، سیستم عامل
    • خودرو
    • آرشیو فین‌تک
      • IT
      • دوربین
    • لپتاپ و کامپیوتر و سخت افزار
    • موبایل
  • بازی‌های کامپیوتری
  • پزشکی، سلامت، بهداشت
  • هنر و فرهنگ
  • مقالات
  • سایر پیوندها
    • همیار آی‌تی
بدون نتیجه
مشاهده همه نتیجه
دانش جوین
بدون نتیجه
مشاهده همه نتیجه
صفحه اصلی صنعت و تجارت

ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی

دانش جوین توسط دانش جوین
۱۲ دی ۱۴۰۰
در صنعت و تجارت
زمان خواندن: زمان موردنیاز برای مطالعه: 2 دقیقه
2
14
بازدیدها
اشتراک گذاری در تلگراماشتراک گذاری در توییتر
ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی
عکس تزیینی است

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تأکید بر ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی گفت: در روش‌های یادگیری ماشین هدف این است کارهای زمان‌بر دستی از طریق یادگیری ماشین به‌طور خودکار انجام شود.

به گزارش دانشجو اینترنشنال، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرن‌سازی آمارهای رسمی» در تعریف آمارهای رسمی براساس تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار کرد: آمارهای رسمی به آمارهایی اطلاق می‌شود که توسط نظام آماری ملی کشورها تولید می‌شود. نظام آماری ملی شامل سازمان‌ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از طرف دولت ملی انجام می‌دهند.

وی با بیان این‌که لیست و فهرست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، افزود: براساس مدل عمومی فرآیند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آن‌ها مشخص است. از این‌رو سازمان‌های آماری برای پیاده‌سازی و مدرن‌سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات به‌طور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده‌ها در سازمان‌های آماری بهینه و کارآمد باشد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که مدل عمومی فرآیند کسب و کار آماری به مرور زمان و با تحول دنیا به‌روز می‌شود، خاطرنشان کرد: در این مدل ۸ فرآیند و یکسری زیرفرآیندها وجود دارد.

دکتر رضایی با اشاره به ۸ فرآیند مدل عمومی فرآیند کسب و کار آماری شامل نیازسنجی داده‌ها، طراحی، ساخت، جمع‌آوری، پردازش داده‌ها، تحلیل، انتشار و ارزیابی آمارها و داده‌ها، خاطرنشان کرد: به‌علت تحولاتی که طی ۲۰ سال اخیر در حوزه داده‌ها و انقلاب داده‌ها رخ داده است، باید این فرآیند و زیرفرآیندها با استفاده از زیرساخت و روش‌ها و تکنولوژی‌های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرآیند بهینه شود و اطلاعات مورد نیاز کشور جمع‌آوری شود.

ضرورت بازنگری نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید

وی در تعریف مفهوم مدرن‌سازی آمارهای رسمی گفت: باید نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازنگری شود و تولید محصول آماری با کیفیت، مقرون به صرفه و با زمان کمتر از طریق بهینه‌سازی و کارآیی فرآیندها اتفاق افتد.

وی خاطرنشان کرد: تحقق این امر نیازمند اصلاح زیرساخت‌ها، ظرفیت‌سازی و آموزش نیروی انسانی براساس تخصص‌های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل‌های جدید برای روش‌ها و نیازهای جدید است.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که می‌توان با روش‌های یادگیری ماشین بسیاری از کارهای دستی را از طریق یادگیری ماشین به‌طور خودکار انجام داد، افزود: بخش‌های باقی‌مانده که امکان بررسی آن‌ها به طور خودکار وجود ندارد، می‌تواند به روش‌های دیگر و بررسی‌های دقیق کارشناسی انجام شود.

الزام حرکت به سمت استفاده از روش‌های ترکیبی در گردآوری داده‌ها

دکتر رضایی با بیان این‌که هزینه گردآوری داده‌ها زیاد است و بی‌پاسخی در کل دنیا رو به افزایش است، خاطرنشان کرد: باید به سمت استفاده از روش‌های ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه داده‌های سازمان‌های آماری با استفاده از روش‌های اتصال رکوردی استفاده شود. در این صورت، فقط برای سؤال و پرسش‌هایی که اطلاعات آن در پایگاه داده‌های دستگاه‌های دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه‌ها دریافت شود.

وی با بیان این‌که یکی از فعالیت‌های مراکز آماری کدگذاری پرسش‌های متن باز نظیر شغل، تحصیلات، نوع بیماری و … است، افزود: این کدگذاری‌ها می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این فرآیند تا چند سال گذشته توسط افراد ماهر به‌صورت دستی یا نرم‌افزار انجام می‌شد، اما هم‌اکنون با روش‌های یادگیری ماشین به‌طور خودکار انجام می‌شود. پس باید تغییراتی در روش‌ها و فرآیند مدل عمومی کسب و کار آماری ایجاد شود.

استفاده از روش‌های یادگیری ماشین برای شناسایی داده‌های پرت، پر کردن اطلاعات گم شده

دکتر رضایی با اشاره به این‌که بحث شناسایی داده‌های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده‌ها، محرمانه‌سازی اطلاعات و بسیاری از فعالیت‌های مراکز آماری می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود، گفت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرن‌سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل‌ها و چارچوب‌هایی است که به مدرن‌سازی آمارهای رسمی منجر شود.

وی با تأکید بر ضررورت به اشتراک‌گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، خاطرنشان کرد: این گروه سایتی برای استفاده از روش‌های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه‌هایی را به اشتراک می‌گذارد و با تشکیل تیم‌های کاری، دستورالعمل و روش‌های جدید را تهیه می‌کنند.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که موضوع مدرن‌سازی آمارهای رسمی در چهل‌وپنجمین نشست کمیسیون آمار سازمان ملل مطرح شد و از آن به بعد، این موضوع در دستور کار سازمان‌های آماری قرار گرفت، خاطر نشان کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می‌شود و موضوعات روز دنیا مطرح و دستورالعمل‌هایی که گروه‌های کاری مختلف، آن‌ها را تهیه کرده‌اند، در جلسات کمیسیون مطرح و در صورت تصویب  ابلاغ می‌شود.

وی خاطرنشان کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ برگزار شد.

شروع بحث مدرن‌سازی آمارهای رسمی در سطح بین‌الملل

دکتر رضایی با بیان این‌که بحث مدرن‌سازی آمارهای رسمی در سال‌های ۲۰۱۴ و ۲۰۱۵ در سازمان ملل مطرح شد، تصریح کرد: هم‌اکنون به مدت ۶ تا ۷ سال است که مدرن‌سازی آمارهای رسمی در سطح بین‌الملل مطرح و به همه کشورهای جهان ابلاغ شده است.

وی با بیان این‌که یکی از بحث‌های اصلی مرتبط با مدرن‌سازی آمارهای رسمی بحث مِه‌داده‌ها  (Data Big) است، خاطرنشان کرد: مفهوم مِه‌داده‌ها در قرن ۲۱ مطرح شده است. در قرن ۲۱ زیرساخت‌ها و روش‌های گردآوری و ذخیره‌سازی این نوع داده‌ها با سرعت چشمگیری رشد کرد. گوگل که در سال ۱۹۹۸ ایجاد شد، برای ذخیره‌سازی داده‌های تولید شده در این فضاهای مجازی با این حجم از داده‌ها و سرعت و تنوع زیاد، با مشکل روبرو بود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این نوع جدید داده که شامل داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده‌های جدید NoSQL ، زیرساخت و پلتفرم‌های جدیدی منجر شد.

دکتر رضایی با بیان این‌که تا پیش از قرن ۲۱ اکثر داده‌ها ساختاریافته بود، خاطرنشان کرد: پس از قرن ۲۱، داده‌ها به نیمه‌ساختاریافته و غیرساختاریافته تغییر کرد.

کاربرد Data Big در داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه

وی ادامه داد: یک تقسیم‌بندی دیگر در Data Big که در حوزه آمارهای رسمی نیز کاربرد دارد، استفاده از داده‌های جدید مانند داده‌های اداری، داده‌های حسگرها یا دوربین‌های ثبت تخلفات و ترددها، داده‌های تصاویر ماهواره‌ای برای برآورد محصولات حوزه کشاورزی، داده‌های حاصل از خرید و فروش اینترنتی، داده‌های وب سایت‌ها، داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که پس از ارزیابی کیفیت و صحت داده‌ها می‌تواند به مرور زمان و رفع خطاها، به‌عنوان آمارهای رسمی با استفاده از تکنولوژی‌های روز دنیا استفاده شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران یادآور شد: به‌عنوان مثال، پس از راستی‌آزمایی داده‌های تلفن همراه، می‌توان از داده‌های تلفن همراه برای جابجایی و شناسایی بیماری‌ها از جمله کووید ۱۹ و یا پیش‌بینی جمعیت مهاجر، برآورد جمعیت و … استفاده کرد.

دکتر رضایی با بیان این‌که تولید داده‌های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش‌های علمی جدید است، افزود: در این صورت باید از زیرساخت، پلتفرم و پایگاه داده‌های NoSQL به جای پایگاه داده‌های رابطه‌ای که امکان ذخیره‌سازی و پردازش داده‌های ساختاریافته را دارند، استفاده کرد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار بسیاری از فعالیت‌های مراکز آماری از جمله کدگذاری پرسش‌های باز را یکی از فعالیت‌های مراکز آماری و سازمان‌ها برشمرد و افزود: کدگذاری مشاغل، کالاها، دارو، بیماری‌ها و … می‌تواند با استفاده از روش‌های یادگیری ماشین به‌جای روش‌های دستی و سنتی انجام شود.

وی خاطرنشان کرد: در مسائل مربوط به تخصیص کدهای استاندارد بین‌المللی ISIC یا ISCO یا هر کد دیگر به پرسش‌های باز به‌صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچه‌های رده‌بندی‌های بین‌المللی مانند رده‌بندی رشته فعالیت‌های اقتصادی و دست‌نوشته‌های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیت‌های اقتصادی به‌صورت نیمه‌خودکار فراهم می‌شود.

امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار با استفاده از روش‌های یادگیری آماری وجود دارد و در سرشماری‌های ثبتی مبنا کاربرد دارد، خاطرنشان کرد: با اتصال آدرس آماری به آدرس‌های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری‌های سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا به‌صورت سری‌های زمانی در پایین‌ترین سطوح جغرافیایی نیز فراهم می‌شود.

دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس‌های پستی نیست. با استفاده از روش‌های یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرس‌های پستی، امکان انتساب کد آماری به آدرس‌های پستی منطبق نشده فراهم می‌شود.

انتهای پیام

ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی
عکس تزیینی است

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تأکید بر ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی گفت: در روش‌های یادگیری ماشین هدف این است کارهای زمان‌بر دستی از طریق یادگیری ماشین به‌طور خودکار انجام شود.

به گزارش دانشجو اینترنشنال، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرن‌سازی آمارهای رسمی» در تعریف آمارهای رسمی براساس تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار کرد: آمارهای رسمی به آمارهایی اطلاق می‌شود که توسط نظام آماری ملی کشورها تولید می‌شود. نظام آماری ملی شامل سازمان‌ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از طرف دولت ملی انجام می‌دهند.

وی با بیان این‌که لیست و فهرست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، افزود: براساس مدل عمومی فرآیند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آن‌ها مشخص است. از این‌رو سازمان‌های آماری برای پیاده‌سازی و مدرن‌سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات به‌طور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده‌ها در سازمان‌های آماری بهینه و کارآمد باشد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که مدل عمومی فرآیند کسب و کار آماری به مرور زمان و با تحول دنیا به‌روز می‌شود، خاطرنشان کرد: در این مدل ۸ فرآیند و یکسری زیرفرآیندها وجود دارد.

دکتر رضایی با اشاره به ۸ فرآیند مدل عمومی فرآیند کسب و کار آماری شامل نیازسنجی داده‌ها، طراحی، ساخت، جمع‌آوری، پردازش داده‌ها، تحلیل، انتشار و ارزیابی آمارها و داده‌ها، خاطرنشان کرد: به‌علت تحولاتی که طی ۲۰ سال اخیر در حوزه داده‌ها و انقلاب داده‌ها رخ داده است، باید این فرآیند و زیرفرآیندها با استفاده از زیرساخت و روش‌ها و تکنولوژی‌های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرآیند بهینه شود و اطلاعات مورد نیاز کشور جمع‌آوری شود.

ضرورت بازنگری نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید

وی در تعریف مفهوم مدرن‌سازی آمارهای رسمی گفت: باید نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازنگری شود و تولید محصول آماری با کیفیت، مقرون به صرفه و با زمان کمتر از طریق بهینه‌سازی و کارآیی فرآیندها اتفاق افتد.

وی خاطرنشان کرد: تحقق این امر نیازمند اصلاح زیرساخت‌ها، ظرفیت‌سازی و آموزش نیروی انسانی براساس تخصص‌های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل‌های جدید برای روش‌ها و نیازهای جدید است.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که می‌توان با روش‌های یادگیری ماشین بسیاری از کارهای دستی را از طریق یادگیری ماشین به‌طور خودکار انجام داد، افزود: بخش‌های باقی‌مانده که امکان بررسی آن‌ها به طور خودکار وجود ندارد، می‌تواند به روش‌های دیگر و بررسی‌های دقیق کارشناسی انجام شود.

الزام حرکت به سمت استفاده از روش‌های ترکیبی در گردآوری داده‌ها

دکتر رضایی با بیان این‌که هزینه گردآوری داده‌ها زیاد است و بی‌پاسخی در کل دنیا رو به افزایش است، خاطرنشان کرد: باید به سمت استفاده از روش‌های ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه داده‌های سازمان‌های آماری با استفاده از روش‌های اتصال رکوردی استفاده شود. در این صورت، فقط برای سؤال و پرسش‌هایی که اطلاعات آن در پایگاه داده‌های دستگاه‌های دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه‌ها دریافت شود.

وی با بیان این‌که یکی از فعالیت‌های مراکز آماری کدگذاری پرسش‌های متن باز نظیر شغل، تحصیلات، نوع بیماری و … است، افزود: این کدگذاری‌ها می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این فرآیند تا چند سال گذشته توسط افراد ماهر به‌صورت دستی یا نرم‌افزار انجام می‌شد، اما هم‌اکنون با روش‌های یادگیری ماشین به‌طور خودکار انجام می‌شود. پس باید تغییراتی در روش‌ها و فرآیند مدل عمومی کسب و کار آماری ایجاد شود.

استفاده از روش‌های یادگیری ماشین برای شناسایی داده‌های پرت، پر کردن اطلاعات گم شده

دکتر رضایی با اشاره به این‌که بحث شناسایی داده‌های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده‌ها، محرمانه‌سازی اطلاعات و بسیاری از فعالیت‌های مراکز آماری می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود، گفت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرن‌سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل‌ها و چارچوب‌هایی است که به مدرن‌سازی آمارهای رسمی منجر شود.

وی با تأکید بر ضررورت به اشتراک‌گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، خاطرنشان کرد: این گروه سایتی برای استفاده از روش‌های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه‌هایی را به اشتراک می‌گذارد و با تشکیل تیم‌های کاری، دستورالعمل و روش‌های جدید را تهیه می‌کنند.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که موضوع مدرن‌سازی آمارهای رسمی در چهل‌وپنجمین نشست کمیسیون آمار سازمان ملل مطرح شد و از آن به بعد، این موضوع در دستور کار سازمان‌های آماری قرار گرفت، خاطر نشان کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می‌شود و موضوعات روز دنیا مطرح و دستورالعمل‌هایی که گروه‌های کاری مختلف، آن‌ها را تهیه کرده‌اند، در جلسات کمیسیون مطرح و در صورت تصویب  ابلاغ می‌شود.

وی خاطرنشان کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ برگزار شد.

شروع بحث مدرن‌سازی آمارهای رسمی در سطح بین‌الملل

دکتر رضایی با بیان این‌که بحث مدرن‌سازی آمارهای رسمی در سال‌های ۲۰۱۴ و ۲۰۱۵ در سازمان ملل مطرح شد، تصریح کرد: هم‌اکنون به مدت ۶ تا ۷ سال است که مدرن‌سازی آمارهای رسمی در سطح بین‌الملل مطرح و به همه کشورهای جهان ابلاغ شده است.

وی با بیان این‌که یکی از بحث‌های اصلی مرتبط با مدرن‌سازی آمارهای رسمی بحث مِه‌داده‌ها  (Data Big) است، خاطرنشان کرد: مفهوم مِه‌داده‌ها در قرن ۲۱ مطرح شده است. در قرن ۲۱ زیرساخت‌ها و روش‌های گردآوری و ذخیره‌سازی این نوع داده‌ها با سرعت چشمگیری رشد کرد. گوگل که در سال ۱۹۹۸ ایجاد شد، برای ذخیره‌سازی داده‌های تولید شده در این فضاهای مجازی با این حجم از داده‌ها و سرعت و تنوع زیاد، با مشکل روبرو بود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این نوع جدید داده که شامل داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده‌های جدید NoSQL ، زیرساخت و پلتفرم‌های جدیدی منجر شد.

دکتر رضایی با بیان این‌که تا پیش از قرن ۲۱ اکثر داده‌ها ساختاریافته بود، خاطرنشان کرد: پس از قرن ۲۱، داده‌ها به نیمه‌ساختاریافته و غیرساختاریافته تغییر کرد.

کاربرد Data Big در داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه

وی ادامه داد: یک تقسیم‌بندی دیگر در Data Big که در حوزه آمارهای رسمی نیز کاربرد دارد، استفاده از داده‌های جدید مانند داده‌های اداری، داده‌های حسگرها یا دوربین‌های ثبت تخلفات و ترددها، داده‌های تصاویر ماهواره‌ای برای برآورد محصولات حوزه کشاورزی، داده‌های حاصل از خرید و فروش اینترنتی، داده‌های وب سایت‌ها، داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که پس از ارزیابی کیفیت و صحت داده‌ها می‌تواند به مرور زمان و رفع خطاها، به‌عنوان آمارهای رسمی با استفاده از تکنولوژی‌های روز دنیا استفاده شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران یادآور شد: به‌عنوان مثال، پس از راستی‌آزمایی داده‌های تلفن همراه، می‌توان از داده‌های تلفن همراه برای جابجایی و شناسایی بیماری‌ها از جمله کووید ۱۹ و یا پیش‌بینی جمعیت مهاجر، برآورد جمعیت و … استفاده کرد.

دکتر رضایی با بیان این‌که تولید داده‌های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش‌های علمی جدید است، افزود: در این صورت باید از زیرساخت، پلتفرم و پایگاه داده‌های NoSQL به جای پایگاه داده‌های رابطه‌ای که امکان ذخیره‌سازی و پردازش داده‌های ساختاریافته را دارند، استفاده کرد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار بسیاری از فعالیت‌های مراکز آماری از جمله کدگذاری پرسش‌های باز را یکی از فعالیت‌های مراکز آماری و سازمان‌ها برشمرد و افزود: کدگذاری مشاغل، کالاها، دارو، بیماری‌ها و … می‌تواند با استفاده از روش‌های یادگیری ماشین به‌جای روش‌های دستی و سنتی انجام شود.

وی خاطرنشان کرد: در مسائل مربوط به تخصیص کدهای استاندارد بین‌المللی ISIC یا ISCO یا هر کد دیگر به پرسش‌های باز به‌صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچه‌های رده‌بندی‌های بین‌المللی مانند رده‌بندی رشته فعالیت‌های اقتصادی و دست‌نوشته‌های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیت‌های اقتصادی به‌صورت نیمه‌خودکار فراهم می‌شود.

امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار با استفاده از روش‌های یادگیری آماری وجود دارد و در سرشماری‌های ثبتی مبنا کاربرد دارد، خاطرنشان کرد: با اتصال آدرس آماری به آدرس‌های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری‌های سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا به‌صورت سری‌های زمانی در پایین‌ترین سطوح جغرافیایی نیز فراهم می‌شود.

دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس‌های پستی نیست. با استفاده از روش‌های یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرس‌های پستی، امکان انتساب کد آماری به آدرس‌های پستی منطبق نشده فراهم می‌شود.

انتهای پیام

اخبارجدیدترین

رئیس سازمان حمایت: احتکار خودرو با انبار کردن در پارکینگ فرقی ندارد

ایران و عمان؛ دوستان قدیمی با حجم تجارت ضعیف/ پیشنهاد جذاب مسقط برای فعالان اقتصادی ایرانی چیست؟

قیمت گوشی‌های سامسونگ، امروز شنبه ۱۷ خرداد ۱۴۰۴

ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی
عکس تزیینی است

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تأکید بر ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی گفت: در روش‌های یادگیری ماشین هدف این است کارهای زمان‌بر دستی از طریق یادگیری ماشین به‌طور خودکار انجام شود.

به گزارش دانشجو اینترنشنال، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرن‌سازی آمارهای رسمی» در تعریف آمارهای رسمی براساس تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار کرد: آمارهای رسمی به آمارهایی اطلاق می‌شود که توسط نظام آماری ملی کشورها تولید می‌شود. نظام آماری ملی شامل سازمان‌ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از طرف دولت ملی انجام می‌دهند.

وی با بیان این‌که لیست و فهرست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، افزود: براساس مدل عمومی فرآیند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آن‌ها مشخص است. از این‌رو سازمان‌های آماری برای پیاده‌سازی و مدرن‌سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات به‌طور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده‌ها در سازمان‌های آماری بهینه و کارآمد باشد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که مدل عمومی فرآیند کسب و کار آماری به مرور زمان و با تحول دنیا به‌روز می‌شود، خاطرنشان کرد: در این مدل ۸ فرآیند و یکسری زیرفرآیندها وجود دارد.

دکتر رضایی با اشاره به ۸ فرآیند مدل عمومی فرآیند کسب و کار آماری شامل نیازسنجی داده‌ها، طراحی، ساخت، جمع‌آوری، پردازش داده‌ها، تحلیل، انتشار و ارزیابی آمارها و داده‌ها، خاطرنشان کرد: به‌علت تحولاتی که طی ۲۰ سال اخیر در حوزه داده‌ها و انقلاب داده‌ها رخ داده است، باید این فرآیند و زیرفرآیندها با استفاده از زیرساخت و روش‌ها و تکنولوژی‌های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرآیند بهینه شود و اطلاعات مورد نیاز کشور جمع‌آوری شود.

ضرورت بازنگری نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید

وی در تعریف مفهوم مدرن‌سازی آمارهای رسمی گفت: باید نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازنگری شود و تولید محصول آماری با کیفیت، مقرون به صرفه و با زمان کمتر از طریق بهینه‌سازی و کارآیی فرآیندها اتفاق افتد.

وی خاطرنشان کرد: تحقق این امر نیازمند اصلاح زیرساخت‌ها، ظرفیت‌سازی و آموزش نیروی انسانی براساس تخصص‌های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل‌های جدید برای روش‌ها و نیازهای جدید است.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که می‌توان با روش‌های یادگیری ماشین بسیاری از کارهای دستی را از طریق یادگیری ماشین به‌طور خودکار انجام داد، افزود: بخش‌های باقی‌مانده که امکان بررسی آن‌ها به طور خودکار وجود ندارد، می‌تواند به روش‌های دیگر و بررسی‌های دقیق کارشناسی انجام شود.

الزام حرکت به سمت استفاده از روش‌های ترکیبی در گردآوری داده‌ها

دکتر رضایی با بیان این‌که هزینه گردآوری داده‌ها زیاد است و بی‌پاسخی در کل دنیا رو به افزایش است، خاطرنشان کرد: باید به سمت استفاده از روش‌های ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه داده‌های سازمان‌های آماری با استفاده از روش‌های اتصال رکوردی استفاده شود. در این صورت، فقط برای سؤال و پرسش‌هایی که اطلاعات آن در پایگاه داده‌های دستگاه‌های دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه‌ها دریافت شود.

وی با بیان این‌که یکی از فعالیت‌های مراکز آماری کدگذاری پرسش‌های متن باز نظیر شغل، تحصیلات، نوع بیماری و … است، افزود: این کدگذاری‌ها می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این فرآیند تا چند سال گذشته توسط افراد ماهر به‌صورت دستی یا نرم‌افزار انجام می‌شد، اما هم‌اکنون با روش‌های یادگیری ماشین به‌طور خودکار انجام می‌شود. پس باید تغییراتی در روش‌ها و فرآیند مدل عمومی کسب و کار آماری ایجاد شود.

استفاده از روش‌های یادگیری ماشین برای شناسایی داده‌های پرت، پر کردن اطلاعات گم شده

دکتر رضایی با اشاره به این‌که بحث شناسایی داده‌های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده‌ها، محرمانه‌سازی اطلاعات و بسیاری از فعالیت‌های مراکز آماری می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود، گفت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرن‌سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل‌ها و چارچوب‌هایی است که به مدرن‌سازی آمارهای رسمی منجر شود.

وی با تأکید بر ضررورت به اشتراک‌گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، خاطرنشان کرد: این گروه سایتی برای استفاده از روش‌های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه‌هایی را به اشتراک می‌گذارد و با تشکیل تیم‌های کاری، دستورالعمل و روش‌های جدید را تهیه می‌کنند.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که موضوع مدرن‌سازی آمارهای رسمی در چهل‌وپنجمین نشست کمیسیون آمار سازمان ملل مطرح شد و از آن به بعد، این موضوع در دستور کار سازمان‌های آماری قرار گرفت، خاطر نشان کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می‌شود و موضوعات روز دنیا مطرح و دستورالعمل‌هایی که گروه‌های کاری مختلف، آن‌ها را تهیه کرده‌اند، در جلسات کمیسیون مطرح و در صورت تصویب  ابلاغ می‌شود.

وی خاطرنشان کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ برگزار شد.

شروع بحث مدرن‌سازی آمارهای رسمی در سطح بین‌الملل

دکتر رضایی با بیان این‌که بحث مدرن‌سازی آمارهای رسمی در سال‌های ۲۰۱۴ و ۲۰۱۵ در سازمان ملل مطرح شد، تصریح کرد: هم‌اکنون به مدت ۶ تا ۷ سال است که مدرن‌سازی آمارهای رسمی در سطح بین‌الملل مطرح و به همه کشورهای جهان ابلاغ شده است.

وی با بیان این‌که یکی از بحث‌های اصلی مرتبط با مدرن‌سازی آمارهای رسمی بحث مِه‌داده‌ها  (Data Big) است، خاطرنشان کرد: مفهوم مِه‌داده‌ها در قرن ۲۱ مطرح شده است. در قرن ۲۱ زیرساخت‌ها و روش‌های گردآوری و ذخیره‌سازی این نوع داده‌ها با سرعت چشمگیری رشد کرد. گوگل که در سال ۱۹۹۸ ایجاد شد، برای ذخیره‌سازی داده‌های تولید شده در این فضاهای مجازی با این حجم از داده‌ها و سرعت و تنوع زیاد، با مشکل روبرو بود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این نوع جدید داده که شامل داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده‌های جدید NoSQL ، زیرساخت و پلتفرم‌های جدیدی منجر شد.

دکتر رضایی با بیان این‌که تا پیش از قرن ۲۱ اکثر داده‌ها ساختاریافته بود، خاطرنشان کرد: پس از قرن ۲۱، داده‌ها به نیمه‌ساختاریافته و غیرساختاریافته تغییر کرد.

کاربرد Data Big در داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه

وی ادامه داد: یک تقسیم‌بندی دیگر در Data Big که در حوزه آمارهای رسمی نیز کاربرد دارد، استفاده از داده‌های جدید مانند داده‌های اداری، داده‌های حسگرها یا دوربین‌های ثبت تخلفات و ترددها، داده‌های تصاویر ماهواره‌ای برای برآورد محصولات حوزه کشاورزی، داده‌های حاصل از خرید و فروش اینترنتی، داده‌های وب سایت‌ها، داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که پس از ارزیابی کیفیت و صحت داده‌ها می‌تواند به مرور زمان و رفع خطاها، به‌عنوان آمارهای رسمی با استفاده از تکنولوژی‌های روز دنیا استفاده شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران یادآور شد: به‌عنوان مثال، پس از راستی‌آزمایی داده‌های تلفن همراه، می‌توان از داده‌های تلفن همراه برای جابجایی و شناسایی بیماری‌ها از جمله کووید ۱۹ و یا پیش‌بینی جمعیت مهاجر، برآورد جمعیت و … استفاده کرد.

دکتر رضایی با بیان این‌که تولید داده‌های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش‌های علمی جدید است، افزود: در این صورت باید از زیرساخت، پلتفرم و پایگاه داده‌های NoSQL به جای پایگاه داده‌های رابطه‌ای که امکان ذخیره‌سازی و پردازش داده‌های ساختاریافته را دارند، استفاده کرد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار بسیاری از فعالیت‌های مراکز آماری از جمله کدگذاری پرسش‌های باز را یکی از فعالیت‌های مراکز آماری و سازمان‌ها برشمرد و افزود: کدگذاری مشاغل، کالاها، دارو، بیماری‌ها و … می‌تواند با استفاده از روش‌های یادگیری ماشین به‌جای روش‌های دستی و سنتی انجام شود.

وی خاطرنشان کرد: در مسائل مربوط به تخصیص کدهای استاندارد بین‌المللی ISIC یا ISCO یا هر کد دیگر به پرسش‌های باز به‌صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچه‌های رده‌بندی‌های بین‌المللی مانند رده‌بندی رشته فعالیت‌های اقتصادی و دست‌نوشته‌های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیت‌های اقتصادی به‌صورت نیمه‌خودکار فراهم می‌شود.

امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار با استفاده از روش‌های یادگیری آماری وجود دارد و در سرشماری‌های ثبتی مبنا کاربرد دارد، خاطرنشان کرد: با اتصال آدرس آماری به آدرس‌های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری‌های سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا به‌صورت سری‌های زمانی در پایین‌ترین سطوح جغرافیایی نیز فراهم می‌شود.

دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس‌های پستی نیست. با استفاده از روش‌های یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرس‌های پستی، امکان انتساب کد آماری به آدرس‌های پستی منطبق نشده فراهم می‌شود.

انتهای پیام

ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی
عکس تزیینی است

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تأکید بر ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی گفت: در روش‌های یادگیری ماشین هدف این است کارهای زمان‌بر دستی از طریق یادگیری ماشین به‌طور خودکار انجام شود.

به گزارش دانشجو اینترنشنال، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرن‌سازی آمارهای رسمی» در تعریف آمارهای رسمی براساس تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار کرد: آمارهای رسمی به آمارهایی اطلاق می‌شود که توسط نظام آماری ملی کشورها تولید می‌شود. نظام آماری ملی شامل سازمان‌ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از طرف دولت ملی انجام می‌دهند.

وی با بیان این‌که لیست و فهرست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، افزود: براساس مدل عمومی فرآیند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آن‌ها مشخص است. از این‌رو سازمان‌های آماری برای پیاده‌سازی و مدرن‌سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات به‌طور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده‌ها در سازمان‌های آماری بهینه و کارآمد باشد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که مدل عمومی فرآیند کسب و کار آماری به مرور زمان و با تحول دنیا به‌روز می‌شود، خاطرنشان کرد: در این مدل ۸ فرآیند و یکسری زیرفرآیندها وجود دارد.

دکتر رضایی با اشاره به ۸ فرآیند مدل عمومی فرآیند کسب و کار آماری شامل نیازسنجی داده‌ها، طراحی، ساخت، جمع‌آوری، پردازش داده‌ها، تحلیل، انتشار و ارزیابی آمارها و داده‌ها، خاطرنشان کرد: به‌علت تحولاتی که طی ۲۰ سال اخیر در حوزه داده‌ها و انقلاب داده‌ها رخ داده است، باید این فرآیند و زیرفرآیندها با استفاده از زیرساخت و روش‌ها و تکنولوژی‌های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرآیند بهینه شود و اطلاعات مورد نیاز کشور جمع‌آوری شود.

ضرورت بازنگری نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید

وی در تعریف مفهوم مدرن‌سازی آمارهای رسمی گفت: باید نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازنگری شود و تولید محصول آماری با کیفیت، مقرون به صرفه و با زمان کمتر از طریق بهینه‌سازی و کارآیی فرآیندها اتفاق افتد.

وی خاطرنشان کرد: تحقق این امر نیازمند اصلاح زیرساخت‌ها، ظرفیت‌سازی و آموزش نیروی انسانی براساس تخصص‌های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل‌های جدید برای روش‌ها و نیازهای جدید است.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که می‌توان با روش‌های یادگیری ماشین بسیاری از کارهای دستی را از طریق یادگیری ماشین به‌طور خودکار انجام داد، افزود: بخش‌های باقی‌مانده که امکان بررسی آن‌ها به طور خودکار وجود ندارد، می‌تواند به روش‌های دیگر و بررسی‌های دقیق کارشناسی انجام شود.

الزام حرکت به سمت استفاده از روش‌های ترکیبی در گردآوری داده‌ها

دکتر رضایی با بیان این‌که هزینه گردآوری داده‌ها زیاد است و بی‌پاسخی در کل دنیا رو به افزایش است، خاطرنشان کرد: باید به سمت استفاده از روش‌های ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه داده‌های سازمان‌های آماری با استفاده از روش‌های اتصال رکوردی استفاده شود. در این صورت، فقط برای سؤال و پرسش‌هایی که اطلاعات آن در پایگاه داده‌های دستگاه‌های دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه‌ها دریافت شود.

وی با بیان این‌که یکی از فعالیت‌های مراکز آماری کدگذاری پرسش‌های متن باز نظیر شغل، تحصیلات، نوع بیماری و … است، افزود: این کدگذاری‌ها می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این فرآیند تا چند سال گذشته توسط افراد ماهر به‌صورت دستی یا نرم‌افزار انجام می‌شد، اما هم‌اکنون با روش‌های یادگیری ماشین به‌طور خودکار انجام می‌شود. پس باید تغییراتی در روش‌ها و فرآیند مدل عمومی کسب و کار آماری ایجاد شود.

استفاده از روش‌های یادگیری ماشین برای شناسایی داده‌های پرت، پر کردن اطلاعات گم شده

دکتر رضایی با اشاره به این‌که بحث شناسایی داده‌های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده‌ها، محرمانه‌سازی اطلاعات و بسیاری از فعالیت‌های مراکز آماری می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود، گفت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرن‌سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل‌ها و چارچوب‌هایی است که به مدرن‌سازی آمارهای رسمی منجر شود.

وی با تأکید بر ضررورت به اشتراک‌گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، خاطرنشان کرد: این گروه سایتی برای استفاده از روش‌های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه‌هایی را به اشتراک می‌گذارد و با تشکیل تیم‌های کاری، دستورالعمل و روش‌های جدید را تهیه می‌کنند.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که موضوع مدرن‌سازی آمارهای رسمی در چهل‌وپنجمین نشست کمیسیون آمار سازمان ملل مطرح شد و از آن به بعد، این موضوع در دستور کار سازمان‌های آماری قرار گرفت، خاطر نشان کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می‌شود و موضوعات روز دنیا مطرح و دستورالعمل‌هایی که گروه‌های کاری مختلف، آن‌ها را تهیه کرده‌اند، در جلسات کمیسیون مطرح و در صورت تصویب  ابلاغ می‌شود.

وی خاطرنشان کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ برگزار شد.

شروع بحث مدرن‌سازی آمارهای رسمی در سطح بین‌الملل

دکتر رضایی با بیان این‌که بحث مدرن‌سازی آمارهای رسمی در سال‌های ۲۰۱۴ و ۲۰۱۵ در سازمان ملل مطرح شد، تصریح کرد: هم‌اکنون به مدت ۶ تا ۷ سال است که مدرن‌سازی آمارهای رسمی در سطح بین‌الملل مطرح و به همه کشورهای جهان ابلاغ شده است.

وی با بیان این‌که یکی از بحث‌های اصلی مرتبط با مدرن‌سازی آمارهای رسمی بحث مِه‌داده‌ها  (Data Big) است، خاطرنشان کرد: مفهوم مِه‌داده‌ها در قرن ۲۱ مطرح شده است. در قرن ۲۱ زیرساخت‌ها و روش‌های گردآوری و ذخیره‌سازی این نوع داده‌ها با سرعت چشمگیری رشد کرد. گوگل که در سال ۱۹۹۸ ایجاد شد، برای ذخیره‌سازی داده‌های تولید شده در این فضاهای مجازی با این حجم از داده‌ها و سرعت و تنوع زیاد، با مشکل روبرو بود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این نوع جدید داده که شامل داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده‌های جدید NoSQL ، زیرساخت و پلتفرم‌های جدیدی منجر شد.

دکتر رضایی با بیان این‌که تا پیش از قرن ۲۱ اکثر داده‌ها ساختاریافته بود، خاطرنشان کرد: پس از قرن ۲۱، داده‌ها به نیمه‌ساختاریافته و غیرساختاریافته تغییر کرد.

کاربرد Data Big در داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه

وی ادامه داد: یک تقسیم‌بندی دیگر در Data Big که در حوزه آمارهای رسمی نیز کاربرد دارد، استفاده از داده‌های جدید مانند داده‌های اداری، داده‌های حسگرها یا دوربین‌های ثبت تخلفات و ترددها، داده‌های تصاویر ماهواره‌ای برای برآورد محصولات حوزه کشاورزی، داده‌های حاصل از خرید و فروش اینترنتی، داده‌های وب سایت‌ها، داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که پس از ارزیابی کیفیت و صحت داده‌ها می‌تواند به مرور زمان و رفع خطاها، به‌عنوان آمارهای رسمی با استفاده از تکنولوژی‌های روز دنیا استفاده شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران یادآور شد: به‌عنوان مثال، پس از راستی‌آزمایی داده‌های تلفن همراه، می‌توان از داده‌های تلفن همراه برای جابجایی و شناسایی بیماری‌ها از جمله کووید ۱۹ و یا پیش‌بینی جمعیت مهاجر، برآورد جمعیت و … استفاده کرد.

دکتر رضایی با بیان این‌که تولید داده‌های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش‌های علمی جدید است، افزود: در این صورت باید از زیرساخت، پلتفرم و پایگاه داده‌های NoSQL به جای پایگاه داده‌های رابطه‌ای که امکان ذخیره‌سازی و پردازش داده‌های ساختاریافته را دارند، استفاده کرد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار بسیاری از فعالیت‌های مراکز آماری از جمله کدگذاری پرسش‌های باز را یکی از فعالیت‌های مراکز آماری و سازمان‌ها برشمرد و افزود: کدگذاری مشاغل، کالاها، دارو، بیماری‌ها و … می‌تواند با استفاده از روش‌های یادگیری ماشین به‌جای روش‌های دستی و سنتی انجام شود.

وی خاطرنشان کرد: در مسائل مربوط به تخصیص کدهای استاندارد بین‌المللی ISIC یا ISCO یا هر کد دیگر به پرسش‌های باز به‌صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچه‌های رده‌بندی‌های بین‌المللی مانند رده‌بندی رشته فعالیت‌های اقتصادی و دست‌نوشته‌های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیت‌های اقتصادی به‌صورت نیمه‌خودکار فراهم می‌شود.

امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار با استفاده از روش‌های یادگیری آماری وجود دارد و در سرشماری‌های ثبتی مبنا کاربرد دارد، خاطرنشان کرد: با اتصال آدرس آماری به آدرس‌های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری‌های سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا به‌صورت سری‌های زمانی در پایین‌ترین سطوح جغرافیایی نیز فراهم می‌شود.

دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس‌های پستی نیست. با استفاده از روش‌های یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرس‌های پستی، امکان انتساب کد آماری به آدرس‌های پستی منطبق نشده فراهم می‌شود.

انتهای پیام

برچسب ها: _دانشگاه تهران
پست قبلی

علیزاده: چرا سیب را با موز و نارنگی تهاتر نمی‌کنید؟

پست بعدی

فنلاند: هر زمان اراده کنیم، به ناتو درخواست عضویت می‌دهیم

مربوطه پست ها

رئیس سازمان حمایت: احتکار خودرو با انبار کردن در پارکینگ فرقی ندارد
صنعت و تجارت

رئیس سازمان حمایت: احتکار خودرو با انبار کردن در پارکینگ فرقی ندارد

۱۸ خرداد ۱۴۰۴
ایران و عمان؛ دوستان قدیمی با حجم تجارت ضعیف/ پیشنهاد جذاب مسقط برای فعالان اقتصادی ایرانی چیست؟
صنعت و تجارت

ایران و عمان؛ دوستان قدیمی با حجم تجارت ضعیف/ پیشنهاد جذاب مسقط برای فعالان اقتصادی ایرانی چیست؟

۱۷ خرداد ۱۴۰۴
قیمت گوشی‌های سامسونگ، امروز شنبه ۱۷ خرداد ۱۴۰۴
صنعت و تجارت

قیمت گوشی‌های سامسونگ، امروز شنبه ۱۷ خرداد ۱۴۰۴

۱۷ خرداد ۱۴۰۴
قیمت گوشی‌های شیائومی، امروز شنبه ۱۷ خرداد ۱۴۰۴
صنعت و تجارت

قیمت گوشی‌های شیائومی، امروز شنبه ۱۷ خرداد ۱۴۰۴

۱۷ خرداد ۱۴۰۴
قیمت گوشی‌های آیفون امروز شنبه ۱۷ خرداد ۱۴۰۴
صنعت و تجارت

قیمت گوشی‌های آیفون امروز شنبه ۱۷ خرداد ۱۴۰۴

۱۷ خرداد ۱۴۰۴
دعوت از وزیر صمت به کمیسیون صنایع و معادن مجلس
صنعت و تجارت

دعوت از وزیر صمت به کمیسیون صنایع و معادن مجلس

۱۷ خرداد ۱۴۰۴

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دو × 1 =

دانلود اپلیکیشن دانش جوین

جدیدترین اخبار

  • یحیی گل‌محمدی از فولاد رفتنی شد؟
  • بازگشت اسطوره استقلال به خانه
  • قیمت رهن کامل آپارتمان در تهران ۱۴۰۴ /جدول نرخ‌ها در منطقه ۵ تا ۲ میلیارد
  • خداحافظی کارتال با پرسپولیس؛ بازگشت به فنر باغچه؟!
  • جنگ ترامپ و ماسک؛ بازار میم‌کوین‌ها نیز با ۳۵۵ میلیون دلار حجم معاملات منفجر شد!
  • پاسینیک
  • خرید سرور hp
  • خرید سرور ایران و خارج
  • مانیتور ساینا کوییک
  • خرید یوسی
  • حوله استخری
  • خرید قهوه
  • تجارتخانه آراد برندینگ
  • ویرایش مقاله
  • تابلو لایت باکس
  • قیمت سرور استوک اچ پی hp
  • خرید سرور hp
  • کاغذ a4
  • قیمت هاست فروشگاهی
  • پرشین هتل
  • خرید لیفتراک دست دوم
  • آموزش علوم اول ابتدایی

تمام حقوق مادی و معنوی وب‌سایت دانش جوین محفوظ است و کپی بدون ذکر منبع قابل پیگرد قانونی خواهد بود.

خوش آمدید!

ورود به حساب کاربری خود در زیر

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای تنظیم مجدد رمز عبور خود وارد کنید.

ورود
بدون نتیجه
مشاهده همه نتیجه
  • نخست
  • علمی
  • تکنولوژی
    • آرشیو تکنولوژی
    • نرم افزار، اپلیکیشن، سیستم عامل
    • خودرو
    • آرشیو فین‌تک
      • IT
      • دوربین
    • لپتاپ و کامپیوتر و سخت افزار
    • موبایل
  • بازی‌های کامپیوتری
  • پزشکی، سلامت، بهداشت
  • هنر و فرهنگ
  • مقالات
  • سایر پیوندها
    • همیار آی‌تی

تمام حقوق مادی و معنوی وب‌سایت دانش جوین محفوظ است و کپی بدون ذکر منبع قابل پیگرد قانونی خواهد بود.