زمان تخمینی مطالعه: 4 دقیقه

COCO یک مجموعه داده بصری است که نقش مهمی در بینایی رایانه ایفا می‌کند. در این مقاله، همه چیزهایی را که باید در مورد مجموعه داده محبوب COCO مایکروسافت بدانید که به طور گسترده برای پروژه‌های یادگیری ماشینی استفاده می‌شود، پوشش خواهیم داد. در این نوشته یاد می‌گیریم که با دیتاست COCO چه کاری می‌توانیم انجام دهیم و چه چیزی آن را از جایگزین‌های دیگر مانند OID Google (Open Images Dataset) متفاوت می‌کند.

دیتاست COCO

مجموعه داده MS COCO یک مجموعه داده تشخیص اشیاء، بخش‌بندی تصویر و زیرنویس در مقیاس بزرگ است که توسط مایکروسافت منتشر شده است. مهندسان یادگیری ماشین و بینایی کامپیوتر معمولاً از دیتاست COCO برای پروژه‌های مختلف بینایی رایانه استفاده می‌کنند. درک صحنه‌های بصری هدف اصلی بینایی کامپیوتری است. این شامل تشخیص اینکه چه اشیایی در صحنه وجود دارند، محلی‌سازی اشیاء به صورت دو بعدی و سه بعدی، تعیین ویژگی‌های شی، و مشخص کردن رابطه بین اشیاء است. بنابراین، الگوریتم‌های تشخیص شی و طبقه‌بندی شی را می‌توان با استفاده از مجموعه داده آموزش داد.

تشخیص نقطه کلیدی برای تخمین موقعیت در دیتاست COCO.

COCO مخفف Common Objects in Context است، زیرا مجموعه داده تصویر با هدف ارتقای تشخیص تصویر ایجاد شده است. مجموعه داده COCO شامل مجموعه داده‌های بصری چالش برانگیز و با کیفیت برای بینایی کامپیوتری است که عمدتاً شبکه‌های عصبی پیشرفته هستند. به عنوان مثال، COCO اغلب برای معیار الگوریتم‌ها برای مقایسه عملکرد تشخیص اشیاء در زمان واقعی استفاده می‌شود. قالب مجموعه داده COCO به طور خودکار توسط کتابخانه‌های شبکه عصبی پیشرفته تفسیر می‌شود.

ویژگی‌های دیتاست COCO

در زیر مجموعه‌ای از ویژگی‌های دیتاست MS COCO آورده شده است:

کلاس‌های 80 گانه دیتاست COCO
17 نقطه کلیدی در دیتاست MS COCO

حاشیه‌نویسی تصاویر دیتاست COCO

مجموعه داده بزرگ شامل عکس‌های حاشیه‌نویسی از صحنه‌های روزمره اشیاء معمولی در زمینه(Context) طبیعی آنها است. این اشیاء با استفاده از کلاس‌های از پیش تعریف شده مانند “صندلی” یا “موز” برچسب‌گذاری می‌شوند.

مجموعه داده MSCOCO شامل حاشیه‌نویسی تصویری دقیق از تصاویر است که صحنه‌های پیچیده روزمره اشیاء معمولی را در زمینه طبیعی آنها به تصویر می‌کشد.

فرآیند برچسب‌گذاری که به آن حاشیه‌نویسی تصویر نیز گفته می‌شود و یک تکنیک بسیار محبوب در بینایی کامپیوتر است. در حالی که سایر مجموعه‌های داده شناسایی اشیاء بر 1) طبقه‌بندی تصویر، 2) محلی‌سازی جعبه محدودکننده شی، یا 3) تقسیم‌بندی معنایی در سطح پیکسل متمرکز شده‌اند – مجموعه داده MS COCO بر روی 4) تقسیم‌بندی نمونه‌های شی منفرد تمرکز دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *