بخش‌بندی تصویر Image Segmentation چیست؟

زمان تخمینی مطالعه: 10 دقیقه

یکی از مهم ترین عملیات در بینایی کامپیوتر، بخش‌بندی تصویر یا Image Segmentation است. قطعه‌بندی تصویر فرآیند تقسیم یک تصویر به چندین قسمت یا ناحیه است که به یک کلاس تعلق دارند. این وظیفه خوشه‌بندی بر اساس معیارهای خاصی انجام می‌گردد و می‌تواند به عنوان مثال بر اساس رنگ یا بافت باشد. به این فرآیند طبقه‌بندی در سطح پیکسل نیز می‌گویند. به عبارت دیگر این فرآیند شامل پارتیشن‌بندی تصاویر (یا فریم‌های ویدیویی) به بخش‌ها یا اشیاء متعدد است.

بخش‌بندی تصاویر معنایی تصاویر پهپادهای هوایی. صحنه با هر پیکسل متعلق به یک کلاس خاص، مانند “ساختمان”، “جاده”، “درخت” جدا می‌شود.

در 40 سال گذشته، روش‌های تقسیم‌بندی مختلفی پیشنهاد شده‌اند، از تقسیم‌بندی تصویر متلب و روش‌های سنتی بینایی رایانه‌ای تا روش‌های پیشرفته یادگیری عمیق. به خصوص با ظهور شبکه‌های عصبی عمیق (DNN)، کاربردهای بخش‌بندی تصویر پیشرفت فوق العاده‌ای داشته‌اند.

قطعه‌بندی تصویر در رانندگی خودمختار.

تکنیک‌های بخش‌بندی تصویر

تکنیک‌های Image Segmentation مختلفی وجود دارد و هر تکنیک مزایا و معایب خاص خود را دارد که در ادامه به آنها خواهیم پرداخت.

آستانه‌گذاریThresholding: آستانه‌گذاری یکی از ساده‌ترین تکنیک‌های بخش‌بندی تصویر است که در آن یک مقدار آستانه تنظیم می‌شود و تمام پیکسل‌هایی که مقادیر شدت بالاتر یا پایین‌تر از آستانه دارند به مناطق جداگانه اختصاص می‌یابند.
رشد منطقه Region growing: در رشد منطقه، تصویر بر اساس معیارهای شباهت به چندین منطقه تقسیم می‌شود. این تکنیک قطعه‌بندی از یک نقطه شروع می‌شود و با افزودن پیکسل‌های همسایه با ویژگی‌های مشابه، منطقه را رشد می‌دهد.
بخش‌بندی مبتنی بر لبهEdge-based segmentation: تکنیک‌های بخش‌بندی مبتنی بر لبه بر اساس تشخیص لبه‌ها در تصویر هستند. این لبه‌ها مرزهای بین مناطق مختلف را نشان می‌دهند و با استفاده از الگوریتم‌های تشخیص لبه شناسایی می‌شوند.
خوشه‌بندی: تکنیک‌های خوشه‌بندی پیکسل‌ها را بر اساس معیارهای شباهت به خوشه‌ها گروه‌بندی می‌کند. این معیارها می‌تواند رنگ، شدت، بافت یا هر ویژگی دیگری باشد.
بخش‌بندی حوضهWatershed segmentation: تقسیم‌بندی حوضه بر اساس این ایده است که یک تصویر از کوچک‌ترین بخش آن سیل‌آمیزی(flooding) می‌شود. در این تکنیک، تصویر به عنوان یک نقش برجسته توپوگرافی در نظر گرفته می‌شود، که در آن مقادیر شدت نشان دهنده ارتفاع زمین است.
خطوط فعالActive contours: خطوط فعال که به عنوان مارها(snakes) نیز شناخته می‌شوند، منحنی‌هایی هستند که برای یافتن مرز یک جسم در یک تصویر تغییر شکل می‌دهند. این منحنی‌ها توسط یک تابع انرژی کنترل می‌شوند که فاصله بین منحنی و مرز جسم را به حداقل می‌رساند.
قطعه‌بندی مبتنی بر یادگیری عمیق: تکنیک‌های یادگیری عمیق، مانند شبکه‌های عصبی کانولوشنال (CNN)، با ارائه راه‌حل‌های بسیار دقیق و کارآمد، بخش‌بندی تصویر را متحول کرده‌اند. این تکنیک‌ها از یک رویکرد سلسله مراتبی برای پردازش تصویر استفاده می‌کنند، که در آن لایه‌های متعددی از فیلترها بر روی تصویر ورودی اعمال می‌شود تا ویژگی‌های سطح بالا استخراج شود.
قطعه‌بندی مبتنی بر نمودارGraph-based segmentation: این تکنیک یک تصویر را به عنوان یک نمودار نشان می‌دهد و آن را بر اساس اصول تئوری گراف تقسیم‌بندی می‌کند.
بخش‌بندی مبتنی بر سوپرپیکسلSuperpixel-based segmentation: این تکنیک مجموعه‌ای از پیکسل‌های تصویر مشابه را با هم گروه‌بندی می‌کند تا مناطق بزرگ‌تر و معنادارتری به نام سوپرپیکسل تشکیل دهند.

کاربردهای بخش‌بندی تصویر

مشکلات Image Segmentation در طیف وسیعی از برنامه‌های بینایی رایانه‌ای در دنیای واقعی، از جمله تشخیص علائم جاده، زیست‌شناسی، ارزیابی مصالح ساختمانی، یا امنیت و نظارت تصویری، نقش اصلی را ایفا می‌کنند. همچنین، خودروهای خودران و سیستم‌های کمک راننده پیشرفته (ADAS) باید سطوح قابل رانندگی را شناسایی کرده یا تشخیص عابر پیاده را اعمال کنند.

نمونه مجموعه داده KITTI برای بخش‌بندی تصویر

علاوه بر این، بخش‌بندی تصویر به طور گسترده در برنامه‌های تصویربرداری پزشکی، مانند استخراج مرز تومور یا اندازه‌گیری حجم بافت به کار گرفته می‌شوند. در اینجا، فرصتی برای طراحی پایگاه‌های داده تصویر استاندارد شده بوجود آمد که می‌تواند برای ارزیابی بیماری‌ها و بیماری‌های همه‌گیر جدید (به عنوان مثال، برای کاربردهای بینایی هوش مصنوعی در کنترل ویروس کرونا) استفاده شود.

بخش‌بندی تصویر مبتنی بر یادگیری عمیق با موفقیت در قطعه‌بندی تصاویر ماهواره‌ای در زمینه سنجش از دور، از جمله تکنیک‌های برنامه‌ریزی شهری یا کشاورزی دقیق، به کار گرفته شده است. همچنین، تصاویر جمع‌آوری‌شده توسط پهپادها با استفاده از تکنیک‌های مبتنی بر یادگیری عمیق تقسیم‌بندی شده‌اند و فرصتی را برای رسیدگی به مشکلات مهم زیست‌ محیطی مرتبط با تغییرات آب و هوایی ارائه می‌دهند.

الگوریتم YOLOv7-mask به عنوان مثال بخش‌بندی.توجه کنید که YOLOv7 یکی از بهترین الگوریتم‌های بلادرنگ در این حوزه است.

بخش‌بندی معنایی در مقابل بخش‌بندی نمونه

قطعه‌بندی تصویر را می‌توان به عنوان یک مسئله طبقه‌بندی پیکسل‌ها با برچسب‌های معنایی (بخش‌بندی معنایی) یا پارتیشن‌بندی اشیاء مجزا (بخش‌بندی نمونه) فرمول‌بندی کرد. بخش‌بندی معنایی برچسب‌گذاری کلاس در سطح پیکسل را با مجموعه‌ای از دسته‌بندی اشیاء (به عنوان مثال، مردم، درختان، آسمان، اتومبیل‌ها) برای همه پیکسل‌های تصویر انجام می‌دهد. معمولاً این کار دشوارتر از طبقه‌بندی تصویر است که یک برچسب واحد را برای کل تصویر یا فریم پیش بینی می‌کند. بخش‌بندی نمونه، دامنه تقسیم‌بندی معنایی را با شناسایی و ترسیم تمام اشیاء مورد علاقه در یک تصویر، بیشتر می‌کند.

بخش‌بندی تصویر با نمونه‌های مختلف از یک کلاس (ساختمان‌های فردی، خانه‌ها)

بخش‌بندی تصویر و یادگیری عمیق

چندین نمونه مختلف الگوریتم Image Segmentation توسعه داده شده است. روش‌های قبلی عبارتند از آستانه‌گذاری، بسته‌بندی مبتنی بر هیستوگرام، رشد منطقه، خوشه‌بندی k-means یا بخش بندی حوزه‌. با این حال، الگوریتم‌های پیشرفته‌تر مبتنی بر خطوط فعال، برش‌های نمودار، میدان‌های تصادفی شرطی و مارکوف و روش‌های مبتنی بر پراکندگی هستند. در چند سال گذشته، مدل‌های یادگیری عمیق بخش جدیدی از مدل‌های قطعه‌بندی تصویر را با بهبود عملکرد قابل‌توجهی معرفی کرده‌اند. مدل‌های بخش‌بندی تصویر مبتنی بر یادگیری عمیق اغلب بهترین نرخ‌های دقت را در معیارهای رایج به دست می‌آورند که منجر به تغییر پارادایم در زمینه می‌شود.

مجموعه داده ADE20K برای بخش‌بندی تصویر

محبوب‌ترین مجموعه داده‌های بخش‌بندی تصویر

با توجه به موفقیت مدل‌های یادگیری عمیق در طیف وسیعی از کاربردهای بینایی، تحقیقات زیادی با هدف توسعه رویکردهای قطعه‌بندی تصویر با استفاده از یادگیری عمیق انجام شده است. در حال حاضر، مجموعه داده‌های کلی زیادی در رابطه با قطعه‌بندی تصویر وجود دارد. محبوب‌ترین مجموعه داده‌های بخش‌بندی تصویر عبارتند از:

PASCAL VOC: مجموعه داده PASCAL VOC یکی از محبوب‌ترین مجموعه‌داده‌ها درحوزه بینایی کامپیوتر است که تصاویر مشروح برای 5 وظیفه را در دسترس قرار می‌دهد: طبقه‌بندی، بخش‌بندی، تشخیص، شناسایی عمل و طرح‌بندی افراد. تعداد زیادی از الگوریتم‌های بخش‌بندی محبوب بر روی این مجموعه داده ارزیابی شده است. برای کارهای بخش‌بندی، PASCAL VOS از 21 کلاس برچسب اشیا پشتیبانی می‌کند که شامل وسایل نقلیه، خانواده، حیوانات، هواپیما، دوچرخه، قایق، اتوبوس، ماشین، موتور سیکلت، قطار، بطری، صندلی، میز ناهار خوری، گیاه گلدانی، مبل، تلویزیون/مانیتور، پرنده، گربه، گاو، سگ، اسب، گوسفند و شخص است. پیکسل‌ها در تصویر اگر به هیچ یک از این کلاس‌ها تعلق نداشته باشند به عنوان “پس زمینه” برچسب گذاری می‌شوند. داده‌های آموزشی/تأیید اعتبار PASCAL VOC دارای 11.530 تصویر است که شامل 27.450 ROI شی حاشیه نگاری شده و 6.929 بخش‌بندی است.
MS COCO: پایگاه داده Microsoft Common Objects in Context (MS COCO) یک مجموعه داده شناسایی، بخش‌بندی و زیرنویس اشیاء در مقیاس بزرگ است. COCO شامل تصاویری از صحنه‌های پیچیده روزمره است که شامل اشیاء مشترک در زمینه طبیعی آنها می‌شود. بنابراین، COCO بر اساس مجموع 2.5 میلیون نمونه بخش‌بندی شده برچسب‌گذاری شده در 328 هزار تصویر است که حاوی عکس‌هایی از 91 نوع شی است که توسط یک فرد 4 ساله به راحتی قابل تشخیص است.
Cityscapes: پایگاه داده در مقیاس بزرگ بر درک معنایی صحنه‌های خیابان شهری متمرکز است. Cityscapes شامل مجموعه‌ای متنوع از سکانس‌های ویدیویی استریو ضبط شده در صحنه‌های خیابانی از 50 شهر، 5000 تصویر کاملاً حاشیه‌نویسی شده و مجموعه‌ای از 20000 فریم با حاشیه‌نویسی ضعیف است. همچنین زمان جمع آوری آن شامل چندین ماه است که فصول بهار، تابستان و پاییز را در بر می‌گیرد. مناظر شهری شامل حاشیه‌نویسی‌های پیکسلی معنایی و متراکم از 30 کلاس است که در 8 دسته (سطوح صاف، انسان، وسایل نقلیه، سازه‌ها، اشیاء، طبیعت، آسمان و فضای خالی) گروه‌بندی شده‌اند. مجموعه داده به ویژه برای برنامه‌های کاربردی رانندگی خودران از اهمیت بالایی برخوردار است.
ADE20K: پایگاه داده ADE20K یک پلت فرم آموزشی و ارزیابی استاندارد برای الگوریتم‌های تجزیه صحنه ارائه می‌دهد. مجموعه داده ADE20K شامل بیش از 20000 تصویر صحنه محور است که با اشیاء و قطعات شیء حاشیه‌نویسی شده‌اند و 150 دسته معنایی را ارائه می‌دهد. برخلاف سایر مجموعه‌های داده، ADE20K شامل یک ماسک بخش‌بندی شی و یک ماسک بخش‌بندی قطعات است. 20210 تصویر رنگی در مجموعه آموزشی، 2000 تصویر در مجموعه اعتبارسنجی و 3000 تصویر در مجموعه تست وجود دارد.
YouTube-Objects: مجموعه داده YouTube-Objects از ویدیوهایی تشکیل شده است که با جستجوی نام 10 کلاس شی از YouTube جمع‌آوری شده‌اند. به طور خاص، شامل اشیایی از 10 کلاس‌ PASCAL VOC هواپیما، پرنده، قایق، ماشین، گربه، گاو، سگ، اسب، موتور سیکلت و قطار است. مجموعه داده اصلی برای تشخیص اشیاء با حاشیه‌نویسی ضعیف توسعه داده شد و حاوی حاشیه‌نویسی پیکسلی نبود. بنابراین، مجموعه داده‌های بخش‌بندی اشیاء ویدیویی YouTube (YouTube-VOS) با حاشیه‌نویسی کامل منتشر شد که شامل ۴،۴۵۳ کلیپ ویدیویی یوتیوب و ۹۴ دسته شیء است.
KITTI: مجموعه داده KITTI یکی از محبوب‌ترین مجموعه داده‌ها برای روباتیک متحرک و رانندگی خودکار است. این مجموعه داده شامل ساعت‌ها ویدیو از سناریوهای ترافیکی است که با رانندگی در شهر متوسط کارلسروهه (در بزرگراه‌ها و مناطق روستایی) ضبط شده‌اند. به طور متوسط در هر تصویر تا 15 خودرو و 30 عابر پیاده قابل مشاهده است. وظایف اصلی این مجموعه داده عبارتند از: تشخیص جاده، بازسازی استریو، جریان نوری، کیلومتر شماری بصری، تشخیص اشیاء سه بعدی و ردیابی سه بعدی است. مجموعه داده اصلی حاوی حقیقت پایه برای تقسیم بندی معنایی نیست، اما محققان به صورت دستی بخش‌هایی از مجموعه داده را حاشیه‌نویسی کرده‌اند.

برچسب خوردهActive contours, KITTI, Thresholding, بخش‌بندی معنایی