زمان تخمینی مطالعه: 8 دقیقه
محلیسازی شی و تصویر یکی از مهمترین وظایف در بینایی کامپیوتری (CV) است. در Object Localization، الگوریتم یک شی را در یک تصویر شناسایی و محلیسازی میکند. از طرف دیگر، محلیسازی تصویر سعی میکند تمام اشیاء را در یک تصویر مشخص محلیسازی کند. کاربردهای مختلفی از محلیسازی شی وجود دارد. شناسایی افراد (نظارت)، شناسه وسیله نقلیه (کنترل ترافیک)، تصویربرداری پیشرفته پزشکی، وسایل نقلیه خودمختار، و تجزیه و تحلیل ورزشی – همه از محلیسازی اشیاء استفاده میکنند. با این حال، چالشهایی در محلیسازی شی و تصویر وجود دارد – ظاهر شیء مختلف، درهمرفتگی پسزمینه، تغییرات مقیاس/چشمانداز، انسداد و غیره.
محلیسازی شی Object Localization چیست؟
محلیسازی اشیاء یک وظیفه مهم در بینایی کامپیوتر است. این تکنیک اشیاء خاص را در تصاویر یا ویدیوهای دیجیتال شناسایی و به درستی محلیسازی میکند. هدف اصلی محلیسازی شی، تعیین دقیق موقعیت اشیاء مورد نظر در یک تصویر و نمایش آن با یک جعبه محاط است. اولین مرحله در محلیسازی شی، تشخیص اشیاء است. محققان از یک مدل یادگیری عمیق برای شناسایی اشیاء بالقوه در یک تصویر استفاده میکنند. این تکنیک در مرحله تشخیص از شبکههای پیشنهادی منطقه برای شناسایی و علامتگذاری مناطقی که احتمالاً حاوی اشیاء هستند استفاده میکند. پس از تشخیص شی، محلیسازی دقیق مناطق شناسایی شده را اصلاح میکند. سپس جعبههای محدود کنندهای را رسم میکند که حاوی اشیاء شناسایی شده میباشد. همچنین، تکنیکهای پیشرفتهای مانند تقسیمبندی نمونه، مرزهای اشیاء را در سطح پیکسل مشخص میکنند.
برای کسب ویژگیهای متمایز از اشیاء محلی، محققان از تکنیکهای استخراج ویژگی استفاده میکنند. ویژگیهایی که شناسایی قوی و قابل اعتماد را ارائه میدهند شامل بافت، شکل، رنگ یا سایر ویژگیهای متمایز میباشد. برای تولید پیشبینیهای صحیح برای جعبههای محاط، محققان مراحل پس پردازش متنوعی مانند اصلاح جعبه مرزی را اعمال میکنند. این کار باعث میشود که پیشبینیهای اضافی یا همپوشانیها حذف شوند. الگوریتمهای OL مکانیابی دقیق و درک زمینه اشیاء را در محیطهای بصری پیچیده امکانپذیر میکنند. برای ارزیابی عملکرد مدلهای محلیسازی شی، از مقیاسهای کمی استفاده میشود، به عنوان مثال. معیارهای ارزیابی مانند دقت میانگین متوسط(MAP).
اجزای محلیسازی شی
اجزای محلیسازی شامل چندین مرحله اصلی است که هر کدام به شناسایی پایدار و دقیق شی کمک میکنند.
- تشخیص شی: محلیسازی شی همیشه با فرآیند تشخیص اشیاء شروع میشود. تشخیص از یک مدل یادگیری عمیق برای شناسایی اشیاء بالقوه در یک تصویر استفاده میکند. مهندسان از تکنیکهای مختلفی برای شناسایی و علامتگذاری مناطق با اشیاء مانند CNN، R-CNN سریعتر یا YOLO استفاده میکنند.
- جعبههای محاط Bounding Boxes: پس از شناسایی شی، گام بعدی این است که آنها را به درستی مکانیابی کنید. این الگوریتم جعبههای محاط را در اطراف اشیاء شناسایی شده ترسیم میکند. این رویکرد شامل مدلهای رگرسیون برای پیشبینی مختصات جعبه محاط نسبت به سیستم مختصات تصویر است.
- بخشبندی نمونه: برای تعریف مرزهای شی، برخی از روشهای محلیسازی فراتر از جعبههای محاط ساده هستند و از نمونهسازی یا بخشبندی معنایی استفاده میکنند. بخشبندی نمونه(Instance segmentation)، نمونههای شی منفرد را از هم جدا میکند، در حالی که بخشبندی معنایی یک کلاس پیشبینیشده را به هر پیکسل در تصویر اختصاص میدهد.
- استخراج ویژگیها: استخراج ویژگی یک گام مهم در به دست آوردن ویژگیهای متمایز از اشیاء محلی است. این ویژگیها معمولاً شامل شکلها، بافتها و سایر ویژگیهایی هستند که امکان شناسایی دقیق اشیاء را در صحنه فراهم میکنند.
- مراحل پس از پردازش: برای اصلاح نتایج محلیسازی، به پس پردازش نیاز داریم. همچنین، پس پردازش، حذف پیشبینیهای اضافی (همپوشانی) جعبه محاط را تضمین میکند. تکنیکهایی مانند اصلاح جعبه محاط امکان فیلتر کردن پیشبینیهای نامربوط را فراهم میکند. بنابراین این موضوع باعث میشود که فقط دقیقترین نتایج محلیسازی حفظ شود.
- معیارهای ارزیابی: برای ارزیابی مدلهای محلیسازی شی، از معیارهایی مانند میانگین میانگین دقت (mAP) و تقاطع بر روی اتحادیه (IoU) استفاده میکنیم. این مفاهیم معیارهای کمی برای دقت و ثبات فرآیند محلیسازی را ارائه میدهند.
مدلها و الگوریتمهای محلیسازی شی
برای شناسایی و مکانیابی دقیق اشیاء درون تصاویر، الگوریتمهای محلیسازی از تکنیکهای مختلف ریاضی استفاده میکنند. لیست کامل این الگوریتمها شامل موارد زیر است:
- عملیات ماتریس / جبر خطی: محاسبات کار محلی سازی اشیاء، مانند کانولوشن، ضرب ماتریس، و ادغام بر اصول جبر خطی متکی هستند. دانستن این الگوریتمها برای درک محلیسازی اشیاء از اهمیت بالایی برخوردار است.
- توابع ضرر Loss Functions: برای تعیین کمیت تفاوت بین جعبههای مرزی و محاط پیشبینیشده، از توابع ضرر استفاده میکنیم(به عنوان مثال میانگین مربعات خطا (MSE)). این توابع پارامترهای مدل را در طول آموزش بهینه میکنند و محلیسازی دقیق را ممکن میسازند.
- پس انتشار/گرادیان نزولی: این روشهای بهینهسازی به طور مکرر پارامترهای مدل را به روز میکنند و تابع ضرر را به حداقل میرساند. بنابراین آنها دقت پیشبینیهای محلیسازی را بهبود میبخشند.
- تجزیه و تحلیل رگرسیون: گاهی اوقات، محلیسازی شی به روشهای رگرسیونی برای پیشبینی مختصات جعبههای مرزی در اطراف اشیاء نیاز دارد. برای این منظور محققان از تکنیکهایی مانند رگرسیون خطی یا رگرسیون یادگیری عمیق استفاده میکنند.
- شبکههای عصبی کانولوشن: CNN ها اساس بسیاری از تکنیکهای محلیسازی اشیاء هستند. آنها از الگوریتمهای ریاضی مانند کانولوشن، توابع فعالسازی و ادغام برای استخراج ویژگیها از تصاویر و شناسایی الگوها بهره میبرند.
- سرکوب غیر حداکثری Non-Maximum Suppression: این روش پیشبینیهای جعبه مرزی اضافی یا همپوشانی را حذف میکند و کادری را با بالاترین امتیاز اطمینان انتخاب میکند و در عین حال کادرهای دیگری را که نشاندهنده همان شی هستند، سرکوب میکند.
چالشهای عملی محلیسازی شی
محلیسازی اشیاء در بینایی کامپیوتر یک کار پیچیده است. چندین چالش بر دقت و کارایی فرآیند محلیسازی میتواند اثر گذار باشد.
- پسزمینههای پیچیده و درهم ریختگی: تصاویر میتوانند پسزمینه پیچیده، نویز یا درهمریختگی داشته باشند، بنابراین این موارد میتواند بر تشخیص دقیق اشیاء تأثیر گذارد. این موارد میتواند در فرآیند تشخیص منجر به ایجاد خطای مثبت کاذب(false positives) یا منفی کاذب(false negatives) شود.
- ابهام در کانتکس: برخی از اشیاء ممکن است ویژگیهای مبهم داشته باشند یا ممکن است با پس زمینه ترکیب شوند. این موقعیت منجر به سردرگمی در فرآیند محلیسازی میشود، به ویژه در مواردی که ویژگیهای منحصر به فرد مجزا و متمایز نیستند.
- محدودیتهای بلادرنگ: برخی از برنامهها نیاز به محلیسازی شی به صورت بلادرنگ دارند. بنابراین آنها به الگوریتمهای سریع و کارآمدی نیاز دارند که تحت محدودیتهای زمانی دقیق عمل کنند. تنظیم دقت به همراه الزامات بلادرنگ یک چالش مهم در زمان پیادهسازی است.
- تنوع در ظاهر اشیاء: اشیا میتوانند اشکال، اندازهها، رنگها و جهتگیریهای مختلفی داشته باشند. بنابراین، تشخیص و محلیسازی اشیاء در شرایط مختلف به طور مداوم برای الگوریتمها دشوار است.
- تغییرات مقیاس و پرسپکتیو: اشیاء میتوانند مقیاسها و چشم اندازهای متفاوتی در تصاویر یا فریمهای ویدیویی داشته باشند. محلیسازی دقیق آنها به خصوص زمانی که اندازه جسم به طور قابل توجهی تغییر میکند چالش برانگیز است.
- سازگاری با محیطهای متنوع: اطمینان از اینکه مدلهای محلیسازی اشیاء میتوانند با محیطهای متنوع، نقاط دید دوربین و شرایط نوری سازگار شوند، مهم است. علاوه بر این، عملکرد قوی را در سناریوهای مختلف ممکن میکند.
- انسداد Occlusion: سایر اشیاء یا عناصر موجود در پسزمینه ممکن است به طور جزئی یا کامل اشیاء را مسدود کنند. این موضوع باعث میشود که محلیسازی به شکل ناقص یا نادرست، به ویژه در صحنههای پیچیده که در آن اشیاء متعدد با هم تعامل یا همپوشانی دارند اتفاق افتد.
- حاشیهنویسی دادههای محدود: حاشیهنویسی دادهها در OL میتواند فرآیندی وقت گیر و نیازمند منابع زیادی باشد. دادههای آموزشی محدود یا ناکافی منجر به برازش بیش از حد(overfitting) یا تعمیم ضعیف شود. که در حالتی عمومی این موضوع بر عملکرد کلی مدل محلیسازی تأثیر گذار است.