زمان تخمینی مطالعه: 6 دقیقه
مکانیسم توجه (Attention Mechanism) به مدلهای هوش مصنوعی اجازه میدهند تا به صورت پویا روی عناصر فردی در دادههای بصری تمرکز کنند. این تکنیک روشی را تقلید میکند که انسانها در یک زمان روی عناصر بصری خاص تمرکز میکنند. این قابلیت تفسیرپذیری سیستمهای هوش مصنوعی را برای کاربردهای متنوع در بینایی کامپیوتر و پردازش زبان طبیعی (NLP) افزایش میدهد.
معرفی مدل ترانسفورماتور جهشی قابل توجه برای مفهوم مکانیسم توجه در یادگیری عمیق بود. به طور خاص این مدل بر معماریهای شبکه عصبی معمولی مانند لایههای کانولوشن یا تکراری متکی نبود. بدون شبکههای عصبی معمولی این نشان دهنده انحراف قابل توجهی در نحوه پردازش مدلهای یادگیری ماشین دادههای متوالی است.
پرداختن به پردازش دادهها
مکانیسم توجه به یکی از چالشهای حیاتی در هوش مصنوعی که پردازش کارآمد مجموعه دادههای گسترده و پیچیده است توجه ویژه دارد. مکانیزم Attention با فعال کردن مدلها برای ارزیابی انتخابی، اهمیت ویژگیهای ورودی مختلف، هم دقت و هم کارایی را بهبود میبخشد. این باعث میشود این مدلها برای کارهایی مانند تشخیص تصویر، ترجمه متن و تشخیص گفتار بهتر عمل کنند. به عنوان مثال، در بینایی کامپیوتر، مدلهایی که مکانیسم توجه دارند، میتوانند صحنهها را با تمرکز بر روی اشیاء مرتبط بهتر درک کنند. این موضوع پیامدهای مثبتی برای کاربردهایی مانند وسایل نقلیه خودران و سیستمهای تشخیص چهره دارد. علاوه بر این، مکانیسمهای توجه برای افزایش توضیحپذیری یا تفسیرپذیری مدلهای هوش مصنوعی کار میکنند. این کار شامل ایجاد بینشهایی است که مشخص میکند که مدل کدام بخش از دادهها را مهمتر میداند. به نوعی، میتوان آن را پنجرهای به «فرایندهای فکری» هوش مصنوعی در نظر گرفت.
انواع مکانیسمهای توجه
مکانیسم های توجه یک چرخ دنده حیاتی در یادگیری عمیق مدرن و مدلهای بینایی کامپیوتر هستند. توانایی تمرکز و تفسیر عناصر خاص در دادههای ورودی در بسیاری از کاربردهای مختلف مهم است. در نتیجه، انواع مختلفی از مکانیسمهای توجه برای خدمت بهتر به این طیف وسیع از موارد استفاده پدید آمدهاند.
- توجه مبتنی بر محتوا Content-based: مکانیسم توجه مبتنی بر محتوا در کارهایی مانند ترجمه ماشینی و تشخیص گفتار بسیار مهم هستند. این نوع مدل ریشه در اصل تراز کردن تمرکز مدل با توجه به ارتباط محتوای ورودی دارد. این رویکرد به طور گستردهای هم در تشخیص تصویر و هم در موارد استفاده از پردازش زبان طبیعی اتخاذ شده است. این مکانیزم توانایی مدلها را برای تمرکز بر روی مناطق تصویر مربوطه و مدیریت وابستگیهای دوربرد بهبود میبخشد.
- توجه مبتنی بر مکان Location-based: در مقابل، مکانیسم های مبتنی بر مکان، جنبه موقعیتی دادههای ورودی را در اولویت قرار میدهند. به طور معمول، این مورد برای کارهایی که نیاز به آگاهی فضایی(مکانی) دارند، مانند شرح تصویر و ردیابی اشیاء، بسیار مهم است. در این موارد، تفسیر روابط فضایی و توالی اشیاء برای تولید خروجی دقیق حیاتی است. یکی از مزایای آن، توانمندسازی مدلها برای حفظ نقشه فضایی ویژگیهای ورودی است. این توانایی آنها را برای پردازش توالی در کارهایی مانند ناوبری رباتیک و برنامههای واقعیت افزوده افزایش میدهد.
- توجه به خود (مدلهای ترانسفورمر): مکانیزم توجه به خود(Self-attention) به لایهها اجازه میدهد تا اهمیت بخشهای مختلف داده ورودی را به طور مستقل ارزیابی کنند.این منجر به مدلهای پیشگامانهای مانند GPT برای وظایف مولد و BERT برای درک زمینه در پردازش زبان طبیعی (NLP) شده است. Vision Transformers (ViT) همچنین مدل Transformer را برای دستیابی به نتایج پیشرفته در طبقهبندی تصاویر تطبیق میدهد. این کار را با اعمال خودتوجهی به دنبالهای از وصلههای تصویر انجام میدهد.
- توجه چند سر Multi-head: توسعه تکنیک توجه به خود، روش توجه چند سر است که داده های ورودی را از طریق چندین سر توجه به طور همزمان پردازش میکند. هر سر در این مفهوم به بخشهای مختلف ورودی توجه میکند و به مدل اجازه میدهد تا تنوع بیشتری از ویژگیها را به تصویر بکشد. این معماری توانایی مدل را برای تشخیص تفاوتهای ظریف در دادهها بهبود میبخشد. این موضوع اغلب در کارهای پیچیده در موارد مختلف، از درک زبان گرفته تا تجزیه و تحلیل دقیق تصویر، ضروری است.
مکانیسم توجه در یادگیری عمیق
مکانیسمهای توجه به تجسم مجدد شبکههای عصبی کانولوشنال (CNN) و مدلهای توالی کمک میکنند. با ادغام توجه با CNN ها، شبکهها میتوانند به طور انتخابی بر روی مناطق خاصی در یک تصویر یا فریم ویدیو تمرکز کنند. این موضوع منجر به بهبود استخراج ویژگی با تشکیل بردارهای زمینه میشود که مجموع وزنی دادههای ورودی هستند. این مفهوم پتانسیل بسیار زیادی برای کارهایی دارد که نیاز به تشخیص شی و تشخیص دقیق دارند، مانند تشخیص کاراکتر نوری (OCR). مدلهای توالی، بهویژه آنهایی که مبتنی بر شبکههای عصبی مکرر (RNNs) هستند، توجه را برای مدیریت وابستگیهای بلندمدت افزایش میدهند. این مدلها میتوانند با استفاده از وزنههای توجه برای بهبود خروجیهای هر مرحله سود ببرند. این کار به طور موثر به مدل اجازه میدهد تا به بخشهای خاصی از توالی ورودی “توجه کند”. این موضوع به ویژه در کاربردهای NLP مانند نوشتن شرح تصاویر و درک ویدیو مفید است.
ما همچنین میتوانیم مکانیسمهای توجه را به صورت زیر دستهبندی کنیم:
- توجه افزودنی Additive Attention: امتیازات تراز را با استفاده از یک شبکه پیشخور با یک لایه پنهان محاسبه میکند. این روش به مدلها کمک میکند تا روی قسمتهای مختلف در مراحل زمانی مختلف تمرکز کنند.
- توجه ضرب نقطهای Dot-Product Attention: یک نوع سریعتر است که امتیازها را بر اساس حاصل ضرب نقطهای پرس و جو با کلیدها محاسبه میکند. نتایج اغلب برای تولید گرادیانهای پایدارتر کوچک میشوند.
- توجه چند سر Multi-Head Attention: به مدل این امکان را میدهد که به طور مشترک به اطلاعات در زیرفضاهای نمایشی مختلف در موقعیتهای مختلف توجه کند. در واقع، افزایش ظرفیت یادگیری از دادههای ورودی را در پی دارد.
شبکههای توجه نمودار (GAT) نحوه درک و استفاده هوش مصنوعی از دادهها با نقاط به هم پیوسته را بهبود میبخشند. شما میتوانید این را به عنوان کاربران رسانههای اجتماعی یا شهرهای روی نقشه با ارتباط بین آنها در نظر بگیرید. GATها با تخصیص “امتیاز” به هر یک بر اساس اهمیت آن، پیامدترین ارتباطات را مشخص میکنند.