زمان تخمینی مطالعه: 7 دقیقه
محققان یک مدل یادگیری ماشینی کنجکاو برای کنترل هوش مصنوعی و به خصوص چت باتها ایجاد کردهاند که طیف گستردهتری از اعلانات(Prompt) را برای آموزش یک ربات چت برای جلوگیری از خروجیهای نفرت انگیز یا مضر پیدا میکند.
در حالت کلی یک کاربر میتواند از چت باتهایی مانند ChatGPT بخواهد یک برنامه کامپیوتری بنویسد یا یک مقاله را خلاصه کند، و چت ربات هوش مصنوعی احتمالاً میتواند بر اساس نیاز کاربر کدی مفیدی تولید کند یا از مقاله خلاصهای مطمئن بنویسد. با این حال، کاربر دیگری هم میتواند دستورالعملهایی را برای ساخت بمب درخواست کند و ربات چت نیز بر اساس ساختار پاسخگویی خود میتواند راهکار این کار را ارائه دهد. برای جلوگیری از این موضوع و سایر مسائل ایمنی، شرکتهایی که مدلهای زبانی بزرگ میسازند معمولاً با استفاده از فرآیندی به نام تیم قرمز(red-teaming) از آنها محافظت میکنند. تیمهای آزمایشکنندههای انسانی اعلانهایی را مینویسند تا متن ناایمن یا سمی را از مدل آزمایششده ایجاد کنند. از این دستورات برای کنترل هوش مصنوعی و آموزش ربات چت برای جلوگیری از چنین پاسخهایی استفاده میشود. اما این تنها در صورتی موثر عمل میکند که مهندسان بدانند از کدام دستورات سمی و مضر استفاده کنند. اگر آزمایشکنندههای انسانی برخی از اعلانها را فراموش کرده و وارد نکنند، که احتمالاً با توجه به تعداد بالای احتمالات ممکن است این اتفاق رخ دهد، یک ربات چت که ایمن در نظر گرفته میشود ممکن است همچنان بتواند پاسخهای ناامن ایجاد کند.
محققان آزمایشگاه هوش مصنوعی Improbable در MIT و MIT-IBM Watson AI Lab از یادگیری ماشینی برای بهبود عملکرد تیم قرمز استفاده کردند. آنها تکنیکی را برای آموزش یک مدل زبانی بزرگ تیم قرمز توسعه دادند تا به طور خودکار پیامهای متنوعی را ایجاد کند که طیف وسیعتری از پاسخهای نامطلوب را برای ربات چت در حال آزمایش ایجاد میکند. آنها این کار را با آموزش مدل تیم قرمز انجام میدهند که هنگام نوشتن اعلانها کنجکاو باشد و روی اعلانهای جدیدی تمرکز کند که پاسخهای سمی را از مدل هدف برمیانگیزد. این تکنیک که روشی برای کنترل هوش مصنوعی با ایجاد پیامهای متمایزتر که واکنشهای سمی فزایندهای را برانگیخت، بهتر از آزمایشکنندگان انسانی و سایر رویکردهای یادگیری ماشینی عمل کرد. روش آنها نه تنها پوشش ورودیهای آزمایششده را در مقایسه با سایر روشهای خودکار بهبود میبخشد، بلکه میتواند پاسخهای سمی و مضر را از یک ربات چت که محافظهایی توسط متخصصان انسانی در آن تعبیه شده بود، استخراج کند.
به گفته ژانگ وی هونگ، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) در آزمایشگاه هوش مصنوعی غیرممکن و نویسنده اصلی مقاله در مورد رویکرد جدید در آموزش تیم قرمز “در حال حاضر، هر مدل زبان بزرگ باید دورهای طولانی را با تیم قرمز بگذراند تا از ایمنی آن اطمینان حاصل شود. اگر بخواهیم این مدلها را در محیطهایی که به سرعت در حال تغییر هستند بهروزرسانی کنیم، این امر پایدار نخواهد بود. روش ما راهی سریعتر و موثرتر برای انجام این تضمین کیفیت ارائه میدهد”.
تیم قرمز خودکار
مدلهای زبان بزرگ، مانند آنهایی که رباتهای چت هوش مصنوعی را تقویت میکنند، اغلب با نشان دادن حجم عظیمی از متن از میلیاردها وبسایت عمومی به آنها آموزش داده میشوند. بنابراین، نه تنها میتوانند یاد بگیرند که کلمات سمی تولید کنند یا فعالیتهای غیرقانونی را توصیف کنند، بلکه میتوانند اطلاعات شخصی که ممکن است به دست آوردهاند را نیز فاش کنند. ماهیت خسته کننده و پرهزینه تیم قرمز انسانی، که اغلب در ایجاد طیف گستردهای از اعلانات برای محافظت کامل از یک مدل بیاثر است، محققان را تشویق کرده است تا فرآیند را با استفاده از یادگیری ماشینی خودکار کنند.
چنین تکنیکهایی برای کنترل هوش مصنوعی، اغلب یک مدل تیم قرمز را با استفاده از یادگیری تقویتی آموزش میدهند. این فرآیند آزمون و خطا به مدل تیم قرمز برای ایجاد اعلانهایی که واکنشهای سمی را از ربات چت در حال آزمایش ایجاد میکنند، پاداش میدهد. اما با توجه به روشی که یادگیری تقویتی کار میکند، مدل تیم قرمز اغلب به تولید چند پیام مشابه که بسیار سمی و مضر هستند برای به حداکثر رساندن پاداش خود ادامه میدهد. برای رویکرد یادگیری تقویتی، محققان MIT از تکنیکی به نام کاوش مبتنی بر کنجکاوی استفاده کردند. مدل تیم قرمز برای کنجکاوی در مورد عواقب هر پیامی که ایجاد میکند انگیزه دارد، بنابراین درخواستهایی را با کلمات، الگوهای جملات یا معانی متفاوت امتحان میکند.
هونگ میگوید: “اگر مدل تیم قرمز قبلاً یک درخواست خاص را دیده است، پس تولید مجدد آن هیچ کنجکاوی در مدل تیم قرمز ایجاد نمیکند، بنابراین برای ایجاد اعلانهای جدید تحت فشار قرار میگیرد”. در طول فرآیند آموزش، مدل تیم قرمز یک اعلان ایجاد میکند و با چت بات تعامل میکند. ربات چت پاسخ میدهد و طبقهبندی کننده ایمنی و سمیت پاسخ خود را ارزیابی میکند و به مدل تیم قرمز بر اساس آن رتبه پاداش میدهد.
کنجکاوی پاداش دهنده(Rewarding curiosity)
هدف مدل تیم قرمز این است که پاداش خود را با برانگیختن پاسخ سمیتر با یک دستور جدید به حداکثر برساند. محققان با تغییر سیگنال پاداش در تنظیم یادگیری تقویتی، کنجکاوی را در مدل تیم قرمز فعال میکنند.
- اول، آنها علاوه بر به حداکثر رساندن سمیت و مضر بودن، یک جایزه آنتروپی را نیز شامل میشوند که مدل تیم قرمز را تشویق میکند تا با بررسی اعلانهای مختلف، تصادفیتر باشد.
- دوم، برای کنجکاو کردن عامل، آنها شامل دو جایزه جدید هستند. یکی به مدل بر اساس شباهت کلمات در اعلانهای آن پاداش میدهد و دیگری به مدل بر اساس شباهت معنایی پاداش میدهد. (شباهت کمتر پاداش بالاتری را به همراه دارد.)
برای جلوگیری از تولید متن تصادفی و بیمعنی در مدل تیم قرمز، که میتواند طبقهبندیکننده را فریب دهد تا امتیاز سمیت بالایی را کسب کند، محققان همچنین یک جایزه زبان طبیعی به هدف آموزشی اضافه کردند. با وجود این افزودنیها، محققان سمیت و تنوع پاسخهایی را که مدل تیم قرمز تولید شده با سایر تکنیکهای خودکار مقایسه کردند. مدل آنها در هر دو معیار عملکرد بهتری از خطوط پایه داشت. آنها همچنین از مدل تیم قرمز خود برای آزمایش یک ربات چت استفاده کردند که با بازخوردهای انسانی بهخوبی تنظیم شده بود تا پاسخهای سمی تولید نکند. رویکرد کنجکاوی محور آنها توانست به سرعت 196 درخواست ایجاد کند که پاسخهای سمی را از این چت بات “ایمن” برانگیخت.ما شاهد افزایش مدلهای کنترل هوش مصنوعی هستیم که انتظار میرود هر روز نیز افزایش پیدا کند. این مدلها بخشی جدایی ناپذیر از زندگی ما خواهند بود و مهم است که قبل از عرضه برای مصرف عمومی مورد تأیید قرار بگیرند.
در آینده، محققان میخواهند مدل تیم قرمز را فعال کنند تا در مورد موضوعات متنوعتری اعلان ایجاد کند. آنها همچنین میخواهند استفاده از یک مدل زبانی بزرگ را به عنوان طبقهبندی سمیت(toxicity classifier) امتحان کنند. به این ترتیب، کاربر میتواند طبقهبندی کننده سمیت را با استفاده از یک سند خط مشی شرکت آموزش دهد، بنابراین یک مدل تیم قرمز میتواند یک ربات چت را برای نقض خط مشی شرکت آزمایش کند. به گفته آگراوال از اعضاء تیم ” اگر در حال عرضه یک مدل هوش مصنوعی جدید هستید و نگران این هستید که آیا آنطور که انتظار میرود رفتار کند، از تیم قرمز مبتنی بر کنجکاوی استفاده کنید.”