زمان تخمینی مطالعه: 4 دقیقه
با پیشرفت در پردازش زبان طبیعی و تولید زبان طبیعی، مدلهای زبان بزرگ (LLM) اغلب در برنامههای کاربردی دنیای واقعی استفاده میشوند. این مدلها با توانایی خود در تقلید از رفتار انسان، با ماهیت همه منظوره خود در هر زمینه و حوزهای قدم گذاشتهاند. اگرچه این مدلها توجه قابل توجهی را به خود جلب کردهاند، اما این مدلها مجموعهای محدود و جدا از دیدگاهها و دانش انسانی را نشان میدهند. ترکیب دادههای پیشآموزشی دلیل این سوگیری است زیرا تأثیر زیادی بر رفتار مدل دارد. در این مقاله به ظهور چارچوب و مجموعه داده AboutMe در الکتروهایو خواهیم پرداخت.
محققان تلاش کردهاند تا قبل از پیشآموزش، تمرکز بیشتری بر درک و مستندسازی تغییرات ایجاد شده در دادهها داشته باشند. تنظیم دادههای پیشآموزشی یک فرآیند چند مرحلهای با چندین نقطه تصمیم است که اغلب بر اساس قضاوتهای ذهنی کیفیت متن یا عملکرد در برابر معیارها است. در یک مطالعه اخیر، تیمی از محققان موسسه آلن برای هوش مصنوعی، دانشگاه کالیفرنیا، برکلی، دانشگاه اموری، دانشگاه کارنگی ملون و دانشگاه واشنگتن، چارچوب و مجموعه داده AboutMe را معرفی کردند. این مطالعه مفروضات بیچون و چرای متعددی را که در گردشهای کاری دادهها وجود دارد، برجسته میکند. با فریم ورک AboutMe، تیم تلاش کرده است اثرات فیلتر کردن دادهها را بر روی متنی که ریشه در زمینههای اجتماعی و جغرافیایی دارد، مستند کند.
فقدان دادههای اجتماعی جمعیتشناختی گسترده و خودگزارششده مرتبط با دادههای زبان یکی از مشکلاتی است که تحلیلهای زبانی اجتماعی در پردازش زبان طبیعی با آن مواجه است. متن را میتوان در منابع عمومی مانند ویکی پدیا ردیابی کرد، اما در سطح دقیق تر، اغلب ناشناخته است که چه کسی اطلاعات را ایجاد کرده است. تیم در این مطالعه با استفاده از الگوهای از قبل موجود در دادههای وب، وب سایتها، به ویژه صفحات «درباره من» را پیدا کرده است. این امر اجازه میدهد تا درک بیسابقهای از زبان افرادی که در متن وب نشان داده میشود، داشته باشید. این تیم با استفاده از دادههای بخش «درباره من» وبسایتها، تجزیه و تحلیلهای زبانشناختی اجتماعی را برای اندازهگیری علایق موضوعی، تعیین موقعیت افراد یا سازمانها، نقشهای اجتماعی خود شناساییشده و مکانهای جغرافیایی مرتبط نویسندگان وبسایت انجام دادهاند. ده فیلتر با کیفیت و شناسه انگلیسی حاصل از تحقیقات قبلی در مورد توسعه LLM در این صفحات وب برای بررسی تأثیر فیلتر کردن بر روی صفحات نگهداری شده یا حذف شده استفاده شده است.
هدف اصلی این تیم تحقیقاتی یافتن روندهایی در رفتار مرتبط با مبدا وب سایت هم در داخل و هم بین فیلترها بود. نتایج نشان دادهاند که ترجیحات ضمنی برای حوزههای موضوعی خاص توسط فیلترهای کیفیت مبتنی بر مدل نمایش داده میشوند، که باعث میشود متن مربوط به حرفهها و حرفههای مختلف با نرخهای مختلف حذف شود. علاوه بر این، تکنیکهای فیلتری که صفحات را تک زبانه فرض میکنند ممکن است ناخواسته محتوا را از بخشهای غیرانگلیسی جهان حذف کنند. در نتیجه، این تحقیق پیچیدگیهای موجود در فیلتر کردن دادهها در طول توسعه LLM و پیامدهای آن برای به تصویر کشیدن دیدگاههای متنوع در مدلهای زبانی را برجسته کرده است.
هدف اصلی این مطالعه افزایش آگاهی در مورد جزئیات پیچیدهای است که در فرآیندهای پیش آموزشی دادهها، به ویژه در مورد عوامل اجتماعی در نظر گرفته میشود. این تیم بر نیاز به تحقیقات بیشتر در مورد روشهای پیشآموزشی دادهها و پیامدهای اجتماعی آن تاکید کردهاند. چارچوب و مجموعه داده AboutMe ابزاری جدید است و نیاز به اثبات خود در آینده دارد.