مدلهای زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از دادههای موجود در وب آموزش میبینند. این دادهها ممکن است جهتدار و بیکیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزشدیدهشده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی میشود. سپس با استفاده از بازخورد جمعآوریشده در این ارزیابی (Human Feedback) و بهکارگیری روشهای یادگیری تقویتی (Reinforcement Learning) یک مدل پاداش (Reward Model) برای
ارزیابی خروجی مدل آموزش داده میشود.
آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب میشود. به این نوع Finetune کردن، روش RLHF گفته میشود.
برای فاینتیون کردن مدلهای زبانی به روش RLHF بهطور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده میشود که بسیار قدرتمندتر از الگوریتمهای پایهی یادگیری تقویتی مثل REINFORCE است.
حالا، آرش احمدیان، پژوهشگر آزمایشگاه Cohere به همراه همکارانش در مقالهی زیر نشان دادهاند که با توجه به توانایی بالای پالیسی اولیه و شرطگذاری پرامپتها، نیاز به استفاده از الگوریتم PPO برای فاینتیونکردن مدلهای زبانی نیست و الگوریتمهای سادهتر و سریعتر مثل REINFORCE در این زمینه کاراترند.
جالب اینکه گوگل (دیپمایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE بهجای PPO استفاده کردهست.
https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23پینوشت ۱: عدهای از پژوهشگران معتقدند فاینتیونکردن مدلهای زبانی از روی بازخورد انسانی باعث افت کیفیت مدلها به مرور زمان میشود.
پینوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاینتیون نشدهست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالشهای مرتبط با ایمنی این مدلها از جمله سوگیریهای اجتماعی، محتوای سمی، پایشپذیری و … است.
منبع : school AI