پرش لینک ها

مدل های زبانی بزرگ فارسی

اولین هوش مصنوعی 🧠 مولد فارسی

مدل‌های زبان بزرگ(LLM) نمایانگر پیشرفت چشمگیری در هوش مصنوعی هستند که برای فهم، تولید و دستکاری زبان انسانی با دقت بالا طراحی شده‌اند. این مدل‌ها، مانند GPT-4 ازOpenAI، با استفاده از تکنیک‌های یادگیری عمیق، به ویژه معماری‌های ترانسفورمر، ساخته شده‌اند که به آن‌ها امکان می‌دهد بر اساس مقادیر عظیمی از داده‌ها متن را پردازش و تولید کنند. LLMها می‌توانند مجموعه وسیعی از وظایف را انجام دهند، از جمله پاسخ دادن به سوالات، خلاصه کردن اسناد، ترجمه زبان‌ها و حتی ایجاد محتوای اصلی.

توانایی آن‌ها در تقلید از درک و تولید زبان انسانی آن‌ها را به ابزارهای قدرتمندی در زمینه‌های مختلف، از خدمات مشتری و ایجاد محتوا تا تحقیق و توسعه، تبدیل می‌کند. با این حال، استفاده از آن‌ها نیز مسائل اخلاقی مهمی را مطرح می‌کند، از جمله مسائل مربوط به تعصب، اطلاعات نادرست و استفاده مسئولانه از فناوری هوش مصنوعی.

آموزش مدل‌های زبانی بزرگ

continual pre-training

پیش‌آموزش تطبیقی با دامنه

پیش‌آموزش مستمر LMها، به‌ویژه، پیش‌آموزش تطبیقی با دامنه (continual DAP-training) یک روش جدید برای آموزش مداوم یک LM با دنباله‌ای از پیکره‌های دامنه بدون برچسب برای تطبیق LM با این حوزه‌ها برای بهبود عملکرد وظیفه پایانی آن‌ها است. در این رویکرد، یک مدل از پیش آموزش دیده بیشتر بر روی یک مجموعه داده جدید آموزش داده می شود. شبیه افزودن فصل های جدید به کتابی است که قبلاً نوشته شده است. آموزش DAP را می توان با به روز رسانی مستقیم LM یا آموزش تنها مجموعه کوچکی از پارامترهای اضافی به دست آورد. در حالی که آداپتور و سریع می توانند موثر باشند، انتقال دانش در میان این ماژول های اضافی معمولاً چالش برانگیز است و می تواند نادرست باشد.

Instruction tuning

تنظیم دقیق

Fine-tuning فرآیند تنظیم پارامترهای یک مدل زبان بزرگ از پیش آموزش دیده برای یک دامنه خاص است. اگرچه مدل های زبان از پیش آموزش دیده مانند GPT دانش زبانی گسترده ای دارند، اما فاقد تخصص در زمینه های خاص هستند. Fine-tuning این محدودیت را با اجازه دادن به مدل برای یادگیری از داده های دامنه خاص برطرف می کند تا برای برنامه های هدفمند دقیق تر و موثرتر کند. با قرار دادن مدل در معرض دامنه های خاص در طول Fine-tuning، مدل می‌تواند درک عمیق‌تری از تفاوت‌های ظریف دامنه به دست آورد. این شکاف بین یک مدل زبان همه منظوره و یک مدل تخصصی را پر می کند و پتانسیل کامل LLM ها را در حوزه ها یا برنامه های خاص باز می کند.

from scratch

آموزش از پایه

ساخت مدل‌های زبانی بزرگ (LLM) از پایه فرآیندی چالش‌برانگیز اما ارزشمند است که به دانش عمیقی از یادگیری ماشین، پردازش زبان طبیعی و مهندسی نرم‌افزار نیاز دارد. در این روش، مدل به طور کامل از ابتدا طراحی و ساخته می‌شود، به این معنی که از هیچ مدل یا کد از پیش آموزش‌دیده‌ای استفاده نمی‌شود. ایجاد مدل زبان بزرگ (LLM) از پایه و آموزش یک LLM هر دو شامل آموزش مدل‌هایی برای درک و تولید متن شبیه به انسان می‌شوند، اما تفاوت‌های قابل توجهی در گستره، پیچیدگی و نیازمندی‌های منابع دارند. در اینجا یک بررسی تفاوت‌ها آورده شده است:

طراحی معماری

  • توسعه یک معماری شبکه عصبی جدید برای مدل‌سازی زبان
  • تصمیم‌گیری در مورد لایه‌ها، گره‌ها، مکانیسم‌های توجه و سایر جزئیات مدل

جمع‌آوری داده‌ها

  • جمع‌آوری یک مجموعه داده بزرگ از متون مختلف برای آموزش مدل.
  • اطمینان از کیفیت، تنوع و نمایندگی داده‌ها

فرآیند آموزش

  • مقداردهی اولیه پارامترهای مدل به صورت تصادفی
  • استفاده از منابع محاسباتی قدرتمند
  • پیاده‌سازی رژیم‌های آموزشی، الگوریتم‌های بهینه‌سازی و تکنیک‌های منظم‌سازی برای اطمینان از یادگیری کارآمد

ارزیابی و تکرار

  • ارزیابی مداوم مدل بر اساس معیارهای مختلف
  • تنظیم معماری و فرآیندهای آموزشی بر اساس بازخورد عملکرد
  • تکرار چرخه‌های متعدد آموزش و ارزیابی
Reinforcement learning from human feedback

یادگیری تقویتی با فیدبک انسانی / بهینه سازی اولویت مستقیم

این تکنیک‌های پیشرفته به هدف تطبیق LLMها با ترجیحات و راهنماهای اخلاقی انسانی می‌پردازند.

بهینه‌سازی اولویت مستقیم (DPO): این روش شامل آموزش مدل برای بهینه‌سازی مستقیم ترجیحات انسانی است. DPO از بازخورد صریح کاربران برای هدایت فرآیند آموزش استفاده می‌کند تا اطمینان حاصل شود که خروجی‌های مدل با آنچه انسان‌ها مفید و مناسب می‌یابند، هماهنگ باشد.

یادگیری تقویتی از بازخورد انسانی (RLHF): RLHF ترکیبی از تکنیک‌های یادگیری تقویتی و بازخورد انسانی برای بهبود عملکرد مدل است. ارزیابان انسانی بازخوردی در مورد خروجی‌های مدل ارائه می‌دهند که سپس برای تنظیم دقیق مدل از طریق الگوریتم‌های یادگیری تقویتی استفاده می‌شود. این روش اطمینان می‌دهد که مدل نه تنها در معیارهای سنتی خوب عمل می‌کند بلکه خروجی‌هایی تولید می‌کند که با ارزش‌ها و ترجیحات انسانی هماهنگ‌تر هستند.

ملاحظات اضافی

مسائل اخلاقی و تعصب‌ها

  • آموزش LLMها نیازمند توجه دقیق به مسائل اخلاقی و تعصب‌های احتمالی در داده‌ها است. اطمینان از تنوع در داده‌های آموزشی و پیاده‌سازی تکنیک‌هایی برای کاهش تعصب‌ها گام‌های حیاتی هستند.

قابلیت مقیاس‌پذیری

  • توانایی مقیاس‌بندی فرآیندهای آموزشی به مجموعه داده‌های بزرگ‌تر و مدل‌های پیچیده‌تر یک چالش بزرگ است که نیازمند زیرساخت‌های قوی و الگوریتم‌های کارآمد است.

بهره‌وری

  • توسعه روش‌هایی برای آموزش مدل‌ها به صورت کارآمدتر، مانند بهینه‌سازی منابع محاسباتی و کاهش زمان آموزش، یک حوزه تحقیقاتی مداوم است.

مدل‌های زبان بزرگ در پیشرفت‌های پردازش زبان طبیعی در خط مقدم قرار دارند، با روش‌های آموزشی متنوع که به نیازها و کاربردهای مختلف پاسخ می‌دهند. آموزش از ابتدا کنترل کامل را فراهم می‌کند اما نیازمند منابع زیادی است. تنظیم دقیق و پیش‌آموزش مداوم راه‌های عملی برای تطبیق و به‌روزرسانی مدل‌های موجود ارائه می‌دهند. تکنیک‌هایی مانند DPO و RLHF اطمینان می‌دهند که مدل‌ها با ترجیحات انسانی و استانداردهای اخلاقی هماهنگ هستند. با ادامه تکامل LLMها، این روش‌های آموزشی نقش حیاتی در شکل‌گیری آینده هوش مصنوعی در پردازش زبان خواهند داشت.

گروه MCINEXT همراه اول مفتخر است مدل‌های زبانی توسعه یافته خود شامل: سیلک (1.3میلیارد)، آهوران (8 میلیارد) و آوا (13 میلیارد) را ارائه دهد. این نسخه دارای مدل های زبانی از پایه (from scratch)، پیش آموزش پیوسته (continual pretraining)، فاین تیون شده با دستورالعمل ها (finetuning) است.

معرفی مدل های زبانی 

مدل زبانی سیلک (Sialk)

مدل زبانی سیلک (Sialk) بصورت پایه (from scratch) در شرکت MCINEXT به منظور تولید یک مدل فارسی 1.3 میلیاردی توسعه داده شده است. برای آموزش این مدل از پیکره دادگان فارسی استفاده شده است. این مدل به دلیل حجم کوچک 1.3 میلیاردی آن از سرعت بالایی برخوردار است.

مدل زبانی بزرگ‌ آهوران (Ahoran)

مدل زبانی بزرگ آهوران (Ahoran) بصورت Continual pretraining در شرکت MCINEXT به منظور تولید یک مدل بومی بزرگ فارسی ( 8 میلیارد پارامتر) توسعه داده شده است. آهوران بر روی مجموعه دادگان متنی فارسی بصورت continual pretraining آموزش دیده شده و همواره با دادگان جدید به‌روزرسانی می شود.

مدل زبانی بزرگ‌ آوا (Ava)

مدل آوا (Ava) در گروه MCINEXT همراه اول یک مدل زبانی فارسی با 13 میلیارد پارامتر است که بر مبنای محصول aya شرکت cohere و به کمک روش fine tuning در گروه MCINext توسعه داده شده است و قابلیت پاسخگویی به سوالات در زمینه اطلاعات عمومی و به ویژه RAG می باشد.

مدیر تیم

آرش امینی

مدیرفنی تیم

طهمورثی

افراد تیم

زهرا رحیمی، فاطمه ابراهیمی، صالح دیلمی، سمیه بخشایی، الهام پرتوی، علیرضا هدیه لو، محمدرضا مولاپناه، محمد حسین صادقی، سجاد جلالی ، شرکت سبحان

اعضای سابق تیم

سلمان خالقیان، ناصر احمدی، محمدرضا غفرانی، محمدجواد طاهری، علی اکبر بدری، محمدمهدی بجانی