ال ام آرنا چیست و LMArena چه کاربردی دارد؟ – به زبان ساده + آموزش استفاده

۴۵۲۲

۱۴۰۴/۰۷/۱۴

۱۵ دقیقه

PDF

آموزش متنی جامع

امکان دانلود نسخه PDF

ال ام آرنا یک پلتفرم رایگان برای مقایسه کیفیت پاسخ‌های ابزار‌های هوش مصنوعی است. نحوه کار با LMArena به این صورت است که شما پرامپت خود را وارد می‌کنید، دو پاسخ مختلف از مدل‌ها دریافت می‌کنید و بدون دانستن نام آن‌ها به گزینه بهتر رای می‌دهید. بعد از ثبت رای، نام مدل‌ها نمایش داده می‌شود. هدف این فرآیند جمع‌آوری بازخورد از جامعه کاربران و استفاده از آن برای رتبه‌بندی و مقایسه عملکرد مدل‌های مختلف هوش مصنوعی است. در این مطلب از مجله فرادرس قصد داریم ببینیم ال ام آرنا چیست و چه کاربرد‌هایی دارد. در گام بعدی، با نحوه استفاده از LMArena، نحوه کار و مزایا و معایب این ابزار در ارزیابی عملکرد مدل‌های هوش مصنوعی آشنا می‌شویم.

آنچه در این مطلب می‌آموزید:

با ابزار ال ام آرنا و کاربرد‌های آن در مقایسه مدل‌های هوش مصنوعی آشنا می‌شوید.
یاد می‌گیرید نحوه استفاده از LMArena برای مقایسه و ارزیابی مدل‌های زبانی چگونه است.
درک می‌کنید ال ام آرنا چگونه کار می‌کند و فرآیند رتبه‌بندی مدل‌ها به چه شکل انجام می‌شود.
با قابلیت‌های کلیدی LMArena در تحلیل کیفیت پاسخ‌ها آشنا می‌شوید.
می‌آموزید چرا ال ام آرنا اهمیت دارد و چه نقشی در رشد و سرمایه‌گذاری هوش مصنوعی دارد.
به نقاط قوت و ضعف LMArena نگاه دقیق‌تری خواهید داشت.

فهرست مطالب این نوشته

ال ام آرنا چیست؟

نحوه استفاده از LMArena

یادگیری نحوه کار با ابزارهای هوش مصنوعی با فرادرس

قابلیت های کلیدی ال ام آرنا چیست؟

ال ام آرنا چگونه کار می‌کند؟

دلایل اهمیت ال ام آرنا چیست؟

رشد و سرمایه گذاری در LMArena

نگاهی به نقاط قوت و ضعف LMArena

نقاط قوت LMArena چیست؟

نقاط ضعف ال ام آرنا

نگاهی به دورنمای ارزیابی مدل‌های هوش مصنوعی

جمع‌بندی

ال ام آرنا چیست؟

«ال ام آرنا» (LMArena) پلتفرمی کاملا رایگان و منبع‌باز برای ارزیابی مدل‌های هوش مصنوعی توسط کاربران عادی است. به کمک LMArena می‌توانید قابلیت‌های مختلف چت‌بات‌های AI مانند تولید متن، ساخت عکس و جستجو در وب را با یکدیگر مقایسه کنید. LMArena بر اساس ایده ساده ولی قدرتمند زیر عمل می‌‌کند:

کاربر پرامپت و درخواست خود را در LMArena وارد می‌کند.
دو مدل هوش مصنوعی مختلف به صورت ناشناس به درخواست کاربر پاسخ می‌دهند.
کاربر پس از بررسی پاسخ‌ها، به پاسخ بهتر رای می‌دهد.
پس از ثبت رای توسط کاربر، سیستم ال ام آرنا، نام مدل‌های هوش مصنوعی را به او نشان می‌دهد.

این فرآیند میلیون‌ها بار تکرار می‌شود و نتایج آن به پایگاه داده‌ای عظیم از مقایسه‌های دو به دو میان مدل‌ها افزوده می‌شوند. سپس، نتایج در یک جدول «رتبه‌بندی» (Leaderboard) مرتب می‌شوند. ویژگی مهم رتبه‌بندی LMArena این است که مدل‌های هوش مصنوعی در رتبه‌بندی آن بر اساس بازخورد واقعی کاربران انسانی جایگاه می‌گیرند و قابلیت‌های فنی و تخصصی و ادعاهای سازندگان این مدل‌‌ها در این مقایسه دخیل نیست.

با معرفی و توسعه سریع ابزار‌های جدید هوش مصنوعی، ارزیابی عملکرد و کیفیت پاسخ مدل‌های زبانی به اندازه توسعه آن‌ها اهمیت دارد. به همین دلیل است که LMArena که البته در گذشته به آن «Chatbot Arena» گفته می‌شد، به یکی از پلتفرم‌های اصلی برای سنجش مدل‌ها بر اساس نظر کاربران واقعی بدل شده است. علاوه بر این، با ال ام آرنا می‌توانید نتایج مدل‌های مختلف را با هم مقایسه و بهترین مدل هوش مصنوعی برای انجام کارهای خود را پیدا کنید.

فیلم مجموعه آموزش ابزارهای کاربردی هوش مصنوعی – مقدماتی تا پیشرفته در فرادرس

کلیک کنید

حالا که توضیح دادیم lmarena چیست و چه قابلیت‌های مهمی دارد، لازم است با نحوه استفاده از این ابزار نیز آشنا شویم. پیش از شروع، می‌توانید با مراجعه به صفحه مجموعه فیلم آموزش ابزارهای کاربردی هوش مصنوعی از مقدماتی تا پیشرفته در فرادرس، با ابزار‌های AI و نحوه کار با آن‌ها آشنا شوید.

نحوه استفاده از LMArena

پلتفرم ال ام آرنا در حال حاضر فقط از طریق نسخه وب آن در دسترس است و اپلیکیشن موبایل ندارد. برای استفاده از این ابزار کافی‌ست با کامپیوتر یا گوشی وارد وب‌سایت LMArena «+» شوید. برای استفاده بهتر و ذخیره چت‌ها بهتر است با استفاده دکمه «Login» و حساب کاربری جیمیل خود در ال ام آرنا یک حساب کاربری ایجاد کنید. اما این ابزار بدون ایجاد حساب کاربری هم قابل‌استفاده است.

پس از باز شدن وب‌سایت، صفحه‌ای به شکل زیر مشاهده می‌کنید:

در ادامه، بخش‌های مختلف این صفحه را به صورت جداگانه معرفی می‌کنیم تا نحوه استفاده از LMArena را بهتر یاد بگیریم.

وارد کردن و ارسال پرامپت

در بخش میانی صفحه، محل ورود پرامپت را مشاهده می‌کنید. در این بخش می‌توانید دستور مورد نظر خود را وارد کرده و ارسال کنید. همانند چت‌بات‌هایی مانند چت‌جی‌پی‌تی، جمنای و ...، در این بخش می‌توانید با کلیک روی گزینه‌های پرامپت، قابلیت‌های مختلف ابزار‌های هوش مصنوعی را با یکدیگر مقایسه کنید. در تصویر زیر این بخش‌ها را مشاهده می‌کنید:

دکمه «+» برای «بارگذاری تصویر» (Upload Image)
دکمه «جستجوی وب» (Web Search)
دکمه «ساخت تصاویر» (Generate Images)
دکمه «ساخت اپلیکیشن و وب‌سایت» (Build apps and websites)

در ادامه، نحوه کار با این قابلیت‌ها را به همراه نمونه بررسی می‌کنیم اما قبل از آن لازم است با تنظیمات گفتگو در lmarena آشنا شویم.

تنظیمات گفتگو در LMArena

در گوشه بالا و سمت چپ صفحه، دکمه تنظیمات گفتگو را مشاهده می‌کنید که با کلمه «Battle» مشخص شده است. با کلیک روی این دکمه، سه گزینه را مشاهده می‌کنید که بسته به قابلیت‌های هرکدام، می‌توانید نوع گفتگو را مشخص کنید:

دکمه «مبارزه» (Battle) برای مقایسه دو مدل به صورت ناشناس
دکمه «در کنار هم» (Side by Side) برای مقایسه دو مدل انتخاب شده توسط کاربر
دکمه «گفتگوی مستقیم» (Direct Chat) برای گفتگوی جداگانه با یک مدل خاص

تصویر این بخش را در زیر مشاهده می‌کنید:

تنظیمات گفتگو در ال ام آرنا - ال ام آرنا چیست

در ادامه، مثال‌هایی را برای انواع گفتگو در LM Arena ارائه کرده‌ایم تا بهتر درک کنید تفاوت محیط‌های گفتگوی مختلف ال ام آرنا چیست و هریک چه قابلیت‌‌هایی دارند.

حالت Battle در ال ام آرنا چیست؟

با تنظیم LMArena روی این حالت، از اصلی‌ترین قابلیت آن یعنی مقایسه عملکرد دو مدل به صورت ناشناس استفاده می‌کنید. در این حالت، پرامپت خود را در کادر دستور وارد و آن را ارسال می‌کنیم. در صفحه پاسخ، دو کادر با عنوان‌های «Assistant A» و «Assistant B» در کنار هم قرار می‌گیرند و شروع به تولید پاسخ می‌کنند. به این ترتیب، می‌توانید تولید پاسخ را در دو مدل زیر نظر بگیرید و سرعت پاسخگویی هر مدل را نیز بررسی کنید.

در نمونه زیر، پرامپتی در مورد «وظایف مدیریت پروژه در سازمان» وارد کردیم و مدل را در حالت پیش‌فرض آن، یعنی Battle، قرار داده‌ایم.

همان‌طور که مشاهده می‌کنید، پس از اتمام فرآیند پاسخ‌‌گویی، چند دکمه برای رای دادن به نتایج به شکل زیر نمایش داده می‌شوند که با استفاده از آن‌ها می‌توانید به صورت زیر به نتایج رای دهید:

«نتیجه سمت راست» (Right is Better)
«نتیجه سمت چپ» (Left is Better)
«هیچ کدام از نتایج» (Both are bad)
«هردو نتیجه به طور مساوی» (It is a tie)

گزینه های رای دادن به پاسخ در ال ام آرنا

توجه داشته باشید که امکان تولید مجدد، کپی و بزرگ کردن صفحه نیز برای هریک از پاسخ‌ها فراهم شده است. پس از ثبت رای، ال ام آرنا بلافاصله نام مدل‌ها را برای شما مشخص می‌کند. همانطور که در تصویر می‌بینید، پاسخ‌ها توسط دو مدل qwen3 و claude opus4 تولید شده‌اند:

استفاده از حالت Side by Side برای استفاده از دو مدل مشخص

فرض کنید بخواهید عملکرد دو مدل مشخص را به صورت کاملا مستقیم با یکدیگر مقایسه کنید. در این صورت با انتخاب گزینه Side by Side، این امکان در اختیار شما قرار می‌گیرد که نوع مدل‌های مدنظر خود را انتخاب کرده و روند تولید پاسخ در آن‌ها را به طور همزمان زیر نظر بگیرید.

در مثال زیر، ال ام آرنا را روی حالت Side by Side تنظیم کرده و نوع مدل‌های زبانی را روی جمنای و دیپ سیک تنظیم کرده‌ایم.

نمونه استفاده از حالت side by side در ال ام آرنا

همانطور که مشاهده می‌کنید، نام مدل‌ها از زمان شروع تولید پاسخ در چت مشخص است:

توجه داشته باشید که در این حالت هم می‌توانید پس از اتمام پاسخ‌دهی، به پاسخ بهتر رای دهید.

انتخاب حالت Direct Chat برای گفتگوی مستقیم با یک مدل مشخص

با تنظیم LMArena روی این گزینه، می‌توانید از داخل محیط گفتگوی این پلتفرم، به طور مستقیم با مدل هوش مصنوعی موردنظر خود گفتگو کنید. در نمونه زیر، مدل زبانی مربوط به چت‌بات Claude را انتخاب کرده و پس از فعال کردن گزینه Web Search، سوالی را در مورد «بهترین ابزارهای هوش مصنوعی فعلی برای تبدیل متن به ویدیو» در کادر پرامپت وارد کردیم. پاسخ را در زیر مشاهده می‌کنید:

توجه داشته باشید که در حالت Direct Chat در واقع در بستر lmarena، با چت‌بات‌های هوش مصنوعی به صورت مستقیم گفتگو می‌کنید. با توجه به رایگان بودن ال ام آرنا، می‌توانید از این قابلیت برای گفتگوی نامحدود با چت‌بات‌های مختلف استفاده کنید.

تا این بخش یاد گرفتیم نحوه استفاده از حالت‌های مختلف ال ام آرنا چیست و مثال‌هایی را نیز در تولید محتوای متنی بررسی کردیم. در ادامه، نگاهی به ساخت و درک تصویر با این ابزار خواهیم داشت.

مطلب پیشنهادی:

چت با هوش مصنوعی – معرفی ۳۶ چت بات به همراه کاربرد

شروع مطالعه

قابلیت ساخت تصویر با ال ام آرنا

برای ارزیابی قابلیت تبدیل متن به عکس از طریق ال ام آرنا، کافی‌ست روی دکمه «Generate Images» کلیک کنیم. بقیه مسیر مشابه ساخت عکس با هوش مصنوعی پیش می‌رود. به این صورت که لازم است توصیف مناسبی از عکس را به LMArena بدهید تا ساخت تصویر در محیط آن آغاز شود. از این قابلیت می‌توانید در هر سه حالت Battle، Side by Side و Direct Chat استفاده کنید.

فیلم آموزش هوش مصنوعی برای ساخت و ویرایش عکس + چند ابزار مختلف + گواهینامه در فرادرس

کلیک کنید

در نمونه زیر، پرامپت ساده ولی مناسبی را در مورد ساخت تصویر از یک ربات هوش مصنوعی در حال نوشیدن قهوه در خانه، برای ساخت یک تصویر وارد و چت‌بات را روی Battle تنظیم کرده‌ایم. خروجی آن را پس از ثبت رای در تصویر زیر مشاهده می‌کنید که مدل Flux نتیجه بهتری از Seedream 3 تولید کرده است.

در نمونه دیگری، ال ام آرنا را روی حالت Direct Chat تنظیم کرده و مدل را روی جمنای 2.5 که موتور مولد ابزار Nano Banana است، تنظیم کرده‌ایم. خروجی را در تصویر زیر مشاهده می‌کنید.

به این ترتیب می‌توانید از طریق پلتفرم ال ام آرنا ساخت تصاویر با ابزار‌های رایگان و غیررایگان زیادی را بدون محدودیت امتحان کنید. امکان دانلود این تصاویر نیز وجود دارد.

مطلب پیشنهادی:

ساخت عکس با هوش مصنوعی با ۱۰ سایت کاربردی + آموزش نحوه استفاده

شروع مطالعه

بارگذاری تصویر در LMArena

در حالت Battle، به کمک گزینه «+» می‌توانید تصویر موردنظر خود را در ال ام آرنا بارگذاری کرده و کیفیت درک تصویر را توسط دو مدل زبانی تصادفی با یکدیگر مقایسه کنید.

قابلیت جستجو در وب در ال ام آرنا

برای استفاده از این قابلیت‌، کافی‌ست ال ام آرنا را روی یکی از سه حالت تنظیم کرده و روی دکمه «Web Search» در صفحه اصلی کلیک کنید. در ادامه، پرامپت خود را در کادر گفتگو وارد کنید و منتظر بمانید تا lmarena درخواست شما را انجام دهد. در نمونه زیر، پس از تنظیم مدل روی حالت Battle، از ابزار خواستیم به سوال ما پاسخ دهد. نمونه‌ای از این قابلیت را با مثالی از ابزار Perplexity در بخش Direct Chat بررسی کردیم.

مقایسه ساخت وب‌سایت و اپلیکیشن با LMArena

علاوه بر ساخت و بارگذاری عکس، تولید متن و جستجو در وب با مدل‌های زبانی، می‌توانید از ال ام آرنا برای کدنویسی وب‌سایت و اپلیکیشن نیز استفاده کنید. این قابلیت تا زمان نگارش این مطلب، فقط روی Battle Mode فعال است. برای استفاده از آن، روی دکمه «Build apps & Website» کلیک کنید تا به صفحه جدیدی به شکل زیر هدایت شوید.

در این صفحه کافی‌ست با وارد کردن پرامپت مناسب، رقابت دو مدل هوش مصنوعی را برای پاسخگویی به درخواست خود زیر نظر بگیرید.

جدول رتبه بندی Leaderboard در ال ام آرنا چیست؟

برای دسترسی به جدول رتبه بندی، کافی است از منوی سمت چپ رابط کاربری، گزینه «Leaderboard» را انتخاب کنید یا از بالای کارد گفتگو در صفحه اصلی روی گزینه «View Leaderboard» بزنید. با این کار به صفحه جداول رتبه‌بندی منتقل می‌شوید که در آن می‌توانید با توجه به نوع وظیفه، رتبه‌بندی مدل‌های هوش مصنوعی و امتیاز آن‌ها را مشاهده کنید. ازجمله دسته‌بندی‌های مهم این بخش می‌توانیم به موارد زیر اشاره کنیم:

بخش Text
بخش WebDev
بخش Vision
بخش Text-to-image
بخش Image Edit
بخش Search
بخش Text-to-Video
بخش Copilot

مشاهده همه جدول‌ها در کنار یکدیگر در بخش «Overview» امکان‌پذیر است. همان‌طور که در تصویر زیر می‌بینید، در هر جدول، امتیاز و رتبه مدل‌های هوش مصنوعی در کنار تعداد آراء ثبت شده کاربران و حتی رشد یا افت رتبه مدل‌ها قابل بررسی است. در تصویر زیر، جدول رتبه‌بندی مربوط به بخش Text را مشاهده می‌کنید:

با کمی اسکرول صفحه در بخش Overview نیز به بخش Arena Overview می‌رسید که در آن جایگاه هر مدل در دسته‌بندی‌های مانند Hard Prompts، Coding، Math و ... مشخص شده است.

در صورت تمایل، می‌توانید از طریق تب‌های بالای صفحه، جدول رتبه‌بندی هر بخش را به صورت جداگانه مشاهده کنید. در بخش پایینی این صفحه هم نمودار‌های بصری بر اساس آمار مدل‌ها رسم شده است.

تنظیمات پروفایل در ال ام آرنا

رابط کاربری lmarena بسیار ساده است و گزینه‌های زیادی در آن دیده نمی‌شود. در گوشه سمت چپ و بالای صفحه با کلیک روی گزینه «LMArena» گزینه‌های زیر را مشاهده کنید:

بخش About Us
بخش How it Works
بخش Join the Team
بخش Join Discord
بخش Theme برای تغییر رنگ پس‌زمینه

علاوه بر این، با استفاده از گزینه New Chat می‌توانید یک صفحه گفتگوی جدید ایجاد کنید و با کلیک روی دکمه Leaderboard نیز به جدول رتبه‌بندی lmarena منتقل می‌شوید.

در بخش پایینی منوی سمت چپ نیز، آدرس جیمیل خود را در کنار دو گزینه «Send Feedback» و «Report Bugs» مشاهده می‌کنید. با کلیک روی گزینه «Send Feedback»، به یک صفحه گوگل فرم منتقل می‌شوید که در آن می‌توانید با پاسخ به چند سوال کلی در مورد ال ام آرنا پاسخ دهید. گزینه «Report Bugs» نیز برای گزارش دادن خطاها و مشکلات احتمالی پلتفرم در دسترس کاربران قرار داده شده است.

یادگیری نحوه کار با ابزارهای هوش مصنوعی با فرادرس

در بخش‌های قبلی کاملا یاد گرفتیم که ال ام آرنا چیست و چگونه می‌توان از آن استفاده کرد. با معرفی و توسعه چت‌بات‌های مبتنی بر هوش مصنوعی مانند ChatGPT، جمنای و ... روش‌هایی برای استفاده حداکثری از این ابزار‌ها نیز معرفی شده‌اند که با یادگیری آن‌ها می‌توانیم نتایج بهتری از چت‌بات‌ها دریافت کنیم. بنابراین، اینکه بدانیم دستورات موردنظر خود را چگونه برای چت‌بات‌های هوش مصنوعی بنویسیم تا پاسخ‌های کامل و نزدیک به انتظارات خود را دریافت کنیم، از اهمیت بسیار زیادی برخوردار است.

در گام بعدی، نیاز داریم ابزار‌های مختلف هوش مصنوعی و کاربرد‌های مختلف آن‌ها را بشناسیم تا بتوانیم برای انجام سریع‌تر وظایف مختلف از آن‌ها کمک بگیریم. بنابراین، آشنایی با نحوه پرامپت‌نویسی در وهله اول و شناخت ابزار‌های مختلف در وهله بعدی، کلید استفاده حرفه‌ای از این ابزار‌ها هستند. برای دسترسی به این کلید، می‌توانیم از آموزش‌های کاربردی و جدید فرادرس استفاده کنیم که توانایی و دانش ما را برای کار با این ابزار‌ها و معرفی ابزار‌های مختلف به شکل هدفمندی بالا می‌برند.

در فهرست زیر به چند عنوان آموزشی مهم در این خصوص اشاره کرده‌ایم که بعضی از آن‌‌ها رایگان هستند:

لندینگ مجموعه فیلم آموزش ابزارهای کاربردی هوش مصنوعی — برای مشاهده و دسترسی به مجموعه فیلم آموزش ابزارهای کاربردی هوش مصنوعی از مقدماتی تا پیشرفته، روی تصویر کلیک کنید.

برای دسترسی به آموزش‌های بیشتر می‌توانید به صفحات زیر مراجعه کنید:

مجموعه فیلم آموزش ابزارهای کاربردی هوش مصنوعی از مقدماتی تا پیشرفته در فرادرس

قابلیت های کلیدی ال ام آرنا چیست؟

ال ام آرنا چندین قابلیت جالب و کلیدی را در اختیار شما قرار می‌دهد تا پاسخ مدل‌های هوش مصنوعی مختلف را به خوبی ارزیابی و با هم مقایسه کنید. ازجمله این قابلیت‌ها می‌توانیم به موارد زیر اشاره کنیم:

مقایسه مدل‌های زبانی: ال ام آرنا در جواب کاربر پاسخ دو مدل هوش مصنوعی مختلف را در کنار یکدیگر نمایش می‌دهد تا بتوانند به پاسخ‌های مرتبط‌تر و بهتر رای دهند.
ارائه جدول رتبه‌بندی جامع: نتایج آراء کاربران در نهایت در یک جدول رتبه‌بندی پویا و دائما در حال تغییر در زمان واقعی به کاربران نمایش داده می‌شود تا ترجیحات کاربران و عملکرد مدل‌ها در یک نگاه قابل مشاهده باشد.
پوشش طیف گسترده‌ای از مدل‌ها: ال ام آرنا از تعداد زیادی از مدل‌های هوش مصنوعی متن‌باز مانند LLaMA و Mistral پشتیبانی کرده و همزمان بررسی عملکرد چت‌بات‌هایی مانند GPT و Claude و Gemini را نیز انجام می‌دهد.
تولید نتایج مبتنی بر رای و نظر کاربران: استفاده از ال ام آرنا کمک می‌کند بدون توجه تبلیغات و بازاریابی گسترده شرکت‌های سازنده ابزارهای هوش مصنوعی، بتوانید کاربرد و عملکرد آن‌ها را بر اساس بازخورد واقعی کاربران در زمان واقعی با دقت و شفافیت بالا بررسی کرده و رتبه آن‌ها را ببینید.
ساخت و ویرایش تصاویر: به کمک گزینه «Image Generation» این ابزار می‌توانید با طیف گسترده‌ای از چت‌بات‌ها تعامل کرده و بر اساس دستورات متنی خود با آن‌ها عکس بسازید یا تصاویر مرجع موردنظر خود را بارگذاری کرده و آن‌ها را تغییر دهید.

فیلم مجموعه آموزش چت با هوش مصنوعی – صفر تا صد در فرادرس

کلیک کنید

در بخش‌های قبلی توضیح دادیم ال ام آرنا چیست و چطور می‌توان از آن استفاده کرد. در بخش بعدی، قصد داریم نحوه کار آن را با نگاهی تخصصی‌تر بررسی کنیم. قبل از رفتن به این بخش، پیشنهاد می‌کنیم با مراجعه به صفحه مجموعه فیلم آموزش چت با هوش مصنوعی از صفر تا صد در فرادرس، نحوه چت با ابزار‌های مختلف هوش مصنوعی را یاد بگیرید.

ال ام آرنا چگونه کار می‌کند؟

چارچوب ارزیابی LMArena بر پایه مدل Bradley–Terry ساخته شده است. روشی آماری که برای تخمین توانایی نسبی رقبا در مقایسه‌های دوتایی به کار می‌رود. نکات اصلی این فرآیند را می‌توانیم در موارد فهرست زیر خلاصه کنیم:

«آزمایش کور یا بلایند تستینگ» (Blind Testing): کاربران تا قبل از رأی دادن نمی‌دانند پاسخ مربوط به کدام مدل است.
«مقایسه زوجی» (Pairwise Comparison): در هر بار رای‌گیری، فقط دو مدل با هم مقایسه می‌شوند تا تصمیم‌گیری متمرکزتر و منصفانه‌تر باشد.
«به‌روزرسانی زنده جدول رتبه‌بندی» (Live Leaderboard Updates): با هر رأی جدید، جدول رتبه‌ها به‌طور پویا تغییر می‌کند.
«دسترسی عمومی» (Open Access for the Public): همه افراد می‌توانند در آزمون‌ها شرکت کرده و به شکل‌گیری پایگاه داده کمک کنند.

این شیوه جمع‌سپاری (Crowdsourcing) دیدگاهی انسانی‌تری را نسبت به معیارهای صرفاً عددی و تست‌های استانداردی مانند MMLU یا GSM8K، ارائه می‌دهد.

دلایل اهمیت ال ام آرنا چیست؟

در گذشته، بنچمارک و ارزیابی عملکرد مدل‌های هوش مصنوعی اغلب به شکل ماشینی و مصنوعی انجام می‌گیرد. به عبارت بهتر، مدل‌ها با مجموعه‌ای از داده‌های ثابت آزمایش می‌شوند و نمره آن‌ها به صورت خودکار محاسبه می‌شود. این روش با وجود مفید بودن، محدودیت‌هایی نیز دارند که در فهرست زیر به چند مورد از آن‌ها اشاره شده است:

«بیش‌برازش» (Overfitting): در این حالت، ممکن است مدل‌ها طوری تنظیم شوند که فقط در پنچمارک‌های شناخته شده عملکرد مناسبی از خود نشان دهند.
ارزیابی محدود: در این حالت، مجموعه داده‌های استاندارد تنوع و پیچیدگی موقعیت‌های واقعی را کامل بازتاب نمی‌دهند.
عدم وجود قضاوت انسانی: نمره‌دهی خودکار همیشه با برداشت انسان از «پاسخ بهتر» هم‌خوان نیست.

فیلم آموزش هوش مصنوعی – مقدماتی + گواهینامه در فرادرس

کلیک کنید

اینجاست که LMArena وارد عمل می‌شود و جای این خلا را پر می‌کند. این پلتفرم انسان‌ها را مستقیماً وارد فرایند ارزیابی می‌کند و ویژگی‌هایی مانند لحن، وضوح بیان، میزان مفید بودن و حتی خلاقیت پاسخ‌ها را در نظر می‌گیرد. ویژگی‌هایی که در اغلب موارد توسط پنچمارک‌های سنتی نادیده گرفته می‌شوند. برای آشنایی با مبانی هوش مصنوعی، پیشنهاد می‌کنیم فیلم آموزش مقدماتی هوش مصنوعی به همراه گواهینامه از فرادرس را مشاهده کنید.

برای آشنایی با مفهوم بیش برازش در یادگیری ماشین نیز می‌توانید مطلب زیر از مجله فرادرس را مطالعه کنید.

مطلب پیشنهادی:

Overfitting در یادگیری ماشین چیست؟ – توضیح به زبان ساده

شروع مطالعه

رشد و سرمایه گذاری در LMArena

LMArena در تاریخ ۳ مه ۲۰۲۳ به‌عنوان یک ابتکار دانشگاهی در زیرمجموعه SkyLab دانشگاه برکلی آغاز به کار کرد. این پروژه خیلی زود مورد توجه قرار گرفت و پژوهشگران حوزه هوش مصنوعی و علاقه‌مندان عمومی را جذب خود کرد. تا ماه مه سال ۲۰۲۵، اثرگذاری پلتفرم lmarena آنقدر زیاد شده بود که توانست ۱۰۰ میلیون دلار سرمایه اولیه جذب کند و ارزشی معادل ۶۰۰ میلیون دلار به دست آورد.

این سرمایه‌گذاری به رهبری شرکت Andreessen Horowitz (a16z) و UC Investments انجام شد و شرکت‌هایی مثل «Lightspeed» ،«Felicis Ventures» و «Kleiner Perkins» هم در آن مشارکت داشتند. از این اتفاق می‌توانیم نتیجه بگیریم که ارزیابی شفاف و مقیاس‌پذیر مدل‌های هوش مصنوعی، به یکی از نیازهای اساسی این صنعت رو به رشد تبدیل شده است.

نگاهی به نقاط قوت و ضعف LMArena

در بخش‌های قبلی یاد گرفتیم ال ام آرنا چیست، چه قابلیت‌هایی دارد و چگونه می‌توان از آن استفاده کرد. در این بخش قصد داریم با نقاط قوت و ضعف این ابزار آشنا شویم.

فیلم مجموعه آموزش هوش مصنوعی – از دروس دانشگاهی تا کاربردی در فرادرس

کلیک کنید

نقاط قوت LMArena چیست؟

از مهم‌ترین نقاط قوت ال ام آرنا می‌توانیم به موارد زیر اشاره کنیم:

ارزیابی انسان‌محور: ال ام آرنا نتایج ارزیابی‌های خود را فقط به اعداد و آمارهای ماشینی محدود نمی‌کند و کیفیت تجربه واقعی کاربران در مورد استفاده از مدل‌های هوش مصنوعی در نظر می‌گیرد.
پویایی و شفافیت بالا: رتبه‌بندی مدل‌ها در جدول ال ام آرنا به طور مرتب و به صورت زنده به‌روزرسانی می‌شوند تا کاربران نتایج را به شفاف و متناسب با داده‌های تازه مشاهده کنند.
مشارکت جمعی: هر فردی می‌تواند در روند ارزیابی مدل‌های هوش مصنوعی مشارکت داشته باشد.
پوشش مدل‌های متنوع: ال ام آرنا با نگاهی جامع مدل‌های تجاری، متن‌باز و حتی مدل‌های منتشر نشده را در ارزیابی‌های خود می‌گنجاند و پوشش دقیقی از عملکرد این مدل‌ها در اختیار کاربران قرار می دهد.

نقاط ضعف ال ام آرنا

از مهم‌ترین نقاط ضعف LMArena می‌توانیم به موارد زیر اشاره کنیم:

سوگیری در نتایج: اگر بعضی از مدل‌‌ها بیشتر از بقیه در تست‌ها ظاهر شوند، نتایج ممکن است به نفع آن‌‌ها تعیین شود که منصفانه نیست.
اعمال سلیقه در نظرات: با توجه به اینکه ارزیابی در الم آرنا بر اساس نظر کاربران عادی در استفاده از مدل‌های هوش مصنوعی صورت می‌گیرد، سلایق شخصی و فرهنگ‌های مختلف افراد می‌توانند روی نتایج اثرگذار باشند.
امکان دستکاری سیستم: ممکن است بعضی از کاربران طوری رای بدهند یا مدل‌ها را طوری آماده کنند که فقط امتیاز بالاتر بگیرند حتی اگر کیفیت واقعی پاسخ‌‌ها به اندازه کافی خوب نباشد.
غیرتخصصی بودن مقایسه‌ها در وظایف خاص: رتبه‌بندی مدل‌های هوش مصنوعی در بستر ال ام آرنا و بر اساس رای کاربران عادی ارائه می‌شوند. بنابراین، یک مقایسه کلی است و ممکن است نتواند توانایی مدل‌ها در وظایف تخصصی مانند برنامه‌نویسی یا استدلالی را به درستی نشان دهد.

نگاهی به دورنمای ارزیابی مدل‌های هوش مصنوعی

آینده‌ی ارزیابی هوش مصنوعی به سمتی می‌رود که مدل‌ها نه صرفا بر اساس اعداد و آزمون‌های خشک، بلکه بر اساس تجربه واقعی کاربران سنجیده شوند. lmarena نشان داده است که این روش می‌تواند منصفانه‌تر و نزدیک‌تر به نیازهای مردم باشد. برای نمونه، می‌توان از «رأی‌گیری وزنی» (Weighted Voting) استفاده کرد تا نتایج یک مدل خاص به دلیل حضور بیشترش در تست‌ها به سمت و سوی خاصی متمایل نشود. همچنین، احتمال دارد برای هر حوزه تخصصی مثل نوشتن، برنامه‌نویسی یا ترجمه، رتبه‌بندی جداگانه ساخته شود.

افزون بر این موارد، امکان دارد پیگیری تغییرات در طول زمان به ما نشان بدهد که هر مدل در چه مسیری پیشرفت یا پسرفت می‌کند. از طرف دیگر، اگر رأی‌گیری به شکل منطقه‌ای و بر اساس زبان و فرهنگ‌های مختلف انجام شود، نتایج دقیق‌تر و متنوع‌تری به دست خواهد آمد. این تغییرات کمک می‌کند ارزیابی مدل‌ها واقعی‌تر و نزدیک‌تر به نیازهای روزمره کاربران باشد.

جمع‌بندی

در این مطلب از مجله فرادرس آموختیم که ال ام آرنا چیست، چه قابلیت‌هایی دارد و چگونه می‌توان از ویژگی‌های مختلف آن استفاده کرد. پلتفرم ال ام آرنا دید ما به بنچمارک‌های هوش مصنوعی را تغییر داده است. این پلتفرم با در محوریت قرار دادن قضاوت انسان‌ها در مرکز ارزیابی‌ها به ما کمک می‌کند بفهمیم مدل‌ها در گفت‌وگوهای واقعی چطور عمل می‌کنند و چه عملکردی در پاسخ به نیازهای واقعی کاربران دارند.

با این حال، مانند هر سیستم دیگری، شفافیت و انصاف در نحوه عملکرد آن اهمیت زیادی دارند، به‌خصوص وقتی از رقابت بسیار بالای مدل‌های متن‌باز و تجاری برای رسیدن به رتبه‌های بالا با یکدیگر آگاهی داشته باشیم. با شدت گرفتن رقابت در حوزه هوش مصنوعی، lmarena احتمالاً هم محل رقابت برای برتری مدل‌ها خواهد بود و هم محلی برای آزمایش جامعه کاربران تا ببینیم ما به عنوان یک جامعه، معیار «بهتر بودن» در هوش مصنوعی را چگونه تعریف می‌کنیم.

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۴ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

Buka Corner OutRight Store مجله فرادرس

فهیمه سکوتی (+)

فهیمه سکوتی دانش‌آموخته رشته مترجمی زبان انگلیسی است. فعالیت او در زمینه بازاریابی محتوایی و تکنولوژی بوده و در حال حاضر آموزش‌های حوزه‌های متنوعی از مجله فرادرس را می‌نویسد.

مطالب مرتبط