ال ام آرنا چیست و LMArena چه کاربردی دارد؟ – به زبان ساده + آموزش استفاده
ال ام آرنا یک پلتفرم رایگان برای مقایسه کیفیت پاسخهای ابزارهای هوش مصنوعی است. نحوه کار با LMArena به این صورت است که شما پرامپت خود را وارد میکنید، دو پاسخ مختلف از مدلها دریافت میکنید و بدون دانستن نام آنها به گزینه بهتر رای میدهید. بعد از ثبت رای، نام مدلها نمایش داده میشود. هدف این فرآیند جمعآوری بازخورد از جامعه کاربران و استفاده از آن برای رتبهبندی و مقایسه عملکرد مدلهای مختلف هوش مصنوعی است. در این مطلب از مجله فرادرس قصد داریم ببینیم ال ام آرنا چیست و چه کاربردهایی دارد. در گام بعدی، با نحوه استفاده از LMArena، نحوه کار و مزایا و معایب این ابزار در ارزیابی عملکرد مدلهای هوش مصنوعی آشنا میشویم.
- با ابزار ال ام آرنا و کاربردهای آن در مقایسه مدلهای هوش مصنوعی آشنا میشوید.
- یاد میگیرید نحوه استفاده از LMArena برای مقایسه و ارزیابی مدلهای زبانی چگونه است.
- درک میکنید ال ام آرنا چگونه کار میکند و فرآیند رتبهبندی مدلها به چه شکل انجام میشود.
- با قابلیتهای کلیدی LMArena در تحلیل کیفیت پاسخها آشنا میشوید.
- میآموزید چرا ال ام آرنا اهمیت دارد و چه نقشی در رشد و سرمایهگذاری هوش مصنوعی دارد.
- به نقاط قوت و ضعف LMArena نگاه دقیقتری خواهید داشت.


ال ام آرنا چیست؟
«ال ام آرنا» (LMArena) پلتفرمی کاملا رایگان و منبعباز برای ارزیابی مدلهای هوش مصنوعی توسط کاربران عادی است. به کمک LMArena میتوانید قابلیتهای مختلف چتباتهای AI مانند تولید متن، ساخت عکس و جستجو در وب را با یکدیگر مقایسه کنید. LMArena بر اساس ایده ساده ولی قدرتمند زیر عمل میکند:
- کاربر پرامپت و درخواست خود را در LMArena وارد میکند.
- دو مدل هوش مصنوعی مختلف به صورت ناشناس به درخواست کاربر پاسخ میدهند.
- کاربر پس از بررسی پاسخها، به پاسخ بهتر رای میدهد.
- پس از ثبت رای توسط کاربر، سیستم ال ام آرنا، نام مدلهای هوش مصنوعی را به او نشان میدهد.
این فرآیند میلیونها بار تکرار میشود و نتایج آن به پایگاه دادهای عظیم از مقایسههای دو به دو میان مدلها افزوده میشوند. سپس، نتایج در یک جدول «رتبهبندی» (Leaderboard) مرتب میشوند. ویژگی مهم رتبهبندی LMArena این است که مدلهای هوش مصنوعی در رتبهبندی آن بر اساس بازخورد واقعی کاربران انسانی جایگاه میگیرند و قابلیتهای فنی و تخصصی و ادعاهای سازندگان این مدلها در این مقایسه دخیل نیست.

با معرفی و توسعه سریع ابزارهای جدید هوش مصنوعی، ارزیابی عملکرد و کیفیت پاسخ مدلهای زبانی به اندازه توسعه آنها اهمیت دارد. به همین دلیل است که LMArena که البته در گذشته به آن «Chatbot Arena» گفته میشد، به یکی از پلتفرمهای اصلی برای سنجش مدلها بر اساس نظر کاربران واقعی بدل شده است. علاوه بر این، با ال ام آرنا میتوانید نتایج مدلهای مختلف را با هم مقایسه و بهترین مدل هوش مصنوعی برای انجام کارهای خود را پیدا کنید.
حالا که توضیح دادیم lmarena چیست و چه قابلیتهای مهمی دارد، لازم است با نحوه استفاده از این ابزار نیز آشنا شویم. پیش از شروع، میتوانید با مراجعه به صفحه مجموعه فیلم آموزش ابزارهای کاربردی هوش مصنوعی از مقدماتی تا پیشرفته در فرادرس، با ابزارهای AI و نحوه کار با آنها آشنا شوید.
نحوه استفاده از LMArena
پلتفرم ال ام آرنا در حال حاضر فقط از طریق نسخه وب آن در دسترس است و اپلیکیشن موبایل ندارد. برای استفاده از این ابزار کافیست با کامپیوتر یا گوشی وارد وبسایت LMArena «+» شوید. برای استفاده بهتر و ذخیره چتها بهتر است با استفاده دکمه «Login» و حساب کاربری جیمیل خود در ال ام آرنا یک حساب کاربری ایجاد کنید. اما این ابزار بدون ایجاد حساب کاربری هم قابلاستفاده است.
پس از باز شدن وبسایت، صفحهای به شکل زیر مشاهده میکنید:

در ادامه، بخشهای مختلف این صفحه را به صورت جداگانه معرفی میکنیم تا نحوه استفاده از LMArena را بهتر یاد بگیریم.
وارد کردن و ارسال پرامپت
در بخش میانی صفحه، محل ورود پرامپت را مشاهده میکنید. در این بخش میتوانید دستور مورد نظر خود را وارد کرده و ارسال کنید. همانند چتباتهایی مانند چتجیپیتی، جمنای و ...، در این بخش میتوانید با کلیک روی گزینههای پرامپت، قابلیتهای مختلف ابزارهای هوش مصنوعی را با یکدیگر مقایسه کنید. در تصویر زیر این بخشها را مشاهده میکنید:
- دکمه «+» برای «بارگذاری تصویر» (Upload Image)
- دکمه «جستجوی وب» (Web Search)
- دکمه «ساخت تصاویر» (Generate Images)
- دکمه «ساخت اپلیکیشن و وبسایت» (Build apps and websites)

در ادامه، نحوه کار با این قابلیتها را به همراه نمونه بررسی میکنیم اما قبل از آن لازم است با تنظیمات گفتگو در lmarena آشنا شویم.
تنظیمات گفتگو در LMArena
در گوشه بالا و سمت چپ صفحه، دکمه تنظیمات گفتگو را مشاهده میکنید که با کلمه «Battle» مشخص شده است. با کلیک روی این دکمه، سه گزینه را مشاهده میکنید که بسته به قابلیتهای هرکدام، میتوانید نوع گفتگو را مشخص کنید:
- دکمه «مبارزه» (Battle) برای مقایسه دو مدل به صورت ناشناس
- دکمه «در کنار هم» (Side by Side) برای مقایسه دو مدل انتخاب شده توسط کاربر
- دکمه «گفتگوی مستقیم» (Direct Chat) برای گفتگوی جداگانه با یک مدل خاص
تصویر این بخش را در زیر مشاهده میکنید:

در ادامه، مثالهایی را برای انواع گفتگو در LM Arena ارائه کردهایم تا بهتر درک کنید تفاوت محیطهای گفتگوی مختلف ال ام آرنا چیست و هریک چه قابلیتهایی دارند.
حالت Battle در ال ام آرنا چیست؟
با تنظیم LMArena روی این حالت، از اصلیترین قابلیت آن یعنی مقایسه عملکرد دو مدل به صورت ناشناس استفاده میکنید. در این حالت، پرامپت خود را در کادر دستور وارد و آن را ارسال میکنیم. در صفحه پاسخ، دو کادر با عنوانهای «Assistant A» و «Assistant B» در کنار هم قرار میگیرند و شروع به تولید پاسخ میکنند. به این ترتیب، میتوانید تولید پاسخ را در دو مدل زیر نظر بگیرید و سرعت پاسخگویی هر مدل را نیز بررسی کنید.
در نمونه زیر، پرامپتی در مورد «وظایف مدیریت پروژه در سازمان» وارد کردیم و مدل را در حالت پیشفرض آن، یعنی Battle، قرار دادهایم.

همانطور که مشاهده میکنید، پس از اتمام فرآیند پاسخگویی، چند دکمه برای رای دادن به نتایج به شکل زیر نمایش داده میشوند که با استفاده از آنها میتوانید به صورت زیر به نتایج رای دهید:
- «نتیجه سمت راست» (Right is Better)
- «نتیجه سمت چپ» (Left is Better)
- «هیچ کدام از نتایج» (Both are bad)
- «هردو نتیجه به طور مساوی» (It is a tie)

توجه داشته باشید که امکان تولید مجدد، کپی و بزرگ کردن صفحه نیز برای هریک از پاسخها فراهم شده است. پس از ثبت رای، ال ام آرنا بلافاصله نام مدلها را برای شما مشخص میکند. همانطور که در تصویر میبینید، پاسخها توسط دو مدل qwen3 و claude opus4 تولید شدهاند:

استفاده از حالت Side by Side برای استفاده از دو مدل مشخص
فرض کنید بخواهید عملکرد دو مدل مشخص را به صورت کاملا مستقیم با یکدیگر مقایسه کنید. در این صورت با انتخاب گزینه Side by Side، این امکان در اختیار شما قرار میگیرد که نوع مدلهای مدنظر خود را انتخاب کرده و روند تولید پاسخ در آنها را به طور همزمان زیر نظر بگیرید.
در مثال زیر، ال ام آرنا را روی حالت Side by Side تنظیم کرده و نوع مدلهای زبانی را روی جمنای و دیپ سیک تنظیم کردهایم.

همانطور که مشاهده میکنید، نام مدلها از زمان شروع تولید پاسخ در چت مشخص است:

توجه داشته باشید که در این حالت هم میتوانید پس از اتمام پاسخدهی، به پاسخ بهتر رای دهید.
انتخاب حالت Direct Chat برای گفتگوی مستقیم با یک مدل مشخص
با تنظیم LMArena روی این گزینه، میتوانید از داخل محیط گفتگوی این پلتفرم، به طور مستقیم با مدل هوش مصنوعی موردنظر خود گفتگو کنید. در نمونه زیر، مدل زبانی مربوط به چتبات Claude را انتخاب کرده و پس از فعال کردن گزینه Web Search، سوالی را در مورد «بهترین ابزارهای هوش مصنوعی فعلی برای تبدیل متن به ویدیو» در کادر پرامپت وارد کردیم. پاسخ را در زیر مشاهده میکنید:

توجه داشته باشید که در حالت Direct Chat در واقع در بستر lmarena، با چتباتهای هوش مصنوعی به صورت مستقیم گفتگو میکنید. با توجه به رایگان بودن ال ام آرنا، میتوانید از این قابلیت برای گفتگوی نامحدود با چتباتهای مختلف استفاده کنید.
تا این بخش یاد گرفتیم نحوه استفاده از حالتهای مختلف ال ام آرنا چیست و مثالهایی را نیز در تولید محتوای متنی بررسی کردیم. در ادامه، نگاهی به ساخت و درک تصویر با این ابزار خواهیم داشت.
قابلیت ساخت تصویر با ال ام آرنا
برای ارزیابی قابلیت تبدیل متن به عکس از طریق ال ام آرنا، کافیست روی دکمه «Generate Images» کلیک کنیم. بقیه مسیر مشابه ساخت عکس با هوش مصنوعی پیش میرود. به این صورت که لازم است توصیف مناسبی از عکس را به LMArena بدهید تا ساخت تصویر در محیط آن آغاز شود. از این قابلیت میتوانید در هر سه حالت Battle، Side by Side و Direct Chat استفاده کنید.
در نمونه زیر، پرامپت ساده ولی مناسبی را در مورد ساخت تصویر از یک ربات هوش مصنوعی در حال نوشیدن قهوه در خانه، برای ساخت یک تصویر وارد و چتبات را روی Battle تنظیم کردهایم. خروجی آن را پس از ثبت رای در تصویر زیر مشاهده میکنید که مدل Flux نتیجه بهتری از Seedream 3 تولید کرده است.

در نمونه دیگری، ال ام آرنا را روی حالت Direct Chat تنظیم کرده و مدل را روی جمنای 2.5 که موتور مولد ابزار Nano Banana است، تنظیم کردهایم. خروجی را در تصویر زیر مشاهده میکنید.

به این ترتیب میتوانید از طریق پلتفرم ال ام آرنا ساخت تصاویر با ابزارهای رایگان و غیررایگان زیادی را بدون محدودیت امتحان کنید. امکان دانلود این تصاویر نیز وجود دارد.
بارگذاری تصویر در LMArena
در حالت Battle، به کمک گزینه «+» میتوانید تصویر موردنظر خود را در ال ام آرنا بارگذاری کرده و کیفیت درک تصویر را توسط دو مدل زبانی تصادفی با یکدیگر مقایسه کنید.
قابلیت جستجو در وب در ال ام آرنا
برای استفاده از این قابلیت، کافیست ال ام آرنا را روی یکی از سه حالت تنظیم کرده و روی دکمه «Web Search» در صفحه اصلی کلیک کنید. در ادامه، پرامپت خود را در کادر گفتگو وارد کنید و منتظر بمانید تا lmarena درخواست شما را انجام دهد. در نمونه زیر، پس از تنظیم مدل روی حالت Battle، از ابزار خواستیم به سوال ما پاسخ دهد. نمونهای از این قابلیت را با مثالی از ابزار Perplexity در بخش Direct Chat بررسی کردیم.
مقایسه ساخت وبسایت و اپلیکیشن با LMArena
علاوه بر ساخت و بارگذاری عکس، تولید متن و جستجو در وب با مدلهای زبانی، میتوانید از ال ام آرنا برای کدنویسی وبسایت و اپلیکیشن نیز استفاده کنید. این قابلیت تا زمان نگارش این مطلب، فقط روی Battle Mode فعال است. برای استفاده از آن، روی دکمه «Build apps & Website» کلیک کنید تا به صفحه جدیدی به شکل زیر هدایت شوید.

در این صفحه کافیست با وارد کردن پرامپت مناسب، رقابت دو مدل هوش مصنوعی را برای پاسخگویی به درخواست خود زیر نظر بگیرید.
جدول رتبه بندی Leaderboard در ال ام آرنا چیست؟
برای دسترسی به جدول رتبه بندی، کافی است از منوی سمت چپ رابط کاربری، گزینه «Leaderboard» را انتخاب کنید یا از بالای کارد گفتگو در صفحه اصلی روی گزینه «View Leaderboard» بزنید. با این کار به صفحه جداول رتبهبندی منتقل میشوید که در آن میتوانید با توجه به نوع وظیفه، رتبهبندی مدلهای هوش مصنوعی و امتیاز آنها را مشاهده کنید. ازجمله دستهبندیهای مهم این بخش میتوانیم به موارد زیر اشاره کنیم:
- بخش Text
- بخش WebDev
- بخش Vision
- بخش Text-to-image
- بخش Image Edit
- بخش Search
- بخش Text-to-Video
- بخش Copilot
مشاهده همه جدولها در کنار یکدیگر در بخش «Overview» امکانپذیر است. همانطور که در تصویر زیر میبینید، در هر جدول، امتیاز و رتبه مدلهای هوش مصنوعی در کنار تعداد آراء ثبت شده کاربران و حتی رشد یا افت رتبه مدلها قابل بررسی است. در تصویر زیر، جدول رتبهبندی مربوط به بخش Text را مشاهده میکنید:

با کمی اسکرول صفحه در بخش Overview نیز به بخش Arena Overview میرسید که در آن جایگاه هر مدل در دستهبندیهای مانند Hard Prompts، Coding، Math و ... مشخص شده است.

در صورت تمایل، میتوانید از طریق تبهای بالای صفحه، جدول رتبهبندی هر بخش را به صورت جداگانه مشاهده کنید. در بخش پایینی این صفحه هم نمودارهای بصری بر اساس آمار مدلها رسم شده است.
تنظیمات پروفایل در ال ام آرنا
رابط کاربری lmarena بسیار ساده است و گزینههای زیادی در آن دیده نمیشود. در گوشه سمت چپ و بالای صفحه با کلیک روی گزینه «LMArena» گزینههای زیر را مشاهده کنید:
- بخش About Us
- بخش How it Works
- بخش Join the Team
- بخش Join Discord
- بخش Theme برای تغییر رنگ پسزمینه

علاوه بر این، با استفاده از گزینه New Chat میتوانید یک صفحه گفتگوی جدید ایجاد کنید و با کلیک روی دکمه Leaderboard نیز به جدول رتبهبندی lmarena منتقل میشوید.

در بخش پایینی منوی سمت چپ نیز، آدرس جیمیل خود را در کنار دو گزینه «Send Feedback» و «Report Bugs» مشاهده میکنید. با کلیک روی گزینه «Send Feedback»، به یک صفحه گوگل فرم منتقل میشوید که در آن میتوانید با پاسخ به چند سوال کلی در مورد ال ام آرنا پاسخ دهید. گزینه «Report Bugs» نیز برای گزارش دادن خطاها و مشکلات احتمالی پلتفرم در دسترس کاربران قرار داده شده است.
یادگیری نحوه کار با ابزارهای هوش مصنوعی با فرادرس
در بخشهای قبلی کاملا یاد گرفتیم که ال ام آرنا چیست و چگونه میتوان از آن استفاده کرد. با معرفی و توسعه چتباتهای مبتنی بر هوش مصنوعی مانند ChatGPT، جمنای و ... روشهایی برای استفاده حداکثری از این ابزارها نیز معرفی شدهاند که با یادگیری آنها میتوانیم نتایج بهتری از چتباتها دریافت کنیم. بنابراین، اینکه بدانیم دستورات موردنظر خود را چگونه برای چتباتهای هوش مصنوعی بنویسیم تا پاسخهای کامل و نزدیک به انتظارات خود را دریافت کنیم، از اهمیت بسیار زیادی برخوردار است.
در گام بعدی، نیاز داریم ابزارهای مختلف هوش مصنوعی و کاربردهای مختلف آنها را بشناسیم تا بتوانیم برای انجام سریعتر وظایف مختلف از آنها کمک بگیریم. بنابراین، آشنایی با نحوه پرامپتنویسی در وهله اول و شناخت ابزارهای مختلف در وهله بعدی، کلید استفاده حرفهای از این ابزارها هستند. برای دسترسی به این کلید، میتوانیم از آموزشهای کاربردی و جدید فرادرس استفاده کنیم که توانایی و دانش ما را برای کار با این ابزارها و معرفی ابزارهای مختلف به شکل هدفمندی بالا میبرند.
در فهرست زیر به چند عنوان آموزشی مهم در این خصوص اشاره کردهایم که بعضی از آنها رایگان هستند:
- فیلم آموزش چت با هوش مصنوعی ChatGPT و جمینای با پرامپت نویسی اصولی به همراه گواهینامه از فرادرس
- فیلم آموزش گوگل بارد یا جمینی Gemini همراه با گواهینامه از فرادرس
- فیلم آموزش کار با ChatGPT همراه با گواهینامه از فرادرس
- فیلم آموزش کسب درآمد با هوش مصنوعی Deepseek با یادگیری ۶ حوزه مختلف به همراه گواهینامه از فرادرس
- فیلم آموزش رایگان بهترین ربات های هوش مصنوعی چت بات همراه با توضیح اصول پرامپت نویسی از فرادرس
- فیلم آموزش هوش مصنوعی گراک Grok 3 به همراه کاربردها و کسب درآمد همراه با گواهینامه در فرادرس
- فیلم آموزش هوش مصنوعی برای ساخت و ویرایش عکس با معرفی چند ابزار مختلف همراه با گواهینامه در فرادرس

برای دسترسی به آموزشهای بیشتر میتوانید به صفحات زیر مراجعه کنید:
قابلیت های کلیدی ال ام آرنا چیست؟
ال ام آرنا چندین قابلیت جالب و کلیدی را در اختیار شما قرار میدهد تا پاسخ مدلهای هوش مصنوعی مختلف را به خوبی ارزیابی و با هم مقایسه کنید. ازجمله این قابلیتها میتوانیم به موارد زیر اشاره کنیم:
- مقایسه مدلهای زبانی: ال ام آرنا در جواب کاربر پاسخ دو مدل هوش مصنوعی مختلف را در کنار یکدیگر نمایش میدهد تا بتوانند به پاسخهای مرتبطتر و بهتر رای دهند.
- ارائه جدول رتبهبندی جامع: نتایج آراء کاربران در نهایت در یک جدول رتبهبندی پویا و دائما در حال تغییر در زمان واقعی به کاربران نمایش داده میشود تا ترجیحات کاربران و عملکرد مدلها در یک نگاه قابل مشاهده باشد.
- پوشش طیف گستردهای از مدلها: ال ام آرنا از تعداد زیادی از مدلهای هوش مصنوعی متنباز مانند LLaMA و Mistral پشتیبانی کرده و همزمان بررسی عملکرد چتباتهایی مانند GPT و Claude و Gemini را نیز انجام میدهد.
- تولید نتایج مبتنی بر رای و نظر کاربران: استفاده از ال ام آرنا کمک میکند بدون توجه تبلیغات و بازاریابی گسترده شرکتهای سازنده ابزارهای هوش مصنوعی، بتوانید کاربرد و عملکرد آنها را بر اساس بازخورد واقعی کاربران در زمان واقعی با دقت و شفافیت بالا بررسی کرده و رتبه آنها را ببینید.
- ساخت و ویرایش تصاویر: به کمک گزینه «Image Generation» این ابزار میتوانید با طیف گستردهای از چتباتها تعامل کرده و بر اساس دستورات متنی خود با آنها عکس بسازید یا تصاویر مرجع موردنظر خود را بارگذاری کرده و آنها را تغییر دهید.
در بخشهای قبلی توضیح دادیم ال ام آرنا چیست و چطور میتوان از آن استفاده کرد. در بخش بعدی، قصد داریم نحوه کار آن را با نگاهی تخصصیتر بررسی کنیم. قبل از رفتن به این بخش، پیشنهاد میکنیم با مراجعه به صفحه مجموعه فیلم آموزش چت با هوش مصنوعی از صفر تا صد در فرادرس، نحوه چت با ابزارهای مختلف هوش مصنوعی را یاد بگیرید.
ال ام آرنا چگونه کار میکند؟
چارچوب ارزیابی LMArena بر پایه مدل Bradley–Terry ساخته شده است. روشی آماری که برای تخمین توانایی نسبی رقبا در مقایسههای دوتایی به کار میرود. نکات اصلی این فرآیند را میتوانیم در موارد فهرست زیر خلاصه کنیم:
- «آزمایش کور یا بلایند تستینگ» (Blind Testing): کاربران تا قبل از رأی دادن نمیدانند پاسخ مربوط به کدام مدل است.
- «مقایسه زوجی» (Pairwise Comparison): در هر بار رایگیری، فقط دو مدل با هم مقایسه میشوند تا تصمیمگیری متمرکزتر و منصفانهتر باشد.
- «بهروزرسانی زنده جدول رتبهبندی» (Live Leaderboard Updates): با هر رأی جدید، جدول رتبهها بهطور پویا تغییر میکند.
- «دسترسی عمومی» (Open Access for the Public): همه افراد میتوانند در آزمونها شرکت کرده و به شکلگیری پایگاه داده کمک کنند.
این شیوه جمعسپاری (Crowdsourcing) دیدگاهی انسانیتری را نسبت به معیارهای صرفاً عددی و تستهای استانداردی مانند MMLU یا GSM8K، ارائه میدهد.

دلایل اهمیت ال ام آرنا چیست؟
در گذشته، بنچمارک و ارزیابی عملکرد مدلهای هوش مصنوعی اغلب به شکل ماشینی و مصنوعی انجام میگیرد. به عبارت بهتر، مدلها با مجموعهای از دادههای ثابت آزمایش میشوند و نمره آنها به صورت خودکار محاسبه میشود. این روش با وجود مفید بودن، محدودیتهایی نیز دارند که در فهرست زیر به چند مورد از آنها اشاره شده است:
- «بیشبرازش» (Overfitting): در این حالت، ممکن است مدلها طوری تنظیم شوند که فقط در پنچمارکهای شناخته شده عملکرد مناسبی از خود نشان دهند.
- ارزیابی محدود: در این حالت، مجموعه دادههای استاندارد تنوع و پیچیدگی موقعیتهای واقعی را کامل بازتاب نمیدهند.
- عدم وجود قضاوت انسانی: نمرهدهی خودکار همیشه با برداشت انسان از «پاسخ بهتر» همخوان نیست.
اینجاست که LMArena وارد عمل میشود و جای این خلا را پر میکند. این پلتفرم انسانها را مستقیماً وارد فرایند ارزیابی میکند و ویژگیهایی مانند لحن، وضوح بیان، میزان مفید بودن و حتی خلاقیت پاسخها را در نظر میگیرد. ویژگیهایی که در اغلب موارد توسط پنچمارکهای سنتی نادیده گرفته میشوند. برای آشنایی با مبانی هوش مصنوعی، پیشنهاد میکنیم فیلم آموزش مقدماتی هوش مصنوعی به همراه گواهینامه از فرادرس را مشاهده کنید.
برای آشنایی با مفهوم بیش برازش در یادگیری ماشین نیز میتوانید مطلب زیر از مجله فرادرس را مطالعه کنید.
رشد و سرمایه گذاری در LMArena
LMArena در تاریخ ۳ مه ۲۰۲۳ بهعنوان یک ابتکار دانشگاهی در زیرمجموعه SkyLab دانشگاه برکلی آغاز به کار کرد. این پروژه خیلی زود مورد توجه قرار گرفت و پژوهشگران حوزه هوش مصنوعی و علاقهمندان عمومی را جذب خود کرد. تا ماه مه سال ۲۰۲۵، اثرگذاری پلتفرم lmarena آنقدر زیاد شده بود که توانست ۱۰۰ میلیون دلار سرمایه اولیه جذب کند و ارزشی معادل ۶۰۰ میلیون دلار به دست آورد.
این سرمایهگذاری به رهبری شرکت Andreessen Horowitz (a16z) و UC Investments انجام شد و شرکتهایی مثل «Lightspeed» ،«Felicis Ventures» و «Kleiner Perkins» هم در آن مشارکت داشتند. از این اتفاق میتوانیم نتیجه بگیریم که ارزیابی شفاف و مقیاسپذیر مدلهای هوش مصنوعی، به یکی از نیازهای اساسی این صنعت رو به رشد تبدیل شده است.
نگاهی به نقاط قوت و ضعف LMArena
در بخشهای قبلی یاد گرفتیم ال ام آرنا چیست، چه قابلیتهایی دارد و چگونه میتوان از آن استفاده کرد. در این بخش قصد داریم با نقاط قوت و ضعف این ابزار آشنا شویم.
نقاط قوت LMArena چیست؟
از مهمترین نقاط قوت ال ام آرنا میتوانیم به موارد زیر اشاره کنیم:
- ارزیابی انسانمحور: ال ام آرنا نتایج ارزیابیهای خود را فقط به اعداد و آمارهای ماشینی محدود نمیکند و کیفیت تجربه واقعی کاربران در مورد استفاده از مدلهای هوش مصنوعی در نظر میگیرد.
- پویایی و شفافیت بالا: رتبهبندی مدلها در جدول ال ام آرنا به طور مرتب و به صورت زنده بهروزرسانی میشوند تا کاربران نتایج را به شفاف و متناسب با دادههای تازه مشاهده کنند.
- مشارکت جمعی: هر فردی میتواند در روند ارزیابی مدلهای هوش مصنوعی مشارکت داشته باشد.
- پوشش مدلهای متنوع: ال ام آرنا با نگاهی جامع مدلهای تجاری، متنباز و حتی مدلهای منتشر نشده را در ارزیابیهای خود میگنجاند و پوشش دقیقی از عملکرد این مدلها در اختیار کاربران قرار می دهد.
نقاط ضعف ال ام آرنا
از مهمترین نقاط ضعف LMArena میتوانیم به موارد زیر اشاره کنیم:
- سوگیری در نتایج: اگر بعضی از مدلها بیشتر از بقیه در تستها ظاهر شوند، نتایج ممکن است به نفع آنها تعیین شود که منصفانه نیست.
- اعمال سلیقه در نظرات: با توجه به اینکه ارزیابی در الم آرنا بر اساس نظر کاربران عادی در استفاده از مدلهای هوش مصنوعی صورت میگیرد، سلایق شخصی و فرهنگهای مختلف افراد میتوانند روی نتایج اثرگذار باشند.
- امکان دستکاری سیستم: ممکن است بعضی از کاربران طوری رای بدهند یا مدلها را طوری آماده کنند که فقط امتیاز بالاتر بگیرند حتی اگر کیفیت واقعی پاسخها به اندازه کافی خوب نباشد.
- غیرتخصصی بودن مقایسهها در وظایف خاص: رتبهبندی مدلهای هوش مصنوعی در بستر ال ام آرنا و بر اساس رای کاربران عادی ارائه میشوند. بنابراین، یک مقایسه کلی است و ممکن است نتواند توانایی مدلها در وظایف تخصصی مانند برنامهنویسی یا استدلالی را به درستی نشان دهد.

نگاهی به دورنمای ارزیابی مدلهای هوش مصنوعی
آیندهی ارزیابی هوش مصنوعی به سمتی میرود که مدلها نه صرفا بر اساس اعداد و آزمونهای خشک، بلکه بر اساس تجربه واقعی کاربران سنجیده شوند. lmarena نشان داده است که این روش میتواند منصفانهتر و نزدیکتر به نیازهای مردم باشد. برای نمونه، میتوان از «رأیگیری وزنی» (Weighted Voting) استفاده کرد تا نتایج یک مدل خاص به دلیل حضور بیشترش در تستها به سمت و سوی خاصی متمایل نشود. همچنین، احتمال دارد برای هر حوزه تخصصی مثل نوشتن، برنامهنویسی یا ترجمه، رتبهبندی جداگانه ساخته شود.
افزون بر این موارد، امکان دارد پیگیری تغییرات در طول زمان به ما نشان بدهد که هر مدل در چه مسیری پیشرفت یا پسرفت میکند. از طرف دیگر، اگر رأیگیری به شکل منطقهای و بر اساس زبان و فرهنگهای مختلف انجام شود، نتایج دقیقتر و متنوعتری به دست خواهد آمد. این تغییرات کمک میکند ارزیابی مدلها واقعیتر و نزدیکتر به نیازهای روزمره کاربران باشد.
جمعبندی
در این مطلب از مجله فرادرس آموختیم که ال ام آرنا چیست، چه قابلیتهایی دارد و چگونه میتوان از ویژگیهای مختلف آن استفاده کرد. پلتفرم ال ام آرنا دید ما به بنچمارکهای هوش مصنوعی را تغییر داده است. این پلتفرم با در محوریت قرار دادن قضاوت انسانها در مرکز ارزیابیها به ما کمک میکند بفهمیم مدلها در گفتوگوهای واقعی چطور عمل میکنند و چه عملکردی در پاسخ به نیازهای واقعی کاربران دارند.
با این حال، مانند هر سیستم دیگری، شفافیت و انصاف در نحوه عملکرد آن اهمیت زیادی دارند، بهخصوص وقتی از رقابت بسیار بالای مدلهای متنباز و تجاری برای رسیدن به رتبههای بالا با یکدیگر آگاهی داشته باشیم. با شدت گرفتن رقابت در حوزه هوش مصنوعی، lmarena احتمالاً هم محل رقابت برای برتری مدلها خواهد بود و هم محلی برای آزمایش جامعه کاربران تا ببینیم ما به عنوان یک جامعه، معیار «بهتر بودن» در هوش مصنوعی را چگونه تعریف میکنیم.













جالب و کاربردی بود متشکر
و اینکه قابلیت استفاده از مدل های پولی را هم به صورت رایگان فراهم میکند