آزمایش A/B چیست و چه تاثیری بر توسعه محصول دارد؟


در حوزهی تجزیه و تحلیل سرویسهای تحت وب، «آزمایش A/B» به آزمونی کنترل شده گفته میشود که دارای دو متغیر است و طی آن سعی میگردد بازخورد کاربران در شرایط یکسان نسبت به این دو متغیر سنجیده شود. برای مثال، در یک صفحه با محتوای یکسان دکمهای قرار دارد که افراد با کلیک روی آن به صفحهی پرداخت میروند؛ این دکمه را به گروهی از کاربران با رنگ آبی (متغیر A) و به گروهی دیگر با رنگ سبز (متغیر B) نشان میدهیم و سپس رفتار آنها را بررسی میکنیم و در مییابیم که نمایش دکمه با کدام رنگ توجه مراجعین به سایت را بیشتر جلب کرده است. در نهایت نتیجه حاصله را به صورت قطعی روی سرویس خود اعمال مینماییم.
در ادامهی این مطلب قصد داریم به همین موضوع یعنی آزمایش A/B پرداخته، تاریخچه و اهمیتش را مرور کنیم و تاثیر آن را بر فرآیند توسعهی یک سرویس بررسی نماییم.
مایکروسافت میزبان ایده اولیه آزمایش A/B
در سال 2012 یکی از کارمندان مایکروسافت که روی Bing کار میکرد، ایدهای پیرامون تغییر نحوه نمایش تیتر تبلیغات در میان نتایج این موتور جستجو داشت. توسعه این ایده به تلاش زیادی احتیاج نداشت و تنها چند روز از وقت یک مهندس را میگرفت. اما این تنها فقط یکی از صدها ایده مطرح بود و مدیران برنامه آن را در پائینترین اولویت قرار داده بودند. همین مسائل سبب شد ایدهی ذکر شده بیشتر از ۶ ماه راکد بماند تا عاقبت یک مهندس بررسیش کرد، فهمید هزینهی کدنویسی آن بسیار ناچیز است و در نهایت به منظور ارزیابی تاثیرش یک آزمایش A/B راهاندازی کرد. چند ساعت پس از شروع آزمون، شیوهی جدید نمایش تبلیغات درآمدی به مراتب فراتر از انتظار را رقم زد، تا جایی که باور این درآمد به سختی امکان پذیر بود. در چنین شرایطی که اتفاقی دور از انتظار رخ میدهد، معمولاً گمانهزنی میشود که یک باگ یا خطا در سیستم وجود دارد؛ اما این بار هیچ باگی در کار نبود.
تجزیه و تحلیل نشان داد که تغییرات انجام شده، بهطور عجیبی درآمد را تا 12% افزایش داده است. عددی که سبب میشد تنها در ایالات متحده درآمد سالیانه بینگ به ۱۰۰ میلیون دلار برسد، آنهم بدون اینکه به معیارهای کلیدی تجربهی کاربری این محصول صدمهای وارد شده باشد. این بهترین ایده درآمدزایی در تاریخ بینگ بود، اما تا پیش از اینکه مورد آزمایش قرار گیرد، ارزش آن نادیده گرفته شده بود.
این مثال نشان میدهد که تشخیص پتانسیل ایدههای جدید چقدر سخت است. ضمناً یادآور میشود که داشتن توانایی اجرای آزمایشهای متعدد و ارزان، تا چقدر حائز اهمیت است؛ مسئلهای که کسب و کارهای زیادی رفته رفته در حال درک هستند.
امروزه مایکروسافت و چندین شرکت برتر دیگر مثل آمازون، Booking.com، فیسبوک و گوگل هرساله با تستهای زیادی که میلیونها کاربر را به کار میگیرد، بیش از 10000 آزمایش آنلاین انجام میدهند. استارتآپها و شرکتهایی که پایه دیجیتالی ندارند (مثل Walmart، Hertz و Singapore Airlines) هم به طور مداوم اما در مقیاس کوچکتری این تستها را انجام میدهند. این سازمانها فهمیدهاند که رویکرد «با همهچیز آزمایش کن» بهطور شگفتانگیزی بازدهیشان را افزایش میدهد. برای مثال به بینگ کمک کرد هر ماه دهها مورد از تغییراتی را شناسایی کند که هر یک درآمد حاصل از هر جستجو را ۱۰ الی ۲۵ درصد افزایش میدادند. این رشد درآمد به همراه دگرگونیهایی که ماهیانه منجر به افزایش رضایتمندی کاربران میشدند، بزرگترین دلیل سود دهی بینگ بودند؛ ضمناً همین موارد سبب شدند سهم بینگ در جستجوهایی که آمریکاییها توسط کامپیوترهای شخصی خود انجام میدادند ۲۳٪ افزایش یابد؛ بد نیست بدانید میزان این رشد در سال ۲۰۰۸ تنها ۹٪ بوده است و تا به حال چنین روند صعودی در طی یکسال رخ نداده بود.
آزمایشهای کنترل شده
در دورهای که برای کسب و کارها بهرهگیری از وب بدل به یک مسئله حیاتی شده است، آزمایشهای آنلاین پیچیدهای که روی کاربران صورت میگیرن،د باید از یک فرآیند اجرایی استاندارد پیروی کنند. اگر شرکتی برای اجرای صحیح این آزمایشها اقدام به توسعهی زیرساختهای نرمافزاری و مهارتهای سازمانی لازم کند، به احتمال زیاد قادر خواهد بود نه تنها بسیار ارزان و راحت ایدههای مناسب برای وبسایت خودش را تشخیص دهد، بلکه به همین شیوه مدلهای بالقوه کسب و کار، استراتژیها و محصولات دارای پتانسیل بالا و کمپینهای بازاریابی اثرگذار را نیز شناسایی کند.
آزمونهای کنترل شده استاندارد میتوانند تصمیم گیری را بدل به یک فرآیند علمی شهود محور نمایند و به سادگی شما را از تصمیمات لحظهای دور سازند. بدون این دست از آزمونها، ممکن است هرگز یپشرفت رخ ندهد و بسیاری از ایدههای بدی اجرایی شوند که منجر به شکست قطعی خواهند شد؛ هدر رفت منابع نیز از دیگر عواقب این روند خواهد بود.
علیرغم آنچه گفته شد، بازهم شاهد آن هستیم که بسیاری از سازمانها از جمله شرکتهای بزرگ فعال در حوزهی دیجیتال، آزمودن ایدههای جدید خود را به صورت تصادفی و اتفاقی انجام میدهند و نمیدانند چطور باید برای آنها آزمایشهایی صحیح و علمی پیادهسازی کنند. در ادامه به نتایج تحقیق و تجربیاتی ۳۵ ساله در همین زمینه خواهیم پرداخت.
اهمیت آزمایش A/B
در یک آزمون A/B آزمایش کنندگان دو نوع تجربه را برای کاربر فراهم میکنند. تجربه «A» که روشی کنترل شده است، در اصل سیستم فعلی محسوب میشود که کاربران هم اکنون با آن سر و کار دارند و در اصطلاح از آن با عنوان «رقیب» نیز یاد میشود. تجربه «B» شامل راه حلی میگردد که گمانه زنی میشود میتواند چیزی را در سیستم کنونی بهبود دهد؛ به این راهحل اصطلاحاً «چالش» نیز میگویند.
تهر یک از کاربران به صورت اتفاقی با این تجربهها درگیر میشوند و بازخوردهای آنها بر اساس شاخصههایی کلیدی سنجیده شده و با یکدیگر مقایسه میشوند. (آزمایشهای انحصاری A/B/C و آزمایشهای چند متغیره با متغیرهای مختلف، آزمایشهای متضاد یکدیگر، تشخیص بیشتر از یک راه اصلاح یا درمان برای متغیرهای مختلف در یک بازه زمانی یکسان.) این اصلاح یا ویرایش آنلاین میتواند شامل موارد مختلفی مثل افزودن یک ویژگی جدید، ایجاد یک تغییر در رابط کاربری (مثل یک طرح جدید)، به وجود آوردن یک تغییر backend (مثل بهبود یک الگوریتم، مثل توصیه کتاب در آمازون)، یا ارائه یک طرح کسبوکار متفاوت (مثل پیشنهاد یک حملونقل رایگان) باشد. شرکتهای عملیاتی هرچقدر بیشتر پیرامون فروش، استفاده مجدد، میزان کلیک، یا میزان زمانی که کاربران در یک سایت میگذرانند، مراقبت به خرج دهند، به همان اندازه هم میتوانند از آزمایش A/B برای یادگیری چگونگی بهبود عملکردشان استفاده کنند.
هر شرکتی که روزانه حداقل چند هزار کاربر فعال داشته باشد، میتواند از مزایای آزمایشهای A/B بهرهمند شود. دسترسی به گروه بزرگی از مشتریان، به این معناست که میتوانید آنها را در معرض تجربههای کاربری متفاوتی قرار دهید و سپس به صورت خودکار حجم گستردهای داده راجع به نحوه تعامل آنها با وبسایت یا اپلیکیشن خود جمعآوری کنید. با قیاس دادههای مربوط به هر تجربه و بررسی آنها، قادر خواهید بود خیلی سریع ایدههای متعددی را سنجیده و ارزشیابی نمایید. ضمن اینکه به این ترتیب پیادهسازی آزمونها و تجربههای کاربری متفاوت هزینهی چندانی را به شما تحمیل نخواهد کرد. سازمانها بر همین اساس قادر شدهاند اجرائیات خود را سرعت بخشند، شکستها را در مقیاس کوچک تجربه کنند و برای رسیدن به موفقیت به سرعت تغییر مسیر دهند.
تغییرات کوچک میتوانند تأثیرات بزرگی بر جای بگذارند
بیشتر مردم تصور میکنند هر چه سرمایهگذاریهای کلانتری انجام دهند، اثرات و سودهای بزرگتری را شاهد خواهند بود. اما در دنیای آنلاین چنین طرز فکری کاملاً اشتباه است، در این دنیا شما زمانی موفق خواهید بود که تعداد زیادی تغییر کوچک را به درستی انجام دهید. در دنیای کسب و کار نیز اگرچه تحولات بزرگ و ایدههای ساختار شکن مورد ستایش هستند، اما این ستایشها تنها زمانی رخ میدهند که صدها بهبود کوچک و جزئی را اعمال نمایید.
در راستای آنچه ذکر شد بد نیست به یک مثال بپردازیم. سال 2008 یکی از کارمندان دفتر انگلستان مایکروسافت پیشنهادی ساده ارائه داد که مورد توجه قرار گرفت.
وی پیشنهاد کرد هر بار کاربری در صفحهی سایت MSN روی لینک سرویس ایمیل «هاتمیل» (Hotmail) کلیک میکند، پنجرهی مربوط به این سرویس به جای باز شدن در همان صفحه در یک تب جدید باز شود. آزمایش A/B ذکر شده، با حدود 900,000 نفر کاربر انجام شد و نتایج دلگرمکنندهای را در پی داشت. با احتساب میزان کلیکهایی که در صفحه اصلی MSN صورت گرفت مشخص شد که حجم تعامل کاربرانی که هاتمیل را باز کردند تا 8.9% افزایش یافت. (تأثیر بیشتر تغییرات بر روی میزان تعامل کاربران چیزی کمتر از 1% بود) با این وجود بازهم باید ایده مورد بحث و بررسی قرار میگرفت، چراکه بهطور همزمان سایتهای کمی لینک را در برگه جدید باز میکردند، همین باعث شد که این تغییر فقط در انگلستان انجام شود.
در ژوئن سال 2010 میلادی (اوایل تابستان 1389 شمسی) آزمایش با شرکت 2.7 میلیون نفر کاربر آمریکایی انجام شد و نتایج مشابهی را به دنبال داشت، موفقیتآمیز بودن مرحله دوم آزمایش آنهم در شرایط و بازه زمانی و مکانی متفاوت، منجر به اعمال آن تغییر در سراسر جهان شد.
باز کردن لینکها در تب جدید یکی از بهترین روشهای افزایش تعامل کاربران است که مایکروسافت آن را معرفی کرده. این در حالی است که برای اعمال این تغییر تنها کاری که باید انجام داد عوض کردن چند خط کد است. امروزه تعدادی از وبسایتها، از جمله فیسبوک و توییتر برای افزایش تعامل کاربرانشان از این تکنیک استفاده میکنند.
آزمایش مایکروسافت یک تجربه منحصر به فرد است. برای مثال آزمایش آمازون نشان داد که تغییر مکان خدمات کارت اعتباری از صفحه اصلی به صفحه سبد خرید درآمد را تا دهها میلیون دلار در سال افزایش میدهد. واضح است که سرمایهگذاریهای کوچک میتوانند نتایج خوب و بازدهیهای بزرگی را به بار بیاورند.
ناگفته نماند در برخی موارد سرمایهگذاریهای بزرگ نتیجهای ایدهال را در پی دارند اما نمیتوان ریسک این سرمایهگذاریها را نیز نادیده گرفت. مثلاً بینگ پیش از این نتیجهی حاصل از شکست یک سرمایهگذاری بزرگ را تجربه کرده است. این موتور جستجو تلاش کرد با شبکههای اجتماعی ترکیب شود تا هنگامیکه یک کاربر از آن بهره میگیرد، در کنار نتایج جستجو و در قابی مجزا، اطلاعات استخراج شدهی مرتبط از توییتر و فیسبوک نیز به نمایش در آیند. توسعهی این ویژگی برای مایکروسافت ۲۵ میلیون دلار هزینه در پی داشت اما تاثیری اندکی روی درآمد و میزان تعامل کاربران با خدمات ارائه شده گذاشت.
آزمایش A/B و کمک به تصمیمگیری سرمایهگذاران
مدیران میتوانند با استفاده از تستهای آنلاین میزان سرمایهگذاری برای بهبود هرچه بهتر را تخمین زده و تعیین کنند. این تصمیمی بود که مایکروسافت بعد از پی بردن به کاهش زمان تعلل برای نمایش نتایج در Bing اتخاذ کرد. قطعاً نمایش سریعتر بهتر است، اما آیا میتوان میزان بهبود را محاسبه و تعیین کرد؟ 3 نفر، 10 نفر، 50 نفر؟ چند نفر باید برای افزایش بهبود عملکرد روی آن کار کنند؟
شرکت برای پاسخ دادن به این سؤالات مجموعهای از آزمایشهای A/B را انجام داد. نتیجه آزمایشها نشان داد که هر 100 میلیثانیه اختلاف در عملکرد، بهاندازه 0.6% بر روی درآمد تأثیر میگذارد. به این ترتیب یک افزایش سرعت تا 100 میلیثانیه میتواند ارزشی برابر با افزایش درآمد سالانه 18 میلیون دلار را به دنبال داشته باشد که برای سرمایهگذاری بر روی یک گروه بزرگ کافی است.
ایجاد یک قابلیت بزرگ
گفته میشود که بیش از یک قرن پیش جان وانامیکر (John Wanamaker)؛ صاحب یک فروشگاه بزرگ یک اصطلاح بازاریابی را نهادینه کرده است: «نیمی از پولی که صرف تبلیغات میکنم به هدر میرود، اما مشکل اینجاست که نمیدانم کدام نیمه». درباره ایدههای جدید چیزهایی فهمیدیم، اینکه اکثریت قریب بهاتفاق در آزمایشهایشان شکست میخورند و حتی متخصصان هم درست تشخیص نمیدهند که برای کدامیک از آنها پول پرداخت کنند. در گوگل و بینگ تنها حدود 10 الی 20 درصد از آزمایشها نتیجه مثبت دارند. در مایکروسافت جمعاً یکسوم آزمایشهای نتیجه مثبت، یکسوم از آنها نتیجه خنثی یا بیطرف و یکسوم هم نتیجه منفی دارند. همه این آمار و ارقام یادآور ضربالمثل قدیمی «نابرده رنج گنج میسر نمیشود» است و اینکه شرکتها باید برای رسیدن به بهترین نتیجه، آزمایشهای مختلفی را باید انجام دهند که شاید نتیجه خیلی از آنها هم برایشان خوشایند نباشد.
از حالات جالب یا متفاوت بهراسید
هر حالتی که جالب یا متفاوت به نظر میرسد، معمولاً اشتباه است. با انجام آزمایشهای مختلف میتوانید مطمئن شوید که انجام تغییرات نه به منزله تحقیر است و نه اثرات غیرمنتظره. در بینگ حدود 80% از تغییرات پیشنهاد شده، ابتدا بهعنوان آزمایشهایی که تحت نظارت و کنترل قرار گرفتهاند اجرا میشوند. گاهی که بعضی از اشکالات کم ریسک برطرف میگردند، تغییرات سطح ماشین درست مانند آپگرید کردن و ارتقا دادن سیستمعامل از بین میروند و بایستی از اول اعمال شوند.
از نظر علمی انجام هر یک از آزمایشهای پیشنهادی نیازمند یک زیرساخت است. زیرساختها و نیازهایی مثل ابزار دقیق (برای ثبت چیزهایی مثل کلیکها، حرکات ماوس و زمان رویدادها)، خطوط اطلاعات و کارشناسان اطلاعات. استفاده از چند ابزار و سرویس شخص ثالث روند را برای تکرار آزمایشها آسانتر میکند، اما اگر میخواهید بعضی چیزها را افزایش دهید باید این قابلیت را بهطور تمام و کمال با فرآیندتان ادغام کنید. این کار باعث کاهش هزینههای هر آزمایش و افزایش قابلیت اطمینان آن میشود. از طرفی هم عدم داشتن زیرساخت هزینههای جانبی و متفرقه آزمایشها را بالا نگه خواهد داشت و میتواند مدیران بالادستی را نسبت به دعوت برای آزمایشهای دیگر بیانگیزه و بیمیل کند.
مدلهایی که میتوان تیمهای آزمون A/B را بر مبنای آنها شکل داد
مایکروسافت نمونهای از یک زیرساخت قدرتمند آزمایشی ارائه داده است که میتواند تا حد زیادی مفید واقع شود. گروه آزمایش و تجزیهوتحلیل این شرکت از 80 نفر کارمند تشکیل شده است که هرروز روی صدها آزمایش آنلاین از محصولات مختلف کار و برای اجرای آنها تلاش میکند. این محصولات شامل مواردی همچون بینگ، کورتانا، اکسچنج، آفیس، اسکایپ، ویندوز، ایکس باکس و ... است.
در طی هر آزمایش همه تغییرات یا ویژگیهای جدید برای صدها هزار یا حتی دهها میلیون نفر اعمال و نشان داده میشود. این گروه روی همه تستهای یادشده تجزیه و تحلیلهای آماری دقیق انجام میدهد و بهطور خودکار کارتهای امتیازی تولید میکند که از طریق آنها صدها هزار معیار و ویژگی را چک کرده و تغییرات مهم را علامتگذاری میکند. کارکنان بخش آزمایش شرکت میتوانند به سه روش سازماندهی شوند:
مدل متمرکز
در این رویکرد تیمی از دانشمندان و محققان داده (Data) برای کل شرکت کفایت میکنند. منفعت و سودشان مدل مذکور در این است که بتوانند تمرکزشان را بر روی پروژههای بلندمدتی مثل ساخت ابزارهای بهتری برای انجام آزمایش A/B و توسعه الگوریتمهای آماری پیشرفتهتر بگذارند.
یکی از بزرگترین معایب این است که واحدهای کسبوکار از گروههایی استفاده میکنند که امکان دارد اولویتهای متفاوتی داشته باشند و با این اولویتهای متفاوت میتوانند ناسازگاریها و کشمکشهای طی تخصیص منابع و هزینهها را کنترل کنند. یک نگرانی دیگر این است که امکان دارد دانشمندان و محققان داده، نسبت به معامله احساس خوبی نداشته باشند و با اهداف و حوزههای کاری واحدها مطابقت کمتری پیدا کنند. این مشکلات احتمالی میتوانند کار اتصال به مشتریان و به اشتراکگذاری اطلاعات و استراتژیهای مربوطه با آنها را دشوارتر کند.
مدل انحرافی
یک رویکرد دیگر توزیع دانشمندان و محققان داد در سطح واحدهای تجاری مختلف است. مزیت مدل دوم (مدل انحرافی) این است که دانشمندان داده میتوانند در هر یک از حوزههای کاری این کسبوکارها متخصص و ماهر شوند. بزرگترین مشکلش هم عدم وجود یک مسیر شغلی واضح و روشن برای این متخصصان است و امکان دارد این مسئله منجر به عدم دریافت بازخورد از همکاران و مربیانی شود که به توسعه کارشان کمک میکنند. همچنین ممکن است آزمایشها در واحدهای فردی قدرت توجیه ساخت ابزارهای موردنیاز را نداشته باشند.
مدل مرکز ممتاز
مورد سوم داشتن دانشمندان داده در یک عملیات متمرکز و دیگران در واحدهای کسبوکار مختلف است. این همان رویکردی است که مایکروسافت استفاده میکند. یک مرکز عالی اغلب اوقات تمرکزش را برای طراحی، اجرا و تحلیل آزمایشهای کنترلشده صرف میکند. این امر موجب کاهش قابلتوجه زمان و منابعی میشود که طراحی، اجرا و تجزیهوتحلیل برای ساخت یک پلتفرم آزمایشی و ابزارهای مربوطه در سراسر شرکت به آن نیاز دارند. انتشار بهترین تمرینهای آزمایشی میتواند از طریق سازماندهی کلاسهای میزبانی (hosting)، آزمایشگاهها و کنفرانسها صورت بگیرد.
هیچ مدلی صرفاً درست یا غلط نیست. شرکتهای کوچک معمولاً با مدل متمرکز آغاز به کار میکنند، یا از یک ابزار شخص ثالث استفاده میکنند و بعد از اینکه کمی بزرگتر شدند و رشد کردند به یکی دیگر از مدلها تغییر مسیر میدهند.
تعریف موفقیت
هر گروه کاری باید برای آزمایشهایش یک معیار ارزیابی مناسب داشته باشد که با اهداف استراتژیکش هماهنگ باشد. ممکن است ساده به نظر برسد اما تعیین معیارهای کوتاهمدت ازلحاظ پیشگویی و قضاوت بهتر از معیارهای طولانیمدتی است که عواقب سختی در پی دارند. بااینحال بسیاری از شرکتها اشتباه میکنند و این را با یک «معیار ارزیابی کلی» (OEC) همسطح میبینند که در نهایت به بحثها و هماندیشیهای بزرگ داخلی کشیده میشود.
رسیدن به یک معیار ارزیابی مناسب نیازمند همکاری بین مدیران ارشدی است که با درک استراتژی و تجزیهوتحلیل دادهها سعی بر کشف معیارها و تعادل میان آنها دارند. البته اجرای OEC یکبار برای همیشه کافی نیست و بهتر است حداقل سالی یکبار انجام بشود. همانطور که آزمایشها و تجارب بینگ نشان میدهند، رسیدن به OEC کار سادهای نیست. این اهداف مهم و بلندمدت موجب افزایش نیازهای موتور جستوجو و درآمد حاصل از تبلیغات در آن میشود. جالب اینجاست که کاهش ارتباط نتایج جستوجو با موضوع جستوجو شده توسط کاربران، آنها را وادار به جستوجوی بیشتر میکند که این خود موجب افزایش میزان جستوجوها و کلیک بیشتر روی تبلیغات و نهایتاً افزایش درآمد میشود.
واضح است که این دستاوردها عمر کوتاهی خواهند داشت، چراکه با این ترفندها کاربران به دلیل تأخیر در رسیدن به نتیجه مناسب این موتور جستوجو را ناکارآمد میبینند و تصمیم به استفاده از موتور جستوجوی دیگری میگیرند. بنابراین کدام معیار کوتاهمدت میتواند میزان جستوجو و درآمد حاصل از آن و درنتیجه بهبودهای طولانیمدت را پیشبینی کند؟
یکی دیگر از موارد مهم تجزیهوتحلیل اجزای یک OEC و دنبال کردن آنها است. چراکه معمولاً از این طریق میتوان به چرایی موفقیتآمیز بودن ایدهها پی برد. برای مثال اگر تعداد کلیکهای OEC مفید و قابلقبول باشند، اندازهگیری و پیدا کردن بخشهای مختلف صفحه که روی آن کلیک شده کار سختی است. به معیارهای سختگیرانه مختلف نگاه کنید، دلیل سختگیرانه بودن این معیارها کمک به گروه برای کشف اطلاعاتی راجع به این است که آیا آزمایشها بر فضای دیگری تأثیرات غیرمنتظرهای دارند یا خیر؟
از دادههای با کیفیت پایین استفاده نکنید
اگر مردم نسبت به نتایج آزمایش بیاعتماد باشند، میزان خوب یا بد بودن معیارهای ارزیابیتان هم اهمیتی ندارد. گرفتن امتیاز آسان است، اما گرفتن امتیازی که واقعی و مورد اعتماد باشد کار سختی است. باید زمان و منابعی را هم به ارزیابی سیستم آزمایشی اختصاص دهید. یکی از روشهای اجرای دقیق آزمایش A/B این است که بعضی چیزها را دوباره خودتان تست کنید و مطمئن شوید که حدود 99.5% از مواقع سیستم هیچ تفاوت آماری قابلتوجهی را نمیشناسد. این رویکرد به مایکروسافت کمک کرد که صدها آزمایش نامعتبر و برنامه کاربردی نامناسب را تشخیص بدهد.
ما یاد گرفتهایم که بهترین دانشمندان داده شکاک و بدبین هستند و قانون «Twyman» که میگوید: «هر حالتی که جالب یا متفاوت به نظر برسد اشتباه است» را دنبال میکنند. نتایج شگفتانگیز باید تکرار شوند تا مطمئن شویم که معتبرند و تردید مردم را از بین میبرند.
برای مثال شرکت بینگ در سال 2013 مجموعهای از آزمایشها را اجرا کرد که با رنگها و متنهای مختلفی بر روی صفحه نتایج جستوجو در بخشهایی از قبیل عناوین، لینکها و توضیحات ظاهر میشدند. تغییرات رنگ با ظرافت و دقت بالایی انجام شده بود و برخلاف چیزی که انتظار میرفت نتایج مثبتی در پی داشت. این تغییرات نشان دادند کاربرانی که عناوین را به رنگهای سبز و آبی کمی تیرهتر دیده بودند و توضیحات برایشان به رنگ سیاه کمی روشن نشان داده شده بود، در یک بازه زمانی نسبت به دیگران در جستوجویشان موفقتر بودند و سریعتر به نتیجه دلخواهشان رسیدند.
از آنجا که تغییر رنگها بهسختی قابل تشخیص و درک است، نتایج توسط افراد و متخصصان رشتههای مختلف ازجمله کارشناسان طراحی با شک و شبهه زیادی دیده شده بود. (مایکروسافت هم سالیان سال مثل شرکتهای دیگر برای تعیین طراحیها و رنگهای استاندارد بهجای استفاده از کاربران واقعی از طراحان ماهر استفاده کرد.) بنابراین آزمایش در سطح بزرگتری و با 32 میلیون کاربر تکرار شد و نتایجی مشابه با نتایج آزمایش اول دریافت کرد. تجزیهوتحلیل نتایج اجرای تغییرات برای همه کاربران نشان داد که تغییر رنگ میتواند درآمد را تا رقمی برابر با سالانه 10 میلیون دلار تغییر دهد.
نتیجهگیری
اگر میخواهید نتایج آزمایشهایتان قابلاعتماد باشد باید اطمینان داشته باشید که از دادههایی با کیفیت بالا استفاده میکنید. شاید لازم باشد که دادههای نامناسب و بیکیفیت را حذف کنید، خطاها را شناسایی کنید یا ... . برای انجام این کارها میتوانید از رباتهای اینترنتی استفاده کنید. در بینگ بیشتر از 50% درخواستها توسط رباتها ارسال میشود.
مدیران باید حواسشان باشد که برخی از بخشها تأثیرات بیشتر یا کمتری بر هر آزمایش دارند، به این پدیده آماری «heterogeneous treatment effects» میگویند. در بعضی از موارد یک بخش خوب یا بد میتواند آنقدر بر نتایج آزمایش اثر بگذارد و آن را منحرف کند که نتیجه کلی بهطور کامل فراموش شود. این اتفاق در یکی از آزمایشهای مایکروسافت هم افتاد؛ وقتیکه کاربران اینترنت اکسپلورر 7 به خاطر یک خطای جاوا اسکریپت نمیتوانستند روی نتایج جستوجوی بینگ کلیک کنند و نتیجه کلی آزمایش که در صورت عدم وجود این مشکل مثبت بود منفی شمرده شد. پلتفرم یک آزمایش باید این بخشهای غیرعادی را شناسایی کند، در غیر این صورت ممکن است آزمایشکنندگان با در نظر گرفتن میانگین تأثیرات یک ایده خوب را بد تلقی کنند و آن را از دست بدهند.
ممکن است در صورت استفاده از روشهای کنترل و درمان یک آزمایش در آزمایشهای دیگر، نتایج شکل جانبدارانهای به خود بگیرند. این تمرین به «تأثیرات انتقال به صفحه بعد» (carryover effects) ختم میشود که بر اساس آن، رفتار آینده تجربه مردم در یک آزمایش تغییر خواهد کرد. شرکتها برای جلوگیری از این پدیده باید کاربران آزمایشهای مختلف را باهم مخلوط کنند و همیشه از مجموعه کاربران خاصی استفاده نکنند.
باورهای غلط مدیران
بعضی از مدیران اعتقاد اشتباهی دارند که میگوید تمام کاری که باید انجام دهند فقط ایجاد پایداری و همبستگی است.
واضح است که مطالعات شهودی و تحقیق نمیتواند علیت را مشخص کند. این مسئله در رشته پزشکی بهخوبی شناخته شده است. به همین دلیل است که اداره غذا و داروی ایالاتمتحده آمریکا میگوید که شرکتها برای اثبات ایمن و مؤثر بودن داروهایشان تحت آزمایشهای تصادفی بالینی قرار بگیرند. این آزمایشها شامل متغیرهای زیادی میشوند که درک علیت را سختتر میکنند. با انجام این قبیل آزمایشها تفکیک نتایج و تفسیر آنها کار سختی نیست. بهصورت ایدئال یک آزمایش باید آنقدر ساده باشد که روابط بین علت و معلول بهراحتی قابل درک کردن باشند. یکی دیگر از عیبهای طراحیهای پیچیده این است که آزمایشها را در مقابل اشکالات آسیبپذیرتر میکنند. اگر احتمال به وجود آمدن مشکل جدی در هر ویژگی جدید به 10% برسد (که منجر به ناتمام گذاشتن آن تست میشود)، احتمال ایجاد مشکلات خطرناک و مهلک برای تغییراتی که 7 ویژگی را در بر دارد، به 50% میرسد.
آیا میتوانید یکی از علتهای دیگر را تشخیص دهید اما دلیلش را نمیدانید؟ آیا باید سعی کنید که مکانیسم علت را درک کنید؟ کوتاهترین جواب برای این سؤالات بله است.
بین سالهای 1500 تا 1800، حدود 2 میلیون ملوان به خاطر بیماری اسکوروی جان خود را از دست دادند. حالا ما میدانیم که اسکوروی یک معلول برای علت عدم وجود ویتامین سی در رژیم غذایی است که ملوانها با عدم مصرف میوه در سفرهای طولانیمدتشان آن را آزمایش کردند.
دکتر جیمز لیند؛ جراح نیروی دریایی سلطنتی در سال 1747 تصمیم گرفت که برای آزمایش شش روش درمانی احتمالی یک آزمایش انجام دهد. در یک سفر دریایی به بعضی از ملوانها تعدادی لیمو و پرتقال داد و به بقیه ملوانها هم داروهایی مشابه سرکه. آزمایش نشان داد که مرکبات میتوانند از ابتلا به بیماری اسکوروی جلوگیری کنند، این در حالی بود که هنوز هیچکس علتش را نمیدانست.
دکتر لیند طبق یک باور اشتباه معتقد بود که اسیدیته و ترشی میوهها علت درمان اسکوروی بودند و تلاش کرد که با گرم کردن آب مرکبات و افزایش غلظتشان (که باعث از بین رفتن ویتامین سی میشود)، یک داروی فاسد نشدنی بسازد. این مسئله تا 50 سال بعد بیشتر طول نکشید، وقتیکه آبلیموهای حرارت ندیده به جیره غذایی روزانه ملوانها اضافه شده بود و نهایتاً نیروی دریایی سلطنتی موفق شد اسکوروی را از میان کارکنان کشتی ریشهکن کند. اگر دکتر لیند آزمایشش را بهصورت کنترلشده هم با آبلیموی حرارت دیده و هم آبلیموی حرارت ندیده انجام میداد، احتمالاً داروها میتوانستند زودتر از این ساخته شوند و جان افراد زیادی را نجات دهند.
نتیجهگیری از آزمایش دکتر لیند
بنابراین باید یادآوری کنیم که همیشه نباید به دنبال این باشید که چرا و چگونه از چه دانشی استفاده کنید. اما وقتیکه پای کاربران و انگیزههای آنها در میان باشد این قاعده سختتر میشود. کاربرانی که ممکن است انگیزههایشان از تصمیمهایشان متفاوت باشد. در بینگ بعضی از بزرگترین پیشرفتهای غیرمنتظره بدون وجود هیچ نظریه اصولی و اساسی ساخته شده بود.
دنیای آنلاین اغلب بهعنوان فضایی پرتلاطم و پرخطر نشان داده میشود اما آزمایشهای کنترلشده میتوانند در هدایت آن به ما کمک کنند. وقتیکه جوابها واضح و روشن نیستند، یا مردم نظرات متفاوت و متضادی دارند، یا اینکه درباره ارزش یک ایده مطمئن نیستند، این آزمایشها میتوانند ما را در مسیر درستی قرار دهند.
چندین سال پیش بینگ در حال بحث و بررسی پیرامون ساخت آگهیهای بزرگتری بود که تبلیغاتچیان بتوانند لینکهایی را به صفحات فرود (landing pages) ویژهشان اضافه کنند. برای مثال یک شرکت حسابداری میتواند بهجای اینکه همهچیز را در صفحه اصلی قرار دهد، کاربران را به لینکهایی مثل «درباره ما» و «قیمت خدمات» هدایت کند. اشکالی که وجود داشت این بود که آگهیها و تبلیغات بزرگتر فضای بیشتری از صفحهنمایش را اشغال میکنند و موارد بیشتری را نشان میدهند. موارد شناختهشدهای که موجب افزایش نارضایتی کاربران میشوند.
مردم فرض را بر این میگذارند که این ایده جدا بوده است. بنابراین گروه بینگ در عین اینکه فضای اختصاص دادهشده به محتوای آگهیها از کل صفحه را حفظ میکرد، با افزایش اندازه آگهیها آزمایش را انجام داد و همین مسئله باعث شد که تعداد کمی از آنها نمایش داده شوند. در نهایت نتیجه آزمایش نشان داد که نمایش آگهیهای کمتر اما بزرگتر منجر به بهبود بیشتر میشود. بهبودی شامل افزایش درآمد سالانه تا بیش از 50 میلیون دلار، آنهم بدون آسیب رساندن به جنبههای کلیدی تجربه کاربر.
اگر میخواهید ارزش واقعی یک آزمایش را بفهمید، به تفاوتهای بین نتایج مورد انتظار و نتایج واقعی آن نگاه کنید. اگر انتظار داشتید اتفاقی بیفتد و آن اتفاق افتاده است، پس چیز زیادی یاد نگرفتهاید. اگر انتظار داشتید اتفاقهایی بیفتد و نیفتادهاند، میشود به این برداشت رسید که چیزهای مهمی یاد گرفتهاید. اما اگر انتظار داشتید یک اتفاق جزئی بیفتد و نتایج شگفتانگیز بودند و منجر به موفقیتی بزرگ شدهاند، چیزهای خیلی مهم و با ارزشی یاد گرفتهاید.
اگر مطلب بالا برای شما مفید بوده است، شاید این آموزشها نیز برایتان کاربردی باشند.
- همهچیز درمورد فرایندهای توسعه محصول جدید
- مفهوم حداقل محصول پذیرفتنی (Minimum Viable Product) چیست؟
- آموزش اصول مدیریت
^^