کامپیوترها یاد می‌گیرند بهتر از انسان همکاری کنند

برای اولین بار کامپیوترها خودشان را آموزش داده‌اند که چگونه با یکدیگر در بازی‌هایی که هدف رسیدن به بهترین نتیجه ممکن برای همه بازیکنان است همکاری کنند. این شاهکار بسیار سخت‌تر از آموزش هوش مصنوعی برای پیروزی در یک بازی برد-باخت مانند شطرنج یا چکرز است، پژوهشگران می‌گویند. این پیشرفت می‌تواند به افزایش همکاری انسان ماشین کمک کند.

بیست سال پیش یک ابر کامپیوتر، گری کاسپاروف، قهرمان شطرنج جهان را شکست داد. پس از آن پژوهشگران هوش مصنوعی برنامه‌های را توسعه دادند که انسان را در بازی‌هایی مانند گو و پوکر که نیاز به محاسبه داشت را شکست داد. اما این بازی‌ها تمام برنده یا تمام بازنده بودند که در آن یک بازیکن می‌برد و دیگر می‌باخت. پژوهشگران کار کمتری روی بازی‌های همکاری که هدف برای همه بازیکنان کار کردن با یکدیگر برای بهینه سازی خروجی تمام افراد درگیر بود داشتند. حتی روی بازی‌هایی که در آن تقاضاهای منطقی که یک بازیکن می‌توانست به وسیله «خیانت» به بازیکنان دیگر کارآییش را افزایش دهد کمتر کار شده بود.

در چنین رقابت‌هایی از جمله چیکن ( بازی‌ای که دو اتوموبیل به طرف هم حرکت می‌کنند و در آخرین دقیقه از مسیر منحرف می‌شوند) و بازی کلاسیک معمای زندانی، که در آن دو فردی که مسئول یک جنایت هستند اگر هر دوی آنها به هم وفادار بمانند و جرمشان را انکار کنند حکم یکسانی دارند (مانند یک سال زندان). اگر یک زندانی به دیگری خیانت کند خودش آزاد می‌شود در حالی که برای دیگری ۳ سال زندان بریده می‌شود. اگر هر دو آنها به یکدیگر خیانت کنند هر دو به طور میانگین ۲ سال زندان می‌شوند. بازی دور یک مدار گرد و منطقی که می‌خواهد یک بازیکن به شریکش خیانت کند می‌چرخد. بازی می‌تواند به انواع شکل‌ها تکرار شود و افراد می‌توانند برای داشتن سَبک‌ترین حکم با یکدیگر همکاری کنند.

یاکوب کراندال، دانشمند کامپیوتر دانشگاه بریگم یانگ در پرو، و همکارانش می‌خواهند ببینند آیا ماشین‌ها می‌تواننند انجام چنین بازی‌هایی را یاد بگیرند. بنابراین این پژوهشگران، انسان‌ها و کامپیوترهایی را برای بازی در نسخه‌های کامپیوتری شده چیکن، معمای زندان، و بازی استراتژی همکاری  «تناوب» به کار گرفتند. تیم‌ها شامل دو فرد، دو کامپیوتر، یا یک کامپیوتر و یک انسان بود. پژوهشگران، ۳۵ الگوریتم متفاوت یادیگری ماشین را آزمون کردند این الگوریتم‌ها برنامه‌های هوش مصنوعی بودند که می‌توانستند کارآییشان را با جستجوی خودکار برای همبستگی‌های میان حرکات و نتایج بهبود ببخشند.

تمام فکر این دانشمندان این بود که هیچ الگوریتمی قادر به همکاری نبود. اما پس از آنکه برای به دست آوردن انگیزش‌ها به سوی بیولوژی تکاملی رفتند با خود اندیشیدند که چرا از عنصر کلیدی ارتباط در همکاری انسان بهره نمی‌گیرند. بنابراین ۱۹ قانون پیش‌نوشته شده مانند «من در حال تغییر استراتژیم هستم»، «من پیشنهاد آخر شما را می‌پذیرم»، یا »تو من را شکست دادی،»  که می‌تواند میان شریکان بعد از هر مدت تبادل شود را اضافه کردند. با گذشت زمان، این کامپیوترها با استفاده از الگوریتم یادگیری این عبارات را در زمینه بازی یاد می‌گیرند.

این تیم روی یکی از ۱۲۴ الگوریتم ملقب به S# (اس شارپ) کار کرد. زمانی که توضیحاتی از بازی‌ قبلا ناشناخته شده داده شد، این الگوریتم، همکاری با شریکش را در چند تعویض یاد گرفت. و در پایان بازی این ماشین تنها تیمی بود که تقریبا ۱۰۰ درصد اوقات کار می‌کرد در حالی که انسان‌ها به طور میانگین حدود ۶۰ درصد اوقات همکاری می‌کنند. «این الگوریتم یادگیری ماشین وفادار بود،» کراندل گفت.

چنین اعتمادی می‌تواند مزیتی برای الگوریتم‌های چون الگوریتم تصمیم گیری برای خودروهای بدون راننده، هواپیماهای بدون سرنشین و حتی سلاح‌ در جنگ را یاد می‌گیرند باشد. «تا کنون چنین همکاری‌هایی، هدف بیشتر پژوهش‌های هوش مصنوعی نبوده است،» این گفته دانیکا کراجیک، دانشمند رباتیک موسسه سلطنتی علم و فناوری در استکهلم است. در مقابل او اضافه کرد بیشتر کارها روی ایجاد فناوری‌های خودکاری که می‌تواند از قابلیت‌ها انسان (از تشخیص چهره تا بازی پوکر) بگذرد متمرکز بوده است. «ماشین‌ها به چیزی بیش از رقابت نیاز دارند،» کراندل گفت. او اضافه کرد که پژوهش‌ها در رباتیک (که بهترین کار تاکید روی همکاری است) می‌تواند مدل رو به جلویی برای هوش مصنوعی ارائه دهد.

دیدگاه‌تان را بنویسید: