گوگل ترنسلیت

نرم‌افزار مترجم جدید گوگل به هوش مصنوعی مغزدار مجهز شده‌ است

کواک لی با ترجمه‌های خنده‌دار غریب نیست، هر وقت این دانشمند و محقق گوگل در مونتن ویو، کالیفرنیا از ویتنامی‌های بومیش ملاقات می‌کرد، به ترجمه‌های غلط سیستمی که رویش کار می‌کرد می‌خندید، این سیستم سرویس آنلاین ۱۰ ساله گوگل ترنسلیت نام‌ دارد.

بیشتر خطاها کوچک و به اندازه‌ای نبودند که بتوان خاطرشان آورد. اما او یک داستان مهم‌تری می‌گوید : «ترجمه مشکل را حل نمی‌کند» و همچنین در ادامه می‌گوید «اکنون تلاش ما برای ترجمه کلمه به کلمه نیست، بلکه الان داریم روی «دوری از شرمنده شدن» کار می‌کنیم.»

همه این تغییرات به زودی روی می‌دهد. امروز، کواک و همکارانش در گوگل روی سیستم ترجمه جدیدی کار می‌کنند که مقدار زیادی داده را برای افزایش قدرت پردازش کلمات و ساختن ترجمه دقیق‌تر به کار می‌گیرد. این سیستم جدید، مدل یادگیری عمقی است که به عنوان ترجمه ماشین عصبی شناخته می‌شود. این سیستم خودش را به طور موثر آموزش می‌دهد – و خطاهای ترجمه را تا ۸۷ درصد کاهش می‌دهد.

ترجمه ماشین عصبی دیر به بازی یادگیری عمقی رسیده‌ است. روشی که در مورد هر چیزی، از گام‌های بازاریابی تا شناسایی نواحی گرایش‌دار به مواد مخدر را پیش‌بینی می‌کند. این‌ها از طریق ترجمه داده‌ها به وسیله لایه‌های پردازشگرهای به هم وابسته انجام می‌شود. این پردازشگرها – بعد از شبکه‌های مغزی عصبی مدل شده است – ابتدا توسط انسان آموزش می‌بینند و سپس در مجموعه‌ای از داده‌ها رها می‌شوند. پردازشگرهای خوب اندازه‌گیری شده، می‌توانند به داده‌ها اشاره کنند، آنها را تبدیل کنند و به سطح بعدی برای پردازش بیشتر و ترجمه بفرستند. یادگیری عمقی چیزی است که اجازه می‌دهد تا «دستیار شخصی» اپل، سیری، گفتار انسان را بچیند، و چیزی است که اجازه می‌دهد نرم‌افزار شناختگر عکس فیسبوک چهره‌های همانند چهره‌های فرد را شناسایی کند.

کواک می‌گوید، بیشتر مردم فکر می‌کنند که ترجمه زبان نیاز به قابلیت شناختی عمیق دارد. «برای مثال، کسری از ثانیه برای شناسایی عکس و فهمیدن صدا نیاز است. اما برای من بیشتر از یک ثانیه طول می‌کشد تا بتوانم یک جمله انگلیسی را به چینی ترجمه کنم.»

برای سال‌ها بیشتر مترجمان خودکار به یک سیستم ترجمه‌ای که به عنوان سیستم ترجمه عبارت محور شناخته بود چسپیده بودند. مانند سیستم ترجمه ماشین عصبی، ترجمه عبارت محور نیاز به مجموعه‌ای بزرگی از داده‌های آموزشی قبل از شروع به کار دارند. زمانی که آموزش تمام شد، سیستم اجرا می‌شود. این سیستم جملات را به عبارت تقسیم بندی می‌کند، و هر عبارت را جداگانه ترجمه می‌کند. سپس تمام رشته عبارات را به لایه دیگری برای تایید چینش صحیح عبارات می‌فرستد. کیفیت کار متغیر است. کواک می‌گوید « در این شیوه یک سری اشتباهات وجود دارد»، کواک بیان می‌کند که اغلب ،گرامر اشتباه در می‌آید، و گاه چینش کلمه‌ها به گونه‌ایست که ترجمه را بی‌مفهوم می‌کند. بعضی اوقات هم این ترجمه‌ها به قدری بد است «که مردم را به خنده می‌اندازد.»

روش جدید، که امروز در سرور ارکسیو منتشر شد، از تمام ۱۶ پردازشگر برای تبدیل اولیه کلمه به مقداری که عنوان بردار شناخته می‌شود استفاده می‌گردد. یک بردار چیست؟ کواک می‌گوید«دقیق نمی‌دانیم». اما این بردار چگونگی ارتباط یک کلمه با هر کلمه دیگر در دیکشنری گسترده منابع آموزشی (۲.۵ میلیارد جفت جمله برای انگلیسی و فرانسه، و ۵۰۰ میلیون برای انگلیسی و چینی) نشان می‌دهد. برای مثال «سگ» مرتبط‌تر با «گربه» است و نام «باراک اوباما» مرتبط‌تر با «هیلاری کلینتون» تا کشور «ویتنام». این سیستم از بردارهای زبان ورودی با لیستی از ترجمه‌ها احتمالی که مبتنی بر احتمال بروز آنها است استفاده می‌کند.

دیگر ویژگی این سیستم بررسی‌های متقابل برای افزایش دقت، و مجموعه‌ای از محاسبات است که سرعت زمان پردازش را افزایش می‌دهد.

در مقایسه سیستم قبلی گوگل، سیستم ترجمه ماشین عصبی، نمره‌های خوبی از بررسی‌های انسانی گرفت. این سیستم ۵۸ درصد در ترجمه انگلیسی به چینی و ۸۷ درصد در ترجمه انگلیسی به اسپانیایی دقیق‌تر بود (جدول پایین را ببینید). در نتیجه گوگل در نظر دارد، این سیستم را به تدریج جایگزین سیستم قبلی قبلی کند. کواک می‌گوید، امروز گوگل ترنسلیت از این سیستم برای ترجمه چینی به انگلیسی استفاده می‌کند. خوب منطقی است، بیشتر از محققان تیمش چینی هستند.

babel

کیونگ‌هیون چو، متخصص کامپیوتر و داده دانشگاه نیویورک در این رابطه می‌گوید: «دیدن اینکه چطور یک توسعه پژوهشی جدید به صنعت راه پیدا می‌کند و به عنوان یک محصول پذیرش می‌شود، بسیار لذت بخش است» همچنین در ادامه گفت: « این روند کلی انتقال سریع پژوهش به محصول نقاط قوت هسته یادگیری عمقی است، و شاید به همین دلیل است که صنایع به شدت روی آن سرمایه‌گذاری می‌کنند.»

اما چندین دانشمند اظهار نظر کردند که سیستم جدید نمی‌تواند علمی باشد و به عنوان پیشرفتی در زمینه مهندسی به حساب بیاید.   سانگ لویونگ، فارغ‌التحصیل دانشگاه استنفورد در پالو آلتو، کالیفرنیا که در گذشته سیستم‌های ترجمه ماشین عصبی را برای گوگل ساخته بود می‌گوید، «بسیاری از الهامات این مقاله از زمینه صدا و دید می‌آید» همچنین ادامه می‌دهد «این مقاله، ترکیبی از چندین کارهای مختلف است که در طول چندین سال انجام شده است.» استفاده از شبکه‌های عصبی برای ترجمه ماشین از اواخر ۲۰۱۰ شروع شد، ویژگی دیگر این سیستم این بود که در چندین سال اخیر از دیگر مدل‌ها استفاده می‌کرد. اما این اولین بار است که گروهی تمام این پیشرفت‌ها را با هم توسعه داده است.

دیدگاه‌تان را بنویسید: