چکيدهمدل های انتقال توالی غالب بر اساس عود پیچیده یاشبکه های عصبی convolutional که شامل یک رمزگشایی و یک رمزگشایی است. بهترینانجام مدل ها همچنین رمزگشایی و رمزگشایی را از طریق یک توجه به هم متصل می کندمکانیزم. ما یک معماری شبکه ساده جدید را پیشنهاد می کنیم، ترانسفورماتور،تنها بر اساس مکانیسم های توجه، صرف نظر کردن از عود و convolutionsکاملا. آزمایش ها بر روی دو کار ترجمه ماشین نشان می دهد این مدل ها بهبرتر در کیفیت در حالی که موازی تر و نیاز به طور قابل توجهیزمان کمتری برای آموزش. مدل ما دستیابی به 28.4 BLEU در WMT 2014 انگلیسی آلمانی وظیفه ترجمه, بهبود بیش از بهترین نتایج موجود, از جملهگروه ها، در بیش از 2 BLEU. در WMT 2014 وظیفه ترجمه انگلیسی به فرانسه،مدل ما ایجاد جدید تک مدل دولت از هنر نمره BLEU از 41.8 پس ازآموزش به مدت 3.5 روز در هشت GPUs ، بخش کوچکی از هزینه های آموزشیبهترین مدل از ادبیات. ما نشان می دهیم که ترانسفورماتور به خوبی بهوظایف دیگر با استفاده از آن با موفقیت به حوزه انتخابیه انگلیسی تجزیه هر دو باداده های آموزشی بزرگ و محدود.
ترجمه، لطفا صبر کنید ..
