أعلنت شركة غوغل، الأربعاء، عن "ترانسلاتوترون" Translatotron، وهو نظام تجريبي جديد تقول إنه قادر على ترجمة الكلام المنطوق إلى كلام منطوق مباشرةً، مما يلغي الحاجة لأي نص.
وقالت عملاقة التقنية الأميركية في منشور على مدونتها الخاصة بمجال الذكاء الاصطناعي إن "Translatotron هو أول نموذج قائم على طرفين يستطيع مباشرةً ترجمة الكلام من لغة إلى أخرى بصورة منطوقة".
أضافت غوغل: "أن هناك ثلاث مراحل لأنظمة الترجمة في الوقت الراهن، وهي: التعرف التلقائي على الكلام، الذي يحول الكلام إلى نص، والترجمة الآلية، التي تترجم ذلك النص إلى لغة أخرى، ومرحلة تحويل النص إلى كلام".
وأشارت إلى أن تنظيم هذه الخطوات المتتالية أدى إلى تطوير خدمات، مثل "مترجم غوغل" Google Translate، والآن تعتزم الشركة استخدام نموذجاً واحداً يتجنب تقسيم المهمة إلى مراحل منفصلة، إذ لا يحتاج إلى النص في الترجمة. وهذا يعني سرعة في الترجمة وأخطاء أقل، وفق غوغل.
وأوضحت أن Translatotron يستخدم الصور الطيفية كمدخلات ويولد صوراً طيفية أخرى، ويعتمد أيضاً على مشفر صوتي عصبي ومشفر لإخراج الصوت، مما يعني أن النظام يحتفظ بالخصائص الصوتية للمتحدث عند الترجمة.