رئيس حزب الوفد
د.عبد السند يمامة
رئيس مجلس الإدارة
د.أيمن محسب
رئيس التحرير
د. وجدى زين الدين
رئيس حزب الوفد
د.عبد السند يمامة
رئيس مجلس الإدارة
د.أيمن محسب
رئيس التحرير
د. وجدى زين الدين

الذكاء الاصطناعي السمعي بميتا يعد بتجربة AR و VR غامرة أكثر

بوابة الوفد الإلكترونية

 

ستكون Metaverse ، كما يتصورها الرئيس التنفيذي لشركة Meta Mark Zuckerberg ، تجربة افتراضية غامرة تمامًا تنافس الواقع ، على الأقل من الخصر إلى أعلى. لكن المرئيات ليست سوى جزء من تجربة Metaverse الشاملة.

كتب زوكربيرج في مدونة يوم الجمعة: "إن الحصول على الصوت المكاني الصحيح هو المفتاح لتقديم إحساس واقعي بالوجود في metaverse". "إذا كنت في حفلة موسيقية ، أو كنت تتحدث فقط مع الأصدقاء حول طاولة افتراضية ، فإن الإحساس الواقعي بمصدر الصوت يجعلك تشعر وكأنك موجود بالفعل."

ستبدو هذه الحفلة الموسيقية مختلفة تمامًا إذا تم إجراؤها في قاعة حفلات كاملة الحجم عنها في قاعة بالمدرسة المتوسطة بسبب الاختلافات بين المساحات المادية والصوتيات. على هذا النحو ، يتعاون مختبر Meta AI و Reality Lab (MAIR ، سابقًا FAIR) مع باحثين من UT Austin لتطوير ثلاثة من "مهام فهم" الصوت مفتوحة المصدر التي ستساعد المطورين على بناء تجارب AR و VR غامرة مع صوت أكثر واقعية.

الأول هو نموذج المطابقة الصوتية المرئية الخاص بـ MAIR ، والذي يمكنه تكييف عينة مقطع صوتي مع أي بيئة معينة باستخدام مجرد صورة للمساحة. هل تريد أن تسمع صوت أوركسترا نيويورك أوركسترا داخل غرفة بوم بوم في سان فرانسيسكو؟ الآن انت تستطيع. كانت نماذج المحاكاة السابقة قادرة على إعادة إنشاء صوتيات الغرفة بناءً على تخطيطها - ولكن فقط إذا كانت الهندسة الدقيقة وخصائص المواد معروفة بالفعل - أو من عينات صوتية داخل الفضاء ، ولم ينتج عن أي منهما نتائج دقيقة بشكل خاص.

حل MAIR هو نموذج المطابقة الصوتية المرئية ، المسمى AViTAR ، والذي "يتعلم المطابقة الصوتية من مقاطع فيديو الويب البرية ، على الرغم من افتقارها للصوت غير المتطابق صوتيًا والبيانات غير المسماة" ، وفقًا للمنشور.

كتب زوكربيرج: "تتضمن إحدى حالات الاستخدام المستقبلية التي نهتم بها استعادة ذكريات الماضي" ، مراهنًا على الحنين إلى الماضي. "تخيل أن تكون قادرًا على وضع زوج من نظارات الواقع المعزز ورؤية شيء به خيار تشغيل ذاكرة مرتبطة به ، مثل التقاط توتو ورؤية صورة ثلاثية الأبعاد لحفل الباليه الخاص بطفلك. يزيل الصوت الصدى ويجعل الذاكرة تبدو تمامًا مثل الوقت الذي مررت به ، وأنت جالس في مقعدك المحدد وسط الجمهور ".

من ناحية أخرى ، سيؤدي وضع إزالة الصدى المرئي (VIDA) الخاص بـ MAIR إلى تجريد تأثير الصدى من العزف على

آلة موسيقية في مساحة كبيرة ومفتوحة مثل محطة مترو الأنفاق أو الكاتدرائية. ستسمع الكمان فقط ، وليس صدى ارتداده عن الأسطح البعيدة. على وجه التحديد ، "يتعلم إزالة الصدى استنادًا إلى كل من الأصوات المرصودة والتدفق المرئي ، والذي يكشف عن إشارات حول هندسة الغرفة والمواد ومواقع السماعات" ، أوضح المنشور. يمكن استخدام هذه التقنية لعزل الأصوات والأوامر المنطوقة بشكل أكثر فعالية ، مما يسهل على البشر والآلات فهمها.

يعمل VisualVoice مثل VIDA ولكن للأصوات. يستخدم كل من الإشارات المرئية والصوتية لتعلم كيفية فصل الأصوات عن ضوضاء الخلفية أثناء جلسات التدريب التي يتم الإشراف عليها ذاتيًا. تتوقع Meta أن يحصل هذا النموذج على الكثير من العمل في تطبيقات فهم الآلة وتحسين إمكانية الوصول. فكر ، بترجمة أكثر دقة ، يتفهم Siri طلبك حتى عندما لا تكون الغرفة صامتة تمامًا أو تمتلك الصوتيات في غرفة الدردشة الافتراضية حيث يتنقل الأشخاص الذين يتحدثون في جميع أنحاء الغرفة الرقمية. مرة أخرى ، فقط تجاهل نقص الساقين.

"نتصور مستقبلًا حيث يمكن للناس وضع نظارات الواقع المعزز واستعادة ذاكرة ثلاثية الأبعاد تبدو وتبدو بالطريقة نفسها التي جربوها بها من وجهة نظرهم ، أو يشعرون بالاندماج ليس فقط في الرسومات ولكن أيضًا الأصوات أثناء لعبهم للألعاب في العالم الافتراضي ، "كتب زوكربيرج ، مشيرًا إلى أن AViTAR و VIDA يمكنهما فقط تطبيق مهامهما على الصورة الواحدة التي تم تدريبهما عليها وسيحتاجان إلى مزيد من التطوير قبل الإصدار العام. "هذه النماذج تقربنا أكثر من التجارب متعددة الوسائط والغامرة التي نريد بناءها في المستقبل."