نظام كامارا مدرك لمكبر الصوت (SPACS): 8 خطوات
نظام كامارا مدرك لمكبر الصوت (SPACS): 8 خطوات
Anonim
Image
Image
الأجهزة - الطباعة ثلاثية الأبعاد
الأجهزة - الطباعة ثلاثية الأبعاد

تخيل مكالمة جماعية حيث تحيط عدة مكبرات صوت بكاميرا واحدة. غالبًا ما نواجه حيث غالبًا ما تفشل زاوية الرؤية المحدودة للكاميرا في التحديق في الشخص الذي يتحدث. هذا القيد على الأجهزة يقلل بشكل كبير من تجربة المستخدم. إذا تمكنت الكاميرا من التحديق في مكبرات الصوت النشطة ، فسيكون الجمهور البعيد أكثر انخراطًا في محادثة أثناء المكالمة. في هذا المشروع ، نقترح نظام كاميرا (نموذج أولي) يكتشف ويتبع السماعة النشطة عن طريق توجيه الكاميرا نحو السماعة. يستخدم النظام كلاً من النهج المرئي والمسموع. عندما يتم الكشف عن الوجوه من الكاميرا ، فإنها تحدد الشخص الذي يتحدث وتحسب زاوية التدوير. عندما لا يتم اكتشاف الوجوه بالزاوية الحالية ، يبحث النظام عن مكبر الصوت بناءً على اتجاه الإشارات الصوتية التي تصل.

الخطوة 1: المواد

ريشة Adafruit nRF52840 Express X 1

www.adafruit.com/product/4062

مضخم ميكروفون كهربائي - MAX4466 X 2

www.adafruit.com/product/1063

محرك سيرفو صغير X 1

www.adafruit.com/product/169

هاتف Android الذكي X 1

الخطوة 2: الأجهزة - الطباعة ثلاثية الأبعاد

الأجهزة - الطباعة ثلاثية الأبعاد
الأجهزة - الطباعة ثلاثية الأبعاد
الأجهزة - الطباعة ثلاثية الأبعاد
الأجهزة - الطباعة ثلاثية الأبعاد

للتنفيذ السريع ، قررنا طباعة العبوات ثلاثية الأبعاد التي نحتاجها. هناك نوعان من المكونات الرئيسية للمرفقات ؛ منصة دوارة وحامل هاتف ذكي. استخدمنا القرص الدوار من هذا الرابط (https://www.thingiverse.com/thing:141287) ، حيث يوفر علبة Arduino في الأسفل وطاولة دوارة يمكن توصيلها بمحرك مؤازر. استخدمنا حامل هاتف ذكي من هذا الرابط (https://www.thingiverse.com/thing:2673050) ، وهو قابل للطي وقابل لتعديل الزاوية بحيث يسمح لنا بمعايرة الزاوية بشكل ملائم. يوضح الشكل أدناه الأجزاء المطبوعة ثلاثية الأبعاد مجمعة معًا.

الخطوة 3: الأجهزة - المكونات الإلكترونية

الأجهزة - المكونات الإلكترونية
الأجهزة - المكونات الإلكترونية
الأجهزة - المكونات الإلكترونية
الأجهزة - المكونات الإلكترونية

هناك أربعة مكونات سلكية ؛ ريشة Adafruit وميكروفونات ومحرك. بالنسبة للعبوة المدمجة ، قمنا بلحام الأسلاك (الدوائر الرمادية) دون استخدام لوح التجارب. يصف أدناه مخطط الدائرة والقطعة الأثرية الفعلية.

الخطوة 4: البرمجيات

يستخدم نظامنا بشكل أساسي المعلومات المرئية من التعرف على الوجوه لمتابعة المتحدث لأنه أكثر دقة. لكي تحصل الريشة على معلومات مرئية من تطبيق Android ، نستخدم Bluetooth Low Energy كطريقة اتصال رئيسية.

عند اكتشاف أي وجه ، يحسب التطبيق الزاوية التي يحتاجها المحرك لتدويرها لتركيز السماعة في مركز الإطار. لقد حللنا السيناريوهات المحتملة وتعاملنا مع ما يلي:

  1. إذا تم اكتشاف الوجه (الوجه) والتحدث ، فإنه يحسب نقطة المنتصف للسماعات ويعيد الزاوية النسبية إلى الريش.
  2. إذا تم اكتشاف وجه (وجوه) ولم يتحدث أي منهم ، فإنه يحسب أيضًا نقطة منتصف الوجوه ويعيد الزاوية وفقًا لذلك.
  3. إذا لم يتم اكتشاف أي وجه ، يقوم النظام بتغيير منطق تتبع السماعات من المرئي إلى الصوت.

يوجد برنامج SPACS على

الخطوة 5: البرمجيات - الصوت

البرمجيات - الصوت
البرمجيات - الصوت

الصوت (YH)

لتحديد مصدر الصوت الوارد ، حاولنا أولاً استخدام فارق التوقيت بين الميكروفونات. لكنها لم تكن دقيقة بالقدر الذي توقعناه لأن معدل أخذ العينات (~ 900 هرتز) من Arduino Leopard ، حيث اختبرنا الإشارات الصوتية ، كان بطيئًا بحيث لا يمكنه التقاط الفارق الزمني بين الميكروفونات التي يبلغ طولها 10 سم.

قمنا بتغيير الخطة لاستخدام فرق الشدة بين إشارتا صوت الإدخال. ونتيجة لذلك ، تأخذ الريشة إشارتين صوتيتين وتعالجهما لاكتشاف مصدر الصوت. يمكن وصف المعالجة بالخطوات التالية:

  1. خذ المدخلات من اثنين من الميكروفونات واطرح الإزاحة للحصول على اتساع الإشارات.
  2. قم بتجميع القيم المطلقة للسعات لكل MIC لـ 500 بيك آب.
  3. احفظ اختلاف القيم المتراكمة في قائمة الانتظار التي تحتوي على 5 فتحات.
  4. إرجاع مجموع قوائم الانتظار كقيمة الفرق النهائية.
  5. قارن القيمة النهائية بالحدود لتقرر مصدر الصوت.

لقد وجدنا العتبة من خلال رسم القيمة النهائية في ظروف مختلفة بما في ذلك الصوت القادم من اليسار واليمين. علاوة على عتبات القيمة النهائية ، قمنا أيضًا بتعيين عتبة أخرى لمتوسط السعات المتراكمة في الخطوة 2 لتصفية الضوضاء.

الخطوة 6: البرمجيات - كشف الوجه والتحدث

للتعرف على الوجوه ، استخدمنا ML Kit for Firebase التي أصدرتها Google (https://firebase.google.com/docs/ml-kit). توفر ML Kit واجهة برمجة تطبيقات اكتشاف الوجه التي تعيد المربع المحيط لكل وجه ومعالمه ، بما في ذلك العيون والأنف والأذنان والخدين ونقاط مختلفة على الفم. بمجرد اكتشاف الوجوه ، يتتبع التطبيق حركة الفم لتحديد ما إذا كان الشخص يتحدث أم لا. نحن نستخدم نهجًا بسيطًا قائمًا على العتبة والذي ينتج عنه أداء موثوق. لقد استفدنا من حقيقة أن حركة الفم تزداد أفقيًا وعموديًا عندما يتحدث الشخص. نحسب المسافة الرأسية والأفقية للفم ونحسب الانحراف المعياري لكل مسافة. المسافة طبيعية لحجم الوجه. يشير الانحراف المعياري الأكبر إلى التحدث. هذا النهج له قيود على أن كل نشاط يتضمن حركة الفم ، بما في ذلك الأكل والشرب أو التثاؤب ، يمكن التعرف عليه على أنه حديث. لكن لديها معدل سلبي كاذب منخفض.

الخطوة 7: البرنامج - محرك دوار

البرمجيات - محرك دوار
البرمجيات - محرك دوار

لم يكن دوران المحرك مباشرًا كما توقعنا بسبب التحكم في سرعة الدوران. للتحكم في السرعة ، نعلن عن متغير عداد عام يسمح للمحرك بالدوران فقط عندما يصل المتغير إلى قيمة معينة. لقد أعلنا أيضًا عن متغير عالمي آخر يشير إلى ما إذا كان المحرك يتحرك لإعلام الميكروفونات حتى يتمكن من تجنب الصوت الصادر من دوران المحرك.

الخطوة 8: التحسينات المستقبلية

أحد القيود هو أن المحرك يصبح متذبذبًا في زوايا معينة. يبدو أن المحرك ليس قويًا بما يكفي للتغلب على عزم الدوران الناتج عن تدوير الهاتف الذكي. يمكن حلها باستخدام محرك أكثر قوة أو ضبط موضع الهاتف الذكي باتجاه مركز الدوران لتقليل عزم الدوران.

يمكن تحسين اكتشاف الاتجاه الصوتي باستخدام طريقة أكثر تعقيدًا. نود أن نجرب نهجًا لتشكيل الحزمة الصوتية لتحديد اتجاه الصوت الوارد. لقد حاولنا مع وقت وصول الإشارات الصوتية. لكن معدل أخذ عينات الريشة محدود لاكتشاف فارق التوقيت عندما تكون الميكروفونات على بعد حوالي 10 سم فقط.

الجزء الأخير المفقود من هذا النموذج الأولي هو تقييم قابلية الاستخدام. إحدى الطرق الواعدة للتقييم هي دمج النظام مع النظام الأساسي الحالي لمكالمات الفيديو ومراقبة ردود المستخدمين. ستساعد هذه الردود على تحسين النظام وإجراء التكرار التالي لهذا النموذج الأولي.

موصى به: