التعرف على الكلام باستخدام Google Speech API و Python: 4 خطوات
التعرف على الكلام باستخدام Google Speech API و Python: 4 خطوات
Anonim
التعرف على الكلام باستخدام Google Speech API و Python
التعرف على الكلام باستخدام Google Speech API و Python

التعرف على الكلام

التعرف على الكلام هو جزء من معالجة اللغة الطبيعية وهو حقل فرعي من الذكاء الاصطناعي. ببساطة ، التعرف على الكلام هو قدرة برنامج الكمبيوتر على تحديد الكلمات والعبارات في اللغة المنطوقة وتحويلها إلى نص يمكن قراءته من قبل الإنسان. يتم استخدامه في العديد من التطبيقات مثل أنظمة المساعد الصوتي ، والتشغيل الآلي للمنزل ، وروبوتات الدردشة القائمة على الصوت ، والروبوت المتفاعل الصوتي ، والذكاء الاصطناعي ، وما إلى ذلك.

هناك واجهات برمجة تطبيقات مختلفة (واجهة برمجة التطبيقات) للتعرف على الكلام. يقدمون خدمات إما مجانية أو مدفوعة. وهذه هي:

  • CMU أبو الهول
  • جوجل التعرف على الكلام
  • واجهة برمجة تطبيقات Google Cloud Speech
  • خفة دم
  • التعرف على الصوت من Microsoft Bing
  • Houndify API
  • خطاب IBM إلى نص
  • كشف الكلمات الساخنة لفتى الثلج

سنستخدم Google Speech Recognition هنا ، لأنه لا يتطلب أي مفتاح API. يهدف هذا البرنامج التعليمي إلى تقديم مقدمة حول كيفية استخدام مكتبة Google Speech Recognition على Python بمساعدة ميكروفون خارجي مثل ReSpeaker USB 4-Mic Array من Seeed Studio. على الرغم من أنه ليس من الضروري استخدام ميكروفون خارجي ، إلا أنه يمكن استخدام ميكروفون مدمج في الكمبيوتر المحمول.

الخطوة 1: ReSpeaker USB 4-Mic Array

مصفوفة ReSpeaker USB 4-Mic
مصفوفة ReSpeaker USB 4-Mic
مصفوفة ReSpeaker USB 4-Mic
مصفوفة ReSpeaker USB 4-Mic
مصفوفة ReSpeaker USB 4-Mic
مصفوفة ReSpeaker USB 4-Mic

ReSpeaker USB Mic عبارة عن جهاز رباعي الميكروفونات مصمم لتطبيقات الذكاء الاصطناعي والصوت ، تم تطويره بواسطة Seeed Studio. يحتوي على 4 ميكروفونات متعددة الاتجاهات مدمجة عالية الأداء مصممة لالتقاط صوتك من أي مكان في الغرفة و 12 مؤشر RGB LED قابل للبرمجة. يدعم الميكروفون ReSpeaker USB أنظمة تشغيل Linux و macOS و Windows. يمكن العثور على التفاصيل هنا.

يأتي ReSpeaker USB Mic في حزمة لطيفة تحتوي على العناصر التالية:

  • دليل المستخدم
  • ReSpeaker USB Mic Array
  • كابل Micro USB إلى USB

لذلك نحن جاهزون للبدء.

الخطوة 2: تثبيت المكتبات المطلوبة

في هذا البرنامج التعليمي ، سأفترض أنك تستخدم Python 3.x.

لنقم بتثبيت المكتبات:

pip3 قم بتثبيت SpeechRecognition

بالنسبة لنظام macOS ، ستحتاج أولاً إلى تثبيت PortAudio مع Homebrew ، ثم تثبيت PyAudio مع pip3:

تركيب المشروب portaudio

نقوم بتشغيل الأمر أدناه لتثبيت pyaudio

pip3 تثبيت pyaudio

بالنسبة إلى Linux ، يمكنك تثبيت PyAudio باستخدام apt:

sudo apt-get install python-pyaudio python3-pyaudio

بالنسبة لنظام التشغيل Windows ، يمكنك تثبيت PyAudio مع النقطة:

نقطة تثبيت pyaudio

قم بإنشاء ملف بيثون جديد

نانو get_index.py

الصق في get_index.py أدناه مقتطف الشفرة:

استيراد pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') لـ i في النطاق (0 ، numdevices): if (p.get_device_info_by_host_api_device_index (0، i). '))> 0: print ("Input Device id"، i، "-"، p.get_device_info_by_host_api_device_index (0، i).get (' name '))

قم بتشغيل الأمر التالي:

python3 get_index.py

في حالتي ، يعطي الأمر الإخراج التالي للشاشة:

معرف جهاز الإدخال 1 - ReSpeaker 4 Mic Array (UAC1.0)

معرف جهاز الإدخال 2 - ميكروفون MacBook Air

قم بتغيير device_index إلى رقم الفهرس حسب اختيارك في مقتطف الشفرة أدناه.

استيراد الكلام_recognition كـ sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) مع الكلام كمصدر: print ("say something!…") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) حاول: recog = r.recognize_google (audio، language = 'en-US') print ("You said:" + recog) باستثناء sr. UnknownValueError: print ("تعذر على Google Speech Recognition فهم الصوت") باستثناء sr. RequestError مثل e: print ("تعذر طلب نتائج من خدمة التعرف على الكلام من Google ؛ {0}". التنسيق (هـ))

تم اختيار فهرس الجهاز 1 نظرًا لأن ReSpeaker 4 Mic Array سيكون مصدرًا رئيسيًا.

الخطوة 3: تحويل النص إلى كلام في Python باستخدام مكتبة Pyttsx3

هناك العديد من واجهات برمجة التطبيقات المتاحة لتحويل النص إلى كلام في بيثون. إحدى واجهات برمجة التطبيقات هذه هي pyttsx3 ، وهي أفضل حزمة تحويل نص إلى كلام متوفرة في رأيي. تعمل هذه الحزمة في أنظمة التشغيل Windows و Mac و Linux. تحقق من الوثائق الرسمية لمعرفة كيفية القيام بذلك.

قم بتثبيت الحزمة استخدم النقطة لتثبيت الحزمة.

تثبيت نقطة pyttsx3

إذا كنت تستخدم نظام التشغيل Windows ، فستحتاج إلى حزمة إضافية ، pypiwin32 والتي ستحتاجها للوصول إلى واجهة برمجة تطبيقات خطاب Windows الأصلية.

نقطة تثبيت pypiwin32

تحويل النص إلى نص بيثون الكلام أدناه هو مقتطف الشفرة للنص إلى كلام باستخدام pyttsx3:

استيراد pyttsx3

المحرك = pyttsx3.init ()

engine.setProperty ("rate" ، 150) # السرعة بالمائة

engine.setProperty ("الحجم" ، 0.9) # حجم 0-1

engine.say ("Hello، world!")

engine.runAndWait ()

الخطوة 4: وضع كل ذلك معًا: بناء التعرف على الكلام باستخدام Python باستخدام Google Speech Recognition API ومكتبة Pyttsx3

الكود أدناه مسؤول عن التعرف على الكلام البشري باستخدام Google Speech Recognition ، وتحويل النص إلى كلام باستخدام مكتبة pyttsx3.

استيراد الكلام_recognition كـ sr

استيراد محرك pyttsx3 = pyttsx3.init () engine.setProperty ('rate'، 200) engine.setProperty ('volume'، 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) مع الكلام كمصدر: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio، language = 'en-US') print ("You said:" + recog) engine.say (" لقد قلت: "+ recog) engine.runAndWait () باستثناء sr. UnknownValueError: engine.say (" تعذر على التعرف على الكلام من Google فهم الصوت ") engine.runAndWait () باستثناء sr. RequestError مثل e: engine.say (" تعذر ذلك طلب نتائج من خدمة التعرف على الكلام من Google ؛ {0} ". format (e)) engine.runAndWait ()

يطبع الإخراج على المحطة. أيضًا ، سيتم تحويله إلى كلام أيضًا.

قلت: لندن هي عاصمة بريطانيا العظمى

أتمنى أن يكون لديك الآن فهم أفضل لكيفية عمل التعرف على الكلام بشكل عام والأهم من ذلك ، كيفية تنفيذ ذلك باستخدام Google Speech Recognition API مع Python.

إذا كان لديك أي أسئلة أو ملاحظات؟ اترك تعليق أدناه. ابقوا متابعين!