جدول المحتويات:
2025 مؤلف: John Day | [email protected]. آخر تعديل: 2025-01-13 06:56
التعرف على الكلام
التعرف على الكلام هو جزء من معالجة اللغة الطبيعية وهو حقل فرعي من الذكاء الاصطناعي. ببساطة ، التعرف على الكلام هو قدرة برنامج الكمبيوتر على تحديد الكلمات والعبارات في اللغة المنطوقة وتحويلها إلى نص يمكن قراءته من قبل الإنسان. يتم استخدامه في العديد من التطبيقات مثل أنظمة المساعد الصوتي ، والتشغيل الآلي للمنزل ، وروبوتات الدردشة القائمة على الصوت ، والروبوت المتفاعل الصوتي ، والذكاء الاصطناعي ، وما إلى ذلك.
هناك واجهات برمجة تطبيقات مختلفة (واجهة برمجة التطبيقات) للتعرف على الكلام. يقدمون خدمات إما مجانية أو مدفوعة. وهذه هي:
- CMU أبو الهول
- جوجل التعرف على الكلام
- واجهة برمجة تطبيقات Google Cloud Speech
- خفة دم
- التعرف على الصوت من Microsoft Bing
- Houndify API
- خطاب IBM إلى نص
- كشف الكلمات الساخنة لفتى الثلج
سنستخدم Google Speech Recognition هنا ، لأنه لا يتطلب أي مفتاح API. يهدف هذا البرنامج التعليمي إلى تقديم مقدمة حول كيفية استخدام مكتبة Google Speech Recognition على Python بمساعدة ميكروفون خارجي مثل ReSpeaker USB 4-Mic Array من Seeed Studio. على الرغم من أنه ليس من الضروري استخدام ميكروفون خارجي ، إلا أنه يمكن استخدام ميكروفون مدمج في الكمبيوتر المحمول.
الخطوة 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic عبارة عن جهاز رباعي الميكروفونات مصمم لتطبيقات الذكاء الاصطناعي والصوت ، تم تطويره بواسطة Seeed Studio. يحتوي على 4 ميكروفونات متعددة الاتجاهات مدمجة عالية الأداء مصممة لالتقاط صوتك من أي مكان في الغرفة و 12 مؤشر RGB LED قابل للبرمجة. يدعم الميكروفون ReSpeaker USB أنظمة تشغيل Linux و macOS و Windows. يمكن العثور على التفاصيل هنا.
يأتي ReSpeaker USB Mic في حزمة لطيفة تحتوي على العناصر التالية:
- دليل المستخدم
- ReSpeaker USB Mic Array
- كابل Micro USB إلى USB
لذلك نحن جاهزون للبدء.
الخطوة 2: تثبيت المكتبات المطلوبة
في هذا البرنامج التعليمي ، سأفترض أنك تستخدم Python 3.x.
لنقم بتثبيت المكتبات:
pip3 قم بتثبيت SpeechRecognition
بالنسبة لنظام macOS ، ستحتاج أولاً إلى تثبيت PortAudio مع Homebrew ، ثم تثبيت PyAudio مع pip3:
تركيب المشروب portaudio
نقوم بتشغيل الأمر أدناه لتثبيت pyaudio
pip3 تثبيت pyaudio
بالنسبة إلى Linux ، يمكنك تثبيت PyAudio باستخدام apt:
sudo apt-get install python-pyaudio python3-pyaudio
بالنسبة لنظام التشغيل Windows ، يمكنك تثبيت PyAudio مع النقطة:
نقطة تثبيت pyaudio
قم بإنشاء ملف بيثون جديد
نانو get_index.py
الصق في get_index.py أدناه مقتطف الشفرة:
استيراد pyaudio
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') لـ i في النطاق (0 ، numdevices): if (p.get_device_info_by_host_api_device_index (0، i). '))> 0: print ("Input Device id"، i، "-"، p.get_device_info_by_host_api_device_index (0، i).get (' name '))
قم بتشغيل الأمر التالي:
python3 get_index.py
في حالتي ، يعطي الأمر الإخراج التالي للشاشة:
معرف جهاز الإدخال 1 - ReSpeaker 4 Mic Array (UAC1.0)
معرف جهاز الإدخال 2 - ميكروفون MacBook Air
قم بتغيير device_index إلى رقم الفهرس حسب اختيارك في مقتطف الشفرة أدناه.
استيراد الكلام_recognition كـ sr
r = sr. Recognizer () speech = sr. Microphone (device_index = 1) مع الكلام كمصدر: print ("say something!…") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) حاول: recog = r.recognize_google (audio، language = 'en-US') print ("You said:" + recog) باستثناء sr. UnknownValueError: print ("تعذر على Google Speech Recognition فهم الصوت") باستثناء sr. RequestError مثل e: print ("تعذر طلب نتائج من خدمة التعرف على الكلام من Google ؛ {0}". التنسيق (هـ))
تم اختيار فهرس الجهاز 1 نظرًا لأن ReSpeaker 4 Mic Array سيكون مصدرًا رئيسيًا.
الخطوة 3: تحويل النص إلى كلام في Python باستخدام مكتبة Pyttsx3
هناك العديد من واجهات برمجة التطبيقات المتاحة لتحويل النص إلى كلام في بيثون. إحدى واجهات برمجة التطبيقات هذه هي pyttsx3 ، وهي أفضل حزمة تحويل نص إلى كلام متوفرة في رأيي. تعمل هذه الحزمة في أنظمة التشغيل Windows و Mac و Linux. تحقق من الوثائق الرسمية لمعرفة كيفية القيام بذلك.
قم بتثبيت الحزمة استخدم النقطة لتثبيت الحزمة.
تثبيت نقطة pyttsx3
إذا كنت تستخدم نظام التشغيل Windows ، فستحتاج إلى حزمة إضافية ، pypiwin32 والتي ستحتاجها للوصول إلى واجهة برمجة تطبيقات خطاب Windows الأصلية.
نقطة تثبيت pypiwin32
تحويل النص إلى نص بيثون الكلام أدناه هو مقتطف الشفرة للنص إلى كلام باستخدام pyttsx3:
استيراد pyttsx3
المحرك = pyttsx3.init ()
engine.setProperty ("rate" ، 150) # السرعة بالمائة
engine.setProperty ("الحجم" ، 0.9) # حجم 0-1
engine.say ("Hello، world!")
engine.runAndWait ()
الخطوة 4: وضع كل ذلك معًا: بناء التعرف على الكلام باستخدام Python باستخدام Google Speech Recognition API ومكتبة Pyttsx3
الكود أدناه مسؤول عن التعرف على الكلام البشري باستخدام Google Speech Recognition ، وتحويل النص إلى كلام باستخدام مكتبة pyttsx3.
استيراد الكلام_recognition كـ sr
استيراد محرك pyttsx3 = pyttsx3.init () engine.setProperty ('rate'، 200) engine.setProperty ('volume'، 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) مع الكلام كمصدر: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio، language = 'en-US') print ("You said:" + recog) engine.say (" لقد قلت: "+ recog) engine.runAndWait () باستثناء sr. UnknownValueError: engine.say (" تعذر على التعرف على الكلام من Google فهم الصوت ") engine.runAndWait () باستثناء sr. RequestError مثل e: engine.say (" تعذر ذلك طلب نتائج من خدمة التعرف على الكلام من Google ؛ {0} ". format (e)) engine.runAndWait ()
يطبع الإخراج على المحطة. أيضًا ، سيتم تحويله إلى كلام أيضًا.
قلت: لندن هي عاصمة بريطانيا العظمى
أتمنى أن يكون لديك الآن فهم أفضل لكيفية عمل التعرف على الكلام بشكل عام والأهم من ذلك ، كيفية تنفيذ ذلك باستخدام Google Speech Recognition API مع Python.
إذا كان لديك أي أسئلة أو ملاحظات؟ اترك تعليق أدناه. ابقوا متابعين!