2023-03-17发表2025-09-24更新Python4 分钟读完 (大约582个字)0次访问

[Python]语音识别媒体中的音频到文本

准备工作
视频转音频
识别音频到文本
音频直接转换文本

准备工作

安装python3环境
申请一个可用的语音转换API，此篇以Microsoft Azure Speech为例
在Microsoft Azure 市场中搜索speech关键字找到语音服务。并创建好服务实例

在资源中找到创建的服务并查看

在此处点击显示密钥，我们要记住key值和location值，作为语音识别库的请求参数

视频转音频

安装视频库moviepy

1	pip install moviepy

编写代码，将视频文件test.mp4中的音频提取到test2.wav

import moviepy.editor

videoClip = moviepy.editor.VideoFileClip(r"{}".format("test.mp4"))
videoClip.audio.write_audiofile(r"{}".format("test2.wav"))

识别音频到文本

安装语音识别库SpeechRecognition

1	pip install SpeechRecognition

编写代码，将视频文件test3.wav中的音频识别，并转换成文本写入test.txt

import speech_recognition 

audio2 = speech_recognition.AudioFile("{}".format("test3.wav"))
recognizer =  speech_recognition.Recognizer()
with audio2 as source:
    audioData = recognizer.record(source)
result = recognizer.recognize_azure(audioData,key="<your api key>",language="zh-CN",location="eastus")
with open('test.txt', 'w') as file:
    if result.__len__()>0:
        file.write(result[0])

完整代码如下

import speech_recognition 
import moviepy.editor

videoClip = moviepy.editor.VideoFileClip(r"{}".format("test.mp4"))
videoClip.audio.write_audiofile(r"{}".format("test2.wav"))
audio2 = speech_recognition.AudioFile("{}".format("test2.wav"))
recognizer =  speech_recognition.Recognizer()
with audio2 as source:
    audioData = recognizer.record(source)
result = recognizer.recognize_azure(audioData,key="<your api key>",language="zh-CN",location="eastus")
with open('test.txt', 'w') as file:
    if result.__len__()>0:
        file.write(result[0])

音频直接转换文本

Azure提供了快捷转换语音到文本的工具 https://speech.microsoft.com/portal
点击实时语音转文本

这里需要注意的是，需要上传的音频格式为16kHz 或 8kHz、16 位和单声道 PCM

上传完成后将自动转换成文本

安装音频转换库pydub

1	pip install pydub

编写代码，将test.aac文件以16kHz 采样率和单声道 PCM 编码方式，保存至test1.wav
注意，如果使用ffmpeg编码的格式，需要下载ffmpeg相关库到脚本所在目录
http://www.ffmpeg.org/download.html#build-windows

from pydub import AudioSegment

audio1 = AudioSegment.from_file("test.aac", "aac")
#  -ac 1 -ar 16000 
audio1.export("test1.wav", format="wav",parameters=["-ac", "1", "-ar", "16000"])

[Python]语音识别媒体中的音频到文本

https://blog.matoapp.net/posts/ccca819f/

作者

林晓lx

发布于

2023-03-17

更新于

2025-09-24

许可协议

[Python]语音识别媒体中的音频到文本

准备工作

视频转音频

识别音频到文本

音频直接转换文本

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

目录

链接

分类

归档

标签

订阅更新