文章类型

原创[Python]语音识别媒体中的音频到文本

[Python]语音识别媒体中的音频到文本
Azure提供了快捷转换语音到文本的工具 https://speech.microsoft.com/portal。这里需要注意的是,需要上传的音频格式为16kHz 或 8kHz、16 位和单声道 PCM。编写代码,将视频文件test.mp4中的音频提取到test2.wav。文件以16kHz 采样率和单声道 PCM 编码方式,保存至。中的音频识别,并转换成文本写入。上传完成后将自动转换成文本。编写代码,将视频文件。