由于业务需求，需要使用微信小程序语音识别的功能，查找了好多发难，也踩了好多坑，把过程记录一下，或许会帮助到需要的朋友。

业务需求：

在小程序中识别用户语音输入的命令

业务环境和关键技术：

1.小程序：

关键流程流程：

录音存储-->上传录音文件到服务器后台-->读取服务器返回结果

关键代码：

//按键按下事件
  startRec:function(res){
    var that=this
    wx.startRecord({
      success: function (res) {
        var tempFilePath = res.tempFilePath//获取录音文件路径
        console.log(tempFilePath)
        // 上传卢新文件到服务器
        wx.uploadFile({
          url: \'http://ipaddress:port/voice_detec\',
          filePath: tempFilePath,
          name: \'voice\',
          // 服务器返回识别结果
          success:function(res){
            console.log(res.data)
            var data = res.data
            var jd = JSON.parse(data)
            if (jd.err_no==0){
              var msg =jd.result[0];
            }
            else{
              var msg = \'未识别，请重新尝试\';
            }
            // 显示识别成功
            wx.showToast({
              title: msg,
            })

          },
          // 上传识别
          fail:function(){
            console.log(\'error upload!\')
            wx.showToast({
              title: \'与语音识别服务器断开连接\',
            })
          }
        });
        // 播放录音
        wx.playVoice({
          filePath: tempFilePath,
          complete: function () {
          console.log("播放录音")
          }
        })
      },
      fail: function (res) {
        //录音失败
      }
    })
    setTimeout(function () {
      //结束录音  
      wx.stopRecord();
    }, 10000)
  },

2.服务器：

在服务器（linux）配置silk-v3-decoder

安装指南：

依赖组件：gcc、ffmpeg

git clone https://github.com/kn007/silk-v3-decoder.git
cd silk*/silk
make
#若果有waring不用担心，看看目录下有没有生成二级制文件decoder

# 使用上个目录的sh脚本，把1.silk转伟1.wav，这两个文件在同一个目录
cd ..

sh converter.sh 1.slk wav
# 看看有没有生成1.wav

由于百度api的语音识别的语音文件码率只能为8K或者16K，所以要对conveter.sh里面的几个参数进行修改，保证转化的采样率是16K，修改后的文件如下（把70行改成71行的内容），如果不修改，识别效果不是很好：

 62 $cur_dir/silk/decoder "$1" "$1.pcm" > /dev/null 2>&1
 63 if [ ! -f "$1.pcm" ]; then
 64         ffmpeg -y -i "$1" "${1%.*}.$2" > /dev/null 2>&1 &
 65         ffmpeg_pid=$!
 66         while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
 67         [ -f "${1%.*}.$2" ]&&echo -e "${GREEN}[OK]${RESET} Convert $1 to ${1%.*}.$2 success, ${YELLOW}but not a silk v3 encoded file.${RESET}"&    &exit
 68         echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe not a silk v3 encoded file."&&exit
 69 fi
 70 #ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" "${1%.*}.$2" > /dev/null 2>&1
 71 ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" -f wav -ar 16000 -ac 1 "${1%.*}.$2" > /dev/null 2>&1
 72 ffmpeg_pid=$!
 73 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
 74 rm "$1.pcm"
 75 [ ! -f "${1%.*}.$2" ]&&echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe ffmpeg no format handler for $2."&&exit
 76 echo -e "${GREEN}[OK]${RESET} Convert $1 To ${1%.*}.$2 Finish."
 77 exit

python+flask+silk2wav+百度云resultApi

此步骤，通过flask搭建http服务器，接受小程序上传过来的silk语音文件，然后通过python调用shell脚本进行转码，再把转码后的wav语音文件调用百度api进行识别。

@app.route(\'/voice_detec\', methods=[\'POST\',\'GET\'])  
def voice_detec():  
    if request.method == \'POST\':  
        # print(\'POST:\',request.form)
        # 接受小程序上传的文件
        voice_file = request.files[\'voice\']
        if voice_file:
            # 存储到磁盘
            voice_file.save(\'2.silk\')
            # 转码，这里需要注意文件放的位置，将在下面给出文件位置
            msg=os.system(\'sudo sh silk-v3-decoder/converter.sh ../2.silk wav\')
            print(msg)
            f=open(\'2.wav\',\'rb\')
            # 调用api识别
            result=baidu_client.asr(f.read(),\'wav\',16000,{
                \'dev_pid\':1537,
            })
            f.close()
            print(result)
            # 返回识别结果
            return json.dumps(result)
        return \'{\'err_no\':10010}\'

整个服务器项目的目录结构：

webproject
    ├── 2.silk # 服务器上传的文件包存2.silk
    ├── 2.wav  #转码结果
    ├── http.py # 代码
    ├── silk-v3-decoder #github下载的源码+make后的文件
    │   ├── converter_beta.sh
    │   ├── converter.sh
    │   ├── conv.sh
    │   ├── LICENSE
    │   ├── README.md
    │   ├── silk
    │   └── windows

3.百度云：

语音识别api配置：这个直接看官方文档吧，很清楚。

4.爬坑指南

不要企图使用电脑客户端的缓存的.silk去转换，和真机环境不是一个类型
使用python2的朋友可能会面临字符串转码的问题，头痛
silk-v3-decoder 编译过程报错或者警告问题

客服电话

电子邮件

微信小程序语音识别开发过程笔记

业务需求：

业务环境和关键技术：

1.小程序：

关键流程流程：

2.服务器：

在服务器（linux）配置silk-v3-decoder

python+flask+silk2wav+百度云resultApi

3.百度云：

4.爬坑指南

请发表评论

全部评论

上一篇：

下一篇：

亲亲特价:怎么删除回收站图标

亲亲特价:怎么删除回收站图标

关于我们

产品与服务

解决方案

139-2527-9053