• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

微信小程序语音识别开发过程笔记

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

由于业务需求,需要使用微信小程序语音识别的功能,查找了好多发难,也踩了好多坑,把过程记录一下,或许会帮助到需要的朋友。

业务需求:

在小程序中识别用户语音输入的命令

业务环境和关键技术:

1.小程序:

关键流程流程:

录音存储-->上传录音文件到服务器后台-->读取服务器返回结果

关键代码:

//按键按下事件
  startRec:function(res){
    var that=this
    wx.startRecord({
      success: function (res) {
        var tempFilePath = res.tempFilePath//获取录音文件路径
        console.log(tempFilePath)
        // 上传卢新文件到服务器
        wx.uploadFile({
          url: \'http://ipaddress:port/voice_detec\',
          filePath: tempFilePath,
          name: \'voice\',
          // 服务器返回识别结果
          success:function(res){
            console.log(res.data)
            var data = res.data
            var jd = JSON.parse(data)
            if (jd.err_no==0){
              var msg =jd.result[0];
            }
            else{
              var msg = \'未识别,请重新尝试\';
            }
            // 显示识别成功
            wx.showToast({
              title: msg,
            })

          },
          // 上传识别
          fail:function(){
            console.log(\'error upload!\')
            wx.showToast({
              title: \'与语音识别服务器断开连接\',
            })
          }
        });
        // 播放录音
        wx.playVoice({
          filePath: tempFilePath,
          complete: function () {
          console.log("播放录音")
          }
        })
      },
      fail: function (res) {
        //录音失败
      }
    })
    setTimeout(function () {
      //结束录音  
      wx.stopRecord();
    }, 10000)
  },

2.服务器:

安装指南:

依赖组件:gcc、ffmpeg

git clone https://github.com/kn007/silk-v3-decoder.git
cd silk*/silk
make
#若果有waring不用担心,看看目录下有没有生成二级制文件decoder
# 使用上个目录的sh脚本,把1.silk转伟1.wav,这两个文件在同一个目录
cd ..

sh converter.sh 1.slk wav
# 看看有没有生成1.wav

由于百度api的语音识别的语音文件码率只能为8K或者16K,所以要对conveter.sh里面的几个参数进行修改,保证转化的采样率是16K,修改后的文件如下(把70行改成71行的内容),如果不修改,识别效果不是很好:

 62 $cur_dir/silk/decoder "$1" "$1.pcm" > /dev/null 2>&1
 63 if [ ! -f "$1.pcm" ]; then
 64         ffmpeg -y -i "$1" "${1%.*}.$2" > /dev/null 2>&1 &
 65         ffmpeg_pid=$!
 66         while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
 67         [ -f "${1%.*}.$2" ]&&echo -e "${GREEN}[OK]${RESET} Convert $1 to ${1%.*}.$2 success, ${YELLOW}but not a silk v3 encoded file.${RESET}"&    &exit
 68         echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe not a silk v3 encoded file."&&exit
 69 fi
 70 #ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" "${1%.*}.$2" > /dev/null 2>&1
 71 ffmpeg -y -f s16le -ar 12000 -ac 2 -i "$1.pcm" -f wav -ar 16000 -ac 1 "${1%.*}.$2" > /dev/null 2>&1
 72 ffmpeg_pid=$!
 73 while kill -0 "$ffmpeg_pid"; do sleep 1; done > /dev/null 2>&1
 74 rm "$1.pcm"
 75 [ ! -f "${1%.*}.$2" ]&&echo -e "${YELLOW}[Warning]${RESET} Convert $1 false, maybe ffmpeg no format handler for $2."&&exit
 76 echo -e "${GREEN}[OK]${RESET} Convert $1 To ${1%.*}.$2 Finish."
 77 exit
  • python+flask+silk2wav+百度云resultApi

此步骤,通过flask搭建http服务器,接受小程序上传过来的silk语音文件,然后通过python调用shell脚本进行转码,再把转码后的wav语音文件调用百度api进行识别。

@app.route(\'/voice_detec\', methods=[\'POST\',\'GET\'])  
def voice_detec():  
    if request.method == \'POST\':  
        # print(\'POST:\',request.form)
        # 接受小程序上传的文件
        voice_file = request.files[\'voice\']
        if voice_file:
            # 存储到磁盘
            voice_file.save(\'2.silk\')
            # 转码,这里需要注意文件放的位置,将在下面给出文件位置
            msg=os.system(\'sudo sh silk-v3-decoder/converter.sh ../2.silk wav\')
            print(msg)
            f=open(\'2.wav\',\'rb\')
            # 调用api识别
            result=baidu_client.asr(f.read(),\'wav\',16000,{
                \'dev_pid\':1537,
            })
            f.close()
            print(result)
            # 返回识别结果
            return json.dumps(result)
        return \'{\'err_no\':10010}\'

 

整个服务器项目的目录结构:

webproject
    ├── 2.silk # 服务器上传的文件包存2.silk
    ├── 2.wav  #转码结果
    ├── http.py # 代码
    ├── silk-v3-decoder #github下载的源码+make后的文件
    │   ├── converter_beta.sh
    │   ├── converter.sh
    │   ├── conv.sh
    │   ├── LICENSE
    │   ├── README.md
    │   ├── silk
    │   └── windows

 

3.百度云:

语音识别api配置:这个直接看官方文档吧,很清楚。

4.爬坑指南

  1. 不要企图使用电脑客户端的缓存的.silk去转换,和真机环境不是一个类型
  2.  使用python2的朋友可能会面临字符串转码的问题,头痛
  3. silk-v3-decoder 编译过程报错或者警告问题

 

 

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
Day7-微笑小程序实战-交友小程序-登陆模块发布时间:2022-07-18
下一篇:
小程序中的unionid发布时间:2022-07-18
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap