语音识别效果不好 · AI机器人系统使用说明书

### 语音识别效果不好如果每次用户说话的前 2个字识别不到可以关闭静音抑制。具体到语音网关找到相关配置。 1 为什么科大输入法识别效果很好，我们的系统识别效果却不好科大输入发是 16000hz采样的声音电话是 8000hz采样的声音。不具有可比性 2 能不能把声音也转换成 16000hz的然后再识别呢 100万像素的图片，你转成 1000万像素保存，图片会变清晰吗，声音也是一个道理，声音的采样率和图片像素是一个概念。所以 8000转到16000完全没用。 3 到底怎么样可以提高识别率 1）想办法提高声音质量，比如用数字线路，如果无线网关放信号好的位置，用g711编码。 2）可以换一个语音识别引擎，比如科大SDK试试。多个识别引擎对比一下，找一个合适你的。 3）把关键词上传到识别引擎后台，科大语音听写SDK接口的上传关键词地方是（服务管理->个性化听写） 4） GOIP设备设备放到信号好的地方（信号不好会丢包）关闭设备的静音抑制功能（开了静音抑制，容易出现前1-2个字没识别到）设备后台把用户说话(输入)音量调大（如果用户说话音量不够大容易出现，机器人在说话时，用户说话识别不到，也就是不能打断，很多设备对双方同时说话支持不好） 4 线路声音编码和识别率有影响吗有的，各种声音编码都是有损压缩，识别率最好的情况是 e1或者IMS (G711编码)。g729,编码后的声音会更不清晰。 5 什么线路音质最好 e1 > ims > sim E1 就是数字中继 IMS 就是数字中继IP化 SIM 就是手机卡 5 SIM卡音质怎么样现在SIM还是用 GSM网络，或者3G网络或者CDMA网络我网上找了一个资料，大家可以自己看看 (总之现在 4G只用数据功能语音还是 2G或者3G声音都不如E1或者IMS) 一音频采样 GSM作为一个全数字的系统，对于语音数据首先进行数字化的量化。也就是模拟的音频信号转化成数字信号，再进行数字化的传输。声音的数字化就包括采样和量化。 GSM主要是传输人的声音，因此人发出的声音的频率也就影响了系统的采样频率。通常人发出的声音频率在85～1100HZ，其中人耳敏感的频率范围是1～4KHZ。声波的主要频率分布20～3400HZ。 1. `奈奎特定律证明：只要取样的频率大于原始信号的频率两倍之上，信号可以完全有采样样本来恢复。因此GSM规范采用8KHZ的采样频率，完全满足人耳分辨声音的需要。` 二语音编码对于麦克风里面的声音，以8KHZ采样率13位精度进行采样，得到的速率就是104kbps的源数据流。这样的码率对于GSM来说比较大，因此要对语音进行压缩编码，以便于传输。 GSM系统通常采用四种编解码器： 1）半速率位速率5.6Kbps 压缩比18.4 编解码类型VSELP 最早的GSM网络使用GSM-HR(Half Rate)标准，编码速率低，感觉普遍不佳。 2）EFR 位速率12.2Kbps 压缩比8.5 编解码类型ACELP 1. `EFR声码器是一种代数码激励线性预测(ACELP)编码器` 3）全速率位速率13Kbps 压缩比8 编解码类型RTE-LTP LPC 长期预测(LTP)与规则脉冲激励(RPE)，而全速率编解码器就被称为RPE-LTP线性预测编码器。 4）AMR 位速率12.2-4.75 压缩比8.5-21.9 编解码类型ACELP 1. `WCDMA网络主要是采用AMR编码方案。GSM主要还是EFR或者是全速率，属于窄带技术。` 三 AMR-NB与AMR-WB AMR-WB+ AMR NB的语音带宽范围：300－3400Hz，8KHz采样 AMR WB的语音带宽范围： 50－7000Hz，16KHz采样 AMR-WB+的采样速率是在16～48 kHz之间。这使得它的语音带宽更宽(24 kHz) 在4G时代，LTE网络采用AMR-WB 和AMR-WB+,来传输高清语音数据。总结：当前的语音网络中，GSM普遍采用全速率或者EFR。3G通信普遍使用AMR-NB。AMR-WB或者AMR-WB+目前在国内的运营商还没有采用。编码器对每20ms采用的语音信号封装成块，经过编码处理，最后形成数据帧。发送到网络上。