【百家乐app-百家乐app下载 www.ajlfoto.com】探秘天下未解之谜 分享全球奇闻趣事

手机版 - 繁体中文 - 今天是

语音识别技术分析:语音变成文字其实没有那么神秘-百家乐app

发布时间:2020-10-01 15:47:02来源:百家乐app-百家乐app下载编辑:百家乐app-百家乐app下载阅读: 当前位置:首页 > 猎奇怪事 > 手机阅读

百家乐app-详细给大家讲解一下语音怎么逆文字的吧。期望这个讲解能让所有同学看懂。

  首先,我们告诉声音实质上是一种波。少见的mp3、wmv等格式都是传输格式,必需转换成非传输的纯波形文件来处置,比如WindowsPCM文件,也就是又称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。

右图是一个波形的示例。  在开始语音辨识之前,有时必须把首尾端的静音手术,减少对先前步骤导致的阻碍。

百家乐app下载

百家乐app

这个静音手术的操作者一般称作VAD,必须中用信号处理的一些技术。  要对声音展开分析,必须对声音分帧,也就是把声音缝合成部分段部分段,每小段称作一帧。分帧操作者一般不是非常简单的缝合,而是用于移动窗函数来构建,这里不概述。

帧与帧之间一般是有交错的,就像右图这样:  图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交错。我们称作以帧宽25ms、帧后移10ms分帧。图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交错。

我们称作以帧宽25ms、帧后移10ms分帧。  分帧后,语音就变为了很多小段。但波形在时域上完全没叙述能力,因此必需将波形不作转换。

少见的一种转换方法是萃取MFCC特征,根据人耳的生理特性,把每一帧波形变为一个多维向量,可以非常简单地解读为这个向量包括了这帧语音的内容信息。这个过程叫作声学特征提取。

百家乐app

实际应用于中,这一步有很多细节,声学特征也好比有MFCC这一种,明确这里不谈。。

本文来源:百家乐app下载-www.ajlfoto.com

标签:百家乐app 百家乐app下载

猎奇怪事排行

猎奇怪事精选

猎奇怪事推荐