美女日本视频,韩国美女内衣试穿视频

語音識別原理五分鐘就能弄懂

更新時間：2022-03-23 10:29:51作者：佚名

語音識別原理五分鐘就能弄懂

1、首先，我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式，必須轉(zhuǎn)成非壓縮的純波形文件來處理，比如Windows PCM文件，也就是俗稱的wav文件。wav文件里存儲的除了一個文件頭以外，就是聲音波形的一個個點了。

2、在開始語音識別之前，有時需要把首尾端的靜音切除，降低對后續(xù)步驟造成的干擾。這個靜音切除的操作一般稱為VAD，需要用到信號處理的一些技術(shù)。

3、每幀的長度為25毫秒，每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。每幀的長度為25毫秒，每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。

4、分幀后，語音就變成了很多小段。但波形在時域上幾乎沒有描述能力，因此必須將波形作變換。常見的一種變換方法是提取MFCC特征。

5、至此，聲音就成了一個12行（假設聲學特征是12維）、N列的一個矩陣，稱之為觀察序列，這里N為總幀數(shù)。觀察序列如下圖所示，圖中，每一幀都用一個12維的向量表示，色塊的顏色深淺表示向量值的大小。

6、接下來就要介紹怎樣把這個矩陣變成文本了。首先要介紹兩個概念：音素：單詞的發(fā)音由音素構(gòu)成。對英語，一種常用的音素集是卡內(nèi)基梅隆大學的一套由39個音素構(gòu)成的音素集，參見The CMU Pronouncing Dictionary。

7、語音識別是怎么工作的呢？實際上一點都不神秘，無非是：第一步，把幀識別成狀態(tài)（難點）；第二步，把狀態(tài)組合成音素；第三步，把音素組合成單詞。

本文標簽：語音識別原理