国产精品吹潮在线播放,日韩一区二区三区在线播放,啊级免费黄片视频,66av视频

語音識別原理 五分鐘就能弄懂

更新時間:2022-03-23 10:29:51作者:佚名

語音識別原理 五分鐘就能弄懂

1、首先,我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形文件來處理,比如Windows PCM文件,也就是俗稱的wav文件。wav文件里存儲的除了一個文件頭以外,就是聲音波形的一個個點了。

2、在開始語音識別之前,有時需要把首尾端的靜音切除,降低對后續(xù)步驟造成的干擾。這個靜音切除的操作一般稱為VAD,需要用到信號處理的一些技術(shù)。

3、每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。

4、分幀后,語音就變成了很多小段。但波形在時域上幾乎沒有描述能力,因此必須將波形作變換。常見的一種變換方法是提取MFCC特征。

5、至此,聲音就成了一個12行(假設聲學特征是12維)、N列的一個矩陣,稱之為觀察序列,這里N為總幀數(shù)。觀察序列如下圖所示,圖中,每一幀都用一個12維的向量表示,色塊的顏色深淺表示向量值的大小。

6、接下來就要介紹怎樣把這個矩陣變成文本了。首先要介紹兩個概念:音素:單詞的發(fā)音由音素構(gòu)成。對英語,一種常用的音素集是卡內(nèi)基梅隆大學的一套由39個音素構(gòu)成的音素集,參見The CMU Pronouncing Dictionary。

7、語音識別是怎么工作的呢?實際上一點都不神秘,無非是:第一步,把幀識別成狀態(tài)(難點);第二步,把狀態(tài)組合成音素;第三步,把音素組合成單詞。

本文標簽: 語音識別原理  

為您推薦

華為簡配版是什么意思(華為簡配版啥意思)

最佳答案華為簡配版是手機最低配置版本。原配版與簡配版的差別只是手機的配件配置不同,全配手機的硬件通常都有一個機頭、二塊電池、一個EP充電器、一個旅行充電器,少數(shù)的還帶有耳機、車載充電器、流載裝置、數(shù)據(jù)傳輸配件、皮套等。簡配版手機的硬件通常只有一個機頭、一塊電池和一個充電器。

2022-12-02 19:24

華為nova5pro支持5g嗎 華為nova5pro可以5G嗎

華為nova5手機不支持5G。手機里面搭載了5G芯片才能使用5G信號。華為目前沒有推出巴龍5000+麒麟980的nova 5 pro 5G版的方案。因此目前華為nova 5系列是4G手機。無法通過軟件升級支持5G。

2022-12-02 18:01

驍龍8+和驍龍8gen1哪個好有啥區(qū)別(4g128g和8g128g哪個好)

驍龍8+和驍龍8gen1哪個好有啥區(qū)別 跑分性能對比分析

2022-12-02 16:55

vivo X90 Pro+搭載驍龍8 Gen2處理器 12月6日開售

vivo X90 Pro+搭載驍龍8 Gen2處理器 12月6日開售

2022-12-02 16:55

華為p50什么處理器 華為p50處理器是啥

最佳答案華為p50的處理器是驍龍888。驍龍888基于三星5nm工藝制成,CPU采用1x2.84GHz+3x2.4GHz+4x1.8GHz,GPU為Adreno660,采用X605Gmodem基帶,支持WiFi6E、Bluetooth5.2。

2022-12-02 16:33

世界杯回放在線觀看平臺(世界杯回放在線觀看平臺下載)

世界杯回放在線觀看平臺 2022世界杯回放在哪個app看

2022-12-02 16:21