隨著人工智能產業的飛速發展,中國在智能語音這一細分市場上的發展速度還將持續增長,但目前國內在智能語音市場,技術已相對成熟,頭部企業在行業中的壟斷地位較大。從上世紀50年代起,語音識別技術的研究就開始了,可追溯到1950年代。伴隨著信息技術的發展,智能語音技術已成為人們獲取和交流信息最為方便、有效的手段。下面就由小編為您介紹的智能語音市場概括與技術分析。
智能語音市場概括與技術分析
智能語音是人工智能技術的重要組成部分,包括語音識別、語義理解、自然語言處理、語音交互等。
當前,人工智能的關鍵技術均以實現感知智能和認知智能為目標。語音識別、圖像識別和機器人視覺、生物識別等目前最火熱的領域,主要解決的是感知智能的需求,就是使得人工智能能夠感知周圍的世界,能夠“聽見”或者“看到”。
自然語言理解、智能會話、智能決策、人機交互等技術更加側重的是認知智能的領域,解決“聽懂”、“看懂”,并且根據學習到的知識對人類的要求或者周圍的環境做出反應的能力。
在關鍵技術層中,語音識別、自然語義理解(Nature Language Process, NLP)、機器學習領域的關鍵技術在人工智能技術當中居于重要地位,是人機交互技術的基礎。
1. 中國人工智能市場規模持續增長,智能語音處于重要地位
通過上圖我們不難發現,人工智能行業最近幾年呈現出一個快速發展的態勢,產業增長率平均在43%左右,屬于一個快速發展的產業。2018年,人工智能市場規模達200億元,如果按照之前的增速,預計到2019年年末,整個人工智能行業規模將達到近300億元。
而在智能語言方面,當前人工智能產業中,智能語音是一個產業化程度相對成熟,產業規模較大的這么一個細分領域,從2011年整個市場規模只有6.3億,到2017年整個智能語音市場規模已經超過百億,整個行業正經歷著高速的發展,預計未來幾年,智能語音市場仍然會保持著較高速度快速發展。
2. 智能語音技術是人工智能產業鏈上的關鍵一環
從底層的基礎設施到中間層的技術服務到最上面的行業應用,可以看到,智能語音技術在整個產業鏈當中,起到了一個承接的作用,將人工智能的技術底層產業化,并在智能家居、可穿戴設備、機器人等行業落地,是整個人工智能產業鏈中的關鍵一環。
3. 科技巨頭紛紛從不同維度布局相關產業鏈
(1)國外科技巨頭:通過并購等手段,夯實核心技術,開放應用平臺,擴展以AI為核心的生態系統
谷歌:打造開發者生態鏈,推出Google Home,試圖建立物聯網時代安卓系統。
蘋果:基于智能硬件定標準,做平臺、獲數據,重視物聯網時代生態控制權。
(2)國內科技巨頭:開放語音生態系統,以產業內合作的方式,將語音技術植入產品和或應用于相關業務場景,構建全產業生態鏈廠。
百度:瞄準人工智能戰場,對外開放語音生態系統,對內在自身產品業務中實現AI First。
1. 語音識別(ASR)
1)語音識別概述
語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言,語音識別技術就是讓機器通過識別和理解過程,把語音信號轉變為相應的文本或命令的高技術。
語音識別系統本質上是一種模式識別系統,包括特征提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
語音識別系統構建過程整體上包括兩大部分:訓練和識別。
訓練通常是離線完成的,對預先收集好的海量語音、語言數據庫進行信號處理和知識挖掘,獲取語音識別系統所需要的“聲學模型”和“語言模型”;
而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。
識別過程通常又可以分為“前端”和“后端”兩大模塊:
“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;
“后端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統計模式識別(又稱“解碼”),得到其包含的文字信息,此外,后端模塊還存在一個“自適應”的反饋模塊,可以對用戶的語音進行自學習,從而對“聲學模型”和“語音模型”進行必要的“校正”,進一步提高識別的準確率。
目前,各語音識別方案提供方,包括訊飛、百度、云知聲、思必馳等,都在提供包括麥克風陣列等硬件在內的整體解決方案,以軟硬件結合的方式提高語音識別的精準度的問題。
2)語音識別技術原理
聲音實際上是一種波,在開始語音識別之前,首先,需要對聲音進行靜音切除處理,以降低對后續步驟造成的干擾。
其次,要對聲音進行分幀,把聲音切成一小段一小段,每一段就是一幀,分幀操作一般不是簡單的切開,而是使用移動窗函數來實現,而幀與幀之間一般是有交疊的。
每幀的長度為25毫秒,每兩幀之間有0.2S的交疊,我們一般稱之為幀長2秒,幀移0.2秒。
分幀之后,語音變得很小。但是,波形在時域上幾乎不具備任何描述能力,必須對其進行變換,常用的方法就是根據人耳生理特性提取MFCC特征,將每個幀波形轉換為一個多維向量,它包含了這一幀語音的內容信息,我們將這個過程稱為聲學特征提取。這時,聲音變成了12行(假設聲學特征是12維),N列的矩陣,稱為觀測序列,在這里N表示幀數。以上就是小編為您介紹的智能語音市場概括與技術分析。
[免責聲明]
文章標題: 智能語音市場概括與技術分析
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。