國網公司對人工智能方向的研發一直是重點投入,設備運營管理是人工智能的核心應用領域之一,涉及到圖像識別、視頻分析、聲紋識別、知識圖譜、數據智能等多個領域。聲音識別技術能解決這些問題嗎?對變電設備異常工況的診斷與識別,如:變壓器、電抗器、斷路器、隔離開關等主要設備內部不可見缺陷的準確診斷與識別,以及繞組變形、偏磁異常、內部放電等的診斷與識別,正在進行探索與研究。聲紋識別技術究竟是怎么一回事?接下來小編就給大家解答一下人工智能黑科技——聲紋識別是什么,一起來看看吧。
人工智能黑科技——聲紋識別
聲音紋理(Voiceprint)是一種帶有言語信息的聲波頻譜,它是一種生物特征,它由一百多個維度組成,包括波長、頻率和強度,它具有穩定性、可測量性和唯一性。
人的語言生成是人類語言中心和發音器官之間一個復雜的生理物理過程,舌、牙、喉、肺、鼻等發聲器官在大小和形狀上各不相同,因此對任何兩個人來說,聲紋圖譜都是不同的。
個體的語音聲學特征具有相對的穩定性和可變性,且并非一成不變。這些變化可能來自生理、病理、心理、模擬、偽裝等,也可能與環境干擾有關。
然而,由于每個人的發音器官都不一樣,所以在一般情況下,人們仍然可以區分不同的人的聲音,或者判斷是否是同一個人發出的聲音。
每個人說話時所用的發聲器官在大小和形狀上都有很大的不同,因此任何兩個人的聲紋圖都有不同,主要體現在以下幾個方面:
共振模式特點:咽腔共振,鼻腔共振,口腔共振。
聲音純度特征:不同人的聲音,純度一般都不相同,大致可以分為高純度(明亮)、低純度(沙啞)和中純度三個等級。
均音高特點:均音高的高低即一般所說的嗓音是高還是低。
音高的高低是指人們通常所說的音色是否飽滿或干癟。
語譜圖中不同人聲的諧振峰分布情況不同,而聲紋識別則是通過比較兩段語音說話人的發音,判斷其是否屬于同一人聲,實現“聞聲識人”的功能。
在算法層面上,聲紋識別可以通過以下基本技術指標來判斷其性能,除此之外,還有其他一些指標,如:信道的魯棒性、時變的魯棒性、假冒攻擊的魯棒性、群體的普適性等,這部分后面將詳細展開。
FalseRejectionRate,FRR):在分類問題中,如果兩個樣本是相同的(相同的人),但被系統誤認為是不同的(不同的人),那么就是錯誤的拒絕案例。誤報率是指所有同類匹配案例中誤報率的百分比。
誤報率(FAR):在分類問題中,如果兩個樣本是異類(非同一人),但被系統誤認為是同類(同一人),那么就是錯誤接受情況。誤報率是指所有異類匹配病例中錯誤接受病例的比例。
等錯率:調整閾值,使誤拒絕率(FalseRejectionRate,FRR)等于誤接受率(FalseAcceptanceRate,FAR),此時FAR和FRR的值稱為等錯率。
精確度(Accuracy,ACC):調整閾值,使FAR+FRR最少,將其減至1,即ACC=1-min(FAR+FRR)
速率:(提取速度:提取聲紋速度與音頻時長相關,驗證比對速度):實時RealTimeFactor比(衡量提取時間與音頻時長的關系,例如:1秒可以處理80s的音頻,然后實時比是1:80)。校驗比值對速度是指平均每秒可以進行的聲紋比對次數。
ROC曲線:描述FAR和FRR之間變化關系的曲線,FAR為X軸,FRR為Y軸。在閾值增長的過程中,從左到右,每個時刻都有FAR和FRR兩個值,將這些值在圖上描點連接成曲線,即ROC曲線。
門限:在接受/拒絕二元分類系統中,通常設置一個門限,當分數超過這個值時,才會作出接受的決定。根據業務需求調整閾值可以平衡FAR和FRR。在設置高閾值時,系統對接受決策的評分要求更嚴格,FAR降低,FRR提高;在設置低閾值時,系統對接受決策的評分要求更寬松,FAR提高,FRR降低。對于不同應用場景,調節不同閾值,則可在安全性和便利性之間實現均衡。
聲源采樣率
人類語音的頻段集中于50Hz ~ 8KHz之間,尤其在4KHz以下頻段
離散信號覆蓋頻段為信號采樣率的一半(奈奎斯特采樣定理)
采樣率越高,信息量越大
常用采樣率:8KHz (即0 ~ 4KHz頻段),16KHz(即0 ~ 8KHz頻段)
信噪比(SNR)
信噪比衡量一段音頻中語音信號與噪聲的能量比,即語音的干凈程度
15dB以上(基本干凈),6dB(嘈雜),0dB(非常吵)
信道
不同的采集設備,以及通信過程會引入不同的失真
聲紋識別算法與模型需要覆蓋盡可能多的信道
手機麥克風、桌面麥克風、固話、移動通信(CDMA, TD-LTE等)、微信……
語音時長(包括注冊語音條數)會影響聲紋識別的精度
有效語音時長越長,算法得到的數據越多,精度也會越高
短語音(1~3s)
長語音(20s+)
文本內容
通俗地說,聲紋識別系統通過比對兩段語音的說話人在相同音素上的發聲來判斷是否為同一個人
固定文本:注冊與驗證內容相同
半固定文本:內容一樣但順序不同;文本屬于固定集合
自由文本
作為生物識別技術的一種,聲紋識別的應用場景很多,根據聲音的特性,以下從公共安全、金融、社會保障、智能硬件四個方面介紹了聲紋識別的應用。
1、安全保障。
作為一種生物特征,聲紋最早被成功地應用于刑偵、鑒定領域。近幾年來,由于因特網的發展,語音案件也呈現井噴式增長的趨勢,聲紋識別已成為唯一一種有效的技術偵查手段,通過聲紋識別和聲紋大數據技術,對重點人員進行監控,打擊電信詐騙、反恐、刑事案件偵破、身份查詢及驗證等,為公安工作提供有力的技術支撐,有效遏制和打擊犯罪,營造和強化安全的社會公共環境。
2、財務。
以銀行、互聯網金融等各類金融服務機構為對象,利用聲紋識別技術,提供用戶注冊、遠程驗證、金融生物識別等解決方案,大大提高了金融機構風險防范系統的安全性,增強了風控能力,增強了用戶的安全性,防止了身份欺詐。
此外,在電話客服系統中,通過語音識別技術可以實時地識別用戶的身份,從而為用戶提供個性化的客服服務。
3、社會保障
對退休人員,我國每年至少要進行一次生存狀況核實,并以此為基礎發放養老金,目前可到指定的社保大廳或自助終端進行生存核實,對于一些行動不便的老人來說,這種方式也很不方便。語音識別技術在遠程認證方面有其天然優勢,只要有一部電話(手機或固定電話都可以),就能完成生存認證,為參保人員提供方便,同時也為國家節省了大量費用,避免養老金流失。
4、智能硬件。
聲紋識別解決了目前智能產品只能識別用戶說話內容而不能區分說話人身份的問題,使智能產品能夠區分不同角色,實現“聽、說、讀”。
使系統針對每一個人提供不同的內容和服務,使人機交互更加簡單,讓用戶享受到更加輕松、個性化、安全的產品體驗。
作為生物識別技術的最前沿,聲紋識別技術隨著技術的成熟將在越來越多的應用場景中落地,相信在不遠的將來,第三代身份證上的聲紋將成為繼指紋、人像之后又一項新的公民身份標 識。在我們未來的科技生活中,聲音將扮演越來越重要的角色。以上就是小編為大家介紹的人工智能黑科技——聲紋識別是什么,希望對您有幫助。
[免責聲明]
文章標題: 人工智能黑科技——聲紋識別
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。