穀歌開(kāi)源AI能區分聲音 準確率(lǜ)達92%

據VentureBeat報道,在語音嘈雜(zá)的環境中,要想分辨出有幾個人講話、在什麽時間講話,對於(yú)機器(qì)來說非常困難。但穀歌人工智能(AI)研究部門在(zài)語音識別方麵取得了新進展,能以(yǐ)92%的準確率識別出每個人聲音的專屬模式。

穀歌AI研究部門在最新名為《Fully Supervised Speaker Diarization》的論(lùn)文和相關博客文章中,研究(jiū)人員描述了一種新的AI係統,它“能以一種更有效的方式識別聲音”。


圖1:穀歌智能音箱Google Home

這套係統涉(shè)及到Speaker diarization任務(wù),即需(xū)要標注出“誰”從(cóng)“什麽時候”到“什麽時候”在說話,將語音樣本分割成獨特的、同構片段的過程。強大的(de)AI係統必須能夠(gòu)將新的演講者發(fā)音(yīn)與它以前從未遇到過的語音片段關聯(lián)起(qǐ)來。

這篇論文的作者聲稱,核心算法已(yǐ)經(jīng)可在(zài)Github上的開源軟件中可用,它實現了一個在線二值化錯誤率(DER),在NIST SRE 2000 CALLHOME基準上是7.6%,這對於實時應用來說已經足夠低了(le),而穀歌之前使用的方法DER為8.8%。

穀歌研究人員的新方法是通過遞歸神經網絡(RNN)模擬(nǐ)演講者的嵌入(如詞匯和短語的(de)數學表示(shì)),遞歸神經網絡是一種機器(qì)學習(xí)模型,它可以利用內部狀態來處理輸入序列。每個演講者都從自己的RNN實例開始(shǐ),該實例不斷更新給(gěi)定新嵌入的RNN狀態,使係統能夠(gòu)學習發言者(zhě)共享的高(gāo)級知識。

研究人員在論文中寫道:“由於該係統(tǒng)的所(suǒ)有組件都可以在監督環境下學習,所以在(zài)有高質量時間(jiān)標記演講(jiǎng)者標簽訓練數據的情況下,它比無監督係統更受青睞。我們(men)的係統受到(dào)全麵監督,能夠從帶(dài)有時間戳的(de)演(yǎn)講者標簽例子中學習(xí)。”

在未來的(de)工作中,研究團隊(duì)計劃改進模型,使其能夠集成上下文信息來執行脫機解碼(mǎ),他們希望這將進一步減少DER。研究人員還希望能(néng)夠直(zhí)接對聲學特征進行建模,這樣整個Speaker diarization係統就可以進行端到(dào)端訓練。




香港(gǎng)昆侖科(kē)技有限公司主要致力於地鐵,高速公路隧(suì)道,石油化工,冶金核電,海工造船。橋梁礦(kuàng)山等(děng)行業內部應急專用通訊係統,風(fēng)景區,機場遊客求助管理係統,市政SOS,110,119報(bào)警係統。特種工業IP電話機,SOS 電(diàn)話機,IP調(diào)度係統的研發、生產和(hé)銷(xiāo)售。

防爆電話機、消防電話機昆侖KNZD-65, 昆侖(lún)KNSP-13,昆侖KNSP-22等等。

有主機呼叫係統:KNPA-7石油化工作業(yè)區電(diàn)話廣播視屏遠程控製係統。

KNPA5無主(zhǔ)機(jī)呼叫係統:無主機呼叫係統核電、陸上、海上平台應用等等。

解決方案:地鐵(tiě)、高鐵(tiě)、核電(diàn)、石油化工等解決(jué)方案

昆侖科(kē)技綜合(hé)管廊通信係統解(jiě)決方案昆侖科技綜合管廊管道通信(xìn)係統解決方案

詳細的產品信息敬請關注公司官(guān)網:http://www.koontech.com/cn/Index.htm

乱H合集系列小说目录男男丨欧美日韩精品网丨精品国产国产综合精品丨国产资源一区丨亚洲国产不卡顿免费无码看av丨久久精品免费看国产成人丨欧美日韩精品免费一区二区三区丨亚洲人成网77777色在线播放