不久前,百度的首席科學(xué)家吳恩達(dá)(Andrew Ng)在接受採訪時曾談到了百度最近人工智慧的進(jìn)展情況,,強調(diào)了近期百度重點是攻關(guān)語音識別?,F(xiàn)在他們已經(jīng)在這方面取得了突破。
這項成果的名字叫做Deep Speech,,是一款採用深度學(xué)習(xí)技術(shù)的語音識別系統(tǒng)系統(tǒng),。其獨特之處在于,它可以在飯店等嘈雜環(huán)境下實現(xiàn)將近81% 的辨識準(zhǔn)確率,。
81%的準(zhǔn)確率聽起來似乎不算高,。但是同樣環(huán)境下,,其他的商業(yè)版語音識別API,包括Bing,、Google以及Wit.AI等的最高識別率也只有65%,。相比之下這就算十分突出的表現(xiàn)了。而且按照吳恩達(dá)的說法,,這樣的結(jié)果依然低估了Deep Speech與其他語音識別系統(tǒng)的準(zhǔn)確率差異,,因為Deep Speech進(jìn)行比較時還把其他語音識別系統(tǒng)那些返回空白字符串的結(jié)果排除在外了。而且Deep Speech跟頂級的學(xué)術(shù)型語音識別模型(基于流行的數(shù)據(jù)集Hub5'00建模)相比也高出9個百分點,。
百度首席科學(xué)家吳恩達(dá)稱儘管這還只是一項研究,,但是公司正在考慮將它集成到供智慧手機和Baidu Eye之類的可穿戴設(shè)備使用的語音識別軟體當(dāng)中。而且百度還在開發(fā)與Amazon Echo類似,、集成有語音助理的家電產(chǎn)品,,名字叫做CoolBox。除此以外,,百度在開發(fā)的智慧自行車當(dāng)然也能利用Deep Speech技術(shù),。
Deep Speech 的基礎(chǔ)是某種遞歸神經(jīng)網(wǎng)絡(luò)(RNN),這種遞歸神經(jīng)網(wǎng)絡(luò)經(jīng)常被用于語音識別和文本分析,。
但是Deep Speech 的成功主要得益于一個長達(dá)10 萬小時的語音數(shù)據(jù)訓(xùn)練集,。這是百度人工智慧實驗室團(tuán)隊用新穎的辦法在嘈雜環(huán)境下建立的。其過程大致是這樣的,。首先百度收集了7000 小時的語音會話數(shù)據(jù),,然后再將這些語音文件與包含有背景噪音的文件合成到一起,最后形成約10 萬小時的訓(xùn)練集,。這些背景噪音包括了飯店,、電視、自助餐廳以及汽車內(nèi),、火車內(nèi)等場景,。相比之下,Hub5'00 的數(shù)據(jù)集總共只有2300 小時,。
當(dāng)然,,這幺龐大的數(shù)據(jù),大多數(shù)系統(tǒng)都不知道如何去處理,。吳恩達(dá)表示,,Deep Speech的成功很大程度上要取決于百度規(guī)模龐大的基于GPU的深度學(xué)習(xí)基礎(chǔ)設(shè)施。GPU(圖形處理器)往往是偏數(shù)學(xué)型計算的首選,。許多深度學(xué)習(xí)系統(tǒng)都採用GPU避免通信瓶頸(不過微軟的深度學(xué)習(xí)系統(tǒng)Adam卻走了不同的路線),,但是像百度這樣大規(guī)模的設(shè)施卻是少見的。
百度的另一大改進(jìn),是對這個龐大的數(shù)據(jù)集採用了點到點的深度學(xué)習(xí)模型,,而不是標(biāo)準(zhǔn)的,、計算代價高昂的聲學(xué)模型。傳統(tǒng)上一般都會把語音識別分別為多個步驟,,其中一步叫做語音調(diào)適,,但是百度卻不做這一步,而是給Deep Speech 的算法提供大量的數(shù)據(jù),,然后讓它去學(xué)習(xí)所有需要學(xué)習(xí)的東西,。這種做法除了收穫了準(zhǔn)確率以外,還顯著減少了代碼庫的規(guī)模,。
這項研究是吳恩達(dá)領(lǐng)導(dǎo)的百度人工智慧實驗室多位研究人員的努力成果,,論文發(fā)表在康乃爾大學(xué)圖書館的arXiv.org網(wǎng)站上,感興趣的可到此處下載,。
本文出自36氪 / boxi
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,,任何模仿本站模板,、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利,!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機房
在線體驗