百度CTO王海峰公布“成績單”:語音能力日均調用量過100億

人瀏覽 2019-11-30 12:30:20

DoNews 11月28日消息(記者 向密) 百度大腦宣布語音能力引擎日均調用量已經超過100億次,為

1.png

DoNews 11月28日消息(記者 向密) 百度大腦宣布語音能力引擎日均調用量已經超過100億次,為開發者提供了覆蓋云、端、芯的全棧全場景語音開放能力,推動智能語音技術在各行業落地應用。

百度首席技術官王海峰表示,AI技術的進化和產業賦能正向循環,相互促進,AI在應用場景中不斷進化。百度的語音技術基于深度學習和產業應用加速突破,已應用到百度App,百度地圖、小度音箱,百度輸入法等百度產品,更通過AI開放平臺賦能眾多產業伙伴。

隨后,百度語音首席架構師賈磊發布智能語音交互新技術——“基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術”,該方法拋棄了數字信號處理學科和語音識別學科的各種先驗假設,消除學科間壁壘,直接端到端進行一體化建模。

賈磊介紹,百度提出的基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術,相較于傳統基于數字信號處理的麥克陣列算法,錯誤率降低超過30%。目前該方法已經被集成到百度最新發布的百度鴻鵠芯片中。

具體而言,該模型底部以復數CNN為核心,利用復數CNN網絡挖掘生理信號本質特征的特點,采用復數CNN, 復數全連接層以及CNN等多層網絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯耦合信息。在保留原始特征相位信息的前提下,同時實現了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優化準則完全依賴于語音識別網絡的優化準則來做,完全以識別率提升為目標來做模型參數調優。

與此同時,搭載該項語音技術的三款基于鴻鵠語音芯片的硬件產品也全新發布:芯片模組 DSP芯片+Flash、Android開發板DSP芯片+ RK3399、RTOS開發板DSP芯片+ESP32?,F場,賈磊還描述了基于鴻鵠語音芯片的端到端軟硬一體遠場語音交互方案以及全新發布的針對智能家居、智能車載、智能IoT設備的三大場景解決方案。

除此之外,在語音識別領域,百度大腦全面升級短語音識別、實時語音識別能力,發布音頻文件轉寫能力,升級可零代碼提升業務術語識別率的語音自訓練平臺,以及呼叫中心語音解決方案;在語音合成方面,全新發布6個在線語音合成精品音庫和5個離線語音合成精品音庫。

目前,百度大腦通過AI開放平臺已開放228項技術能力,擁有超過150萬的開發者用戶。(完)

頻道總排行

羅永浩:怕麻煩、不想打工受委屈的人不適合創業

IT之家5月16日消息 今天上午,羅永浩通過其個人微信公眾號發布
11月-30日

李開復:我從微軟/蘋果/谷歌身上學到的8件事

IT之家訊12月9日消息近日創新工場創始人李開復在2015年創業社群
11月-30日
查看更多
亲吻王子官网 伯爵彩票群 拍照赚钱 定价和什么有关 优惠赚钱 浙江快乐12任三奖金表 分分彩官网95692权威l 北京时时彩 去年加盟零元赚钱项目 中国的药店赚钱吗 湖北快三 象棋布局名称 2017玩什么网游能赚钱 云南11选5 北京pk10吕新x全方揭秘 貔喜脉动棋牌app 奥讯足球指数 上海护理站赚钱吗