語音識別技術(shù)并不是一項(xiàng)新興的技術(shù),并且技術(shù)門檻也不算太高。物聯(lián)網(wǎng)市場潛力巨大應(yīng)用眾多,在繁多的應(yīng)用中智能家居或許能優(yōu)先落地。不過,除了物聯(lián)網(wǎng)標(biāo)準(zhǔn)和觀念阻礙智能家居的發(fā)展,手機(jī)作為目前首要的入口也大大影響了體驗(yàn)。語音識別并不是一項(xiàng)新興的技術(shù),但在智能家居甚至人工智能領(lǐng)域或許能大展身手
語音交互應(yīng)該做什么?
王硯峰認(rèn)為,語音落地的產(chǎn)品,首先不應(yīng)該是所謂的“中控”,因?yàn)椤爸锌亍辈皇蔷唧w的產(chǎn)品;也不是所謂“機(jī)器人”,因?yàn)槟壳暗闹謾C(jī)器人不能幫人們解決任何實(shí)際需求和問題;他表示,“任何夸大人工智能在客廳產(chǎn)品中作用的行為都是耍流氓。
王硯峰對客廳中的語音應(yīng)用提出了兩個標(biāo)準(zhǔn):好產(chǎn)品和豐富的內(nèi)容。他表示比如亞馬遜Echo就是好產(chǎn)品,首先它本身是一個好的音箱,并且適應(yīng)美國家庭用戶的消費(fèi)文化和習(xí)慣,那在美國就屬于好的產(chǎn)品。
語音要在好產(chǎn)品上產(chǎn)生價值,就需要豐富的消費(fèi)內(nèi)容資源。僅僅作為控制器的語音對設(shè)備帶來的增值不大,而當(dāng)涉及內(nèi)容查詢以及更多交互時,才是語音最有價值的使用場景,“語音識別做耳朵,語義理解是大腦,智能家居上要讓語音有自然交互,需要更靈敏的耳朵以及更聰明的大腦?!蓖醭幏逯赋觥?/span>
怎么讓語音交互做的更好?
如何讓語音交互做的更好?王硯峰認(rèn)為要訓(xùn)練語音識別這一“更靈敏的耳朵”,需要大規(guī)模的優(yōu)質(zhì)語音訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)的技術(shù)能力積累,而搜狗在這一點(diǎn)上有著巨大的優(yōu)勢。據(jù)他介紹,搜狗擁有中國互聯(lián)網(wǎng)上最大的語音語料:作為國內(nèi)第一大語音輸入應(yīng)用,搜狗輸入法每天語音輸入頻次達(dá)到1.4億次,產(chǎn)生11.7萬小時的語料規(guī)模,比當(dāng)前國內(nèi)任何語音技術(shù)團(tuán)隊(duì)使用的訓(xùn)練語料都要大。另一方面,深度學(xué)習(xí)的技術(shù)不斷推動語音識別錯誤率的下降。從2013年開始,借助深度神經(jīng)網(wǎng)絡(luò)和海量用戶數(shù)據(jù),搜狗輸入法的線上錯誤率在過去幾年中累積下降了超過60%。
借助語料數(shù)據(jù)的“燃料”和深度學(xué)習(xí)的“發(fā)動機(jī)”,目前搜狗輸入法語音識別準(zhǔn)確率已超過97%。對于以當(dāng)前技術(shù)水平無法實(shí)現(xiàn)的剩下的3%,王硯峰指出,“這叫語音識別最后一公里問題”。他隨后介紹了搜狗輸入法今年推出了語音修改功能,借助自身的詞庫、拆字庫和用戶語料,以及知識圖譜的支持,如今用戶錯誤率已經(jīng)降低了80%,有效解決了語音識別“最后一公里”的問題。
而對于更聰明的“大腦”,王硯峰表示,傳統(tǒng)的通用語音助手不如場景化的專用語音交互更具實(shí)用性。他指出,通用語音助手難以解決用戶多種多樣的問題,因而面臨使用體驗(yàn)較差、屢遭用戶詬病的窘境;而搜狗通過借助多輪對話、技術(shù)圖譜等實(shí)現(xiàn)技術(shù)能力提升,并將使用場景明確化以降低問題難度,“對話能力、知識圖譜跟具體的場景結(jié)合起來,語音交互的處理能力、智能性、實(shí)用性就可以好很多。”
對于智能家居產(chǎn)品來說語音交互應(yīng)當(dāng)能從本質(zhì)上實(shí)現(xiàn)智能家居的讓生活更簡便的愿景。對消費(fèi)者來說,有一天能夠通過語音而不是無盡的app和遙控器實(shí)現(xiàn)對智能家居產(chǎn)品的操作,那將是一件多么美好的事。想像一下,一句“我覺得現(xiàn)在有點(diǎn)熱,溫度稍微調(diào)低點(diǎn)。”便能實(shí)現(xiàn)空調(diào)的溫度調(diào)節(jié),和找到遙控器再通過遙控按鍵將溫度調(diào)低,哪種更智能、更方便簡直顯而易見。