国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

語音助手成為最后一戰 但它聽的懂口音么?家電

砍柴網 / 虎嗅網 / 2017-05-02 17:17
 在使用Alexa訪問網頁,駕駛汽車,還有做其他雜七雜八事情時,我發現了一件有趣的事:Alexa竟然不能識別我老媽的口音!

在使用Alexa訪問網頁,駕駛汽車,還有做其他雜七雜八事情時,我發現了一件有趣的事:Alexa竟然不能識別我老媽的口音!

11

“這些軟件好像聽不懂我在說啥。”

我媽等了整整兩個月才收到Amazon echo這個軟件,不過她還要等我幫她安裝到手機上。

當我下載軟件的時候,她皺起了眉頭。我猜,她可能想到了過去使用Siri的不愉快回憶,也可能她現在會懷疑所有的語音助手設備。 她說:“這些軟件好像聽不懂我在說啥。”

我老媽出生在菲律賓,老爸出生在印度。英語是他倆的第三語言。雖然他們在美國已生活了近50年,早已能講流利的英語,然而多少還是會帶點兒口音,并常常夾雜不那么道地的短語。 過去,包括Siri、Alexa在內的語音識別技術設備,基本上都不能識別他們“特別”的語音指令。

這不是什么我父母才有的特殊經歷。(這樣的經歷甚至被記錄在某些喜劇中,比如這個廣為流傳的被困在語音控制電梯里的段子)我嫂子說,她發現Siri不能識別她朋友和家人的“民族名字”,所以就放棄了使用Siri。這種沮喪我能想象:某天我命令Siri“發短信給Zahir”,結果變成了“發短信給Zara”。

盡管看起來,這還不是什么太大的問題,但考慮到一場語音革命正在進行中,這個問題將會變得愈來愈重要。

 到2020年一半的搜索將會通過語音來執行

目前我們已經有了語音服務支持的可穿戴音頻視頻娛樂系統。由于在開車時司機們往往不怎么專心,語音控制系統可能很快將成為車輛的標配。GoogleHome和Amazon Alexa正想辦法實現數百萬美國家庭“智慧之家”的夢想。Echo是這個圣誕期間Amazon的暢銷王牌,它的銷量相對于2016年增長了900個百分點,甚至出現了延期交貨,這也是我前面提到的,導致我老媽等了好長時間才收到Echo的原因。

研究人員預計美國今年將有2450萬臺語音驅動設備投入使用,以此來支持人們的日常工作–– 這支持了ComScore的一項預測——到2020年,一半的搜索將會通過語音來執行。(譯者注:ComScore公司是一家全球性互聯網信息服務提供商,是美國知名的互聯網統計公司、互聯網流量跟蹤分析公司和市場調研公司)

隨著越來越多的語音控制科技的出現,語音服務如何實現更好地服務帶口音人群這一目標?

攻克帶口音人群目標,第一步收集更多音頻樣本

要訓練一臺機器識別語音,首先我們需要很多音頻樣本,研究人員必須收集成千上萬人講述各種話題的語音, 然后手動記錄這些音頻剪輯。 這些數據 (音頻剪輯和書面記錄的組合 )將會使得機器在聲音和單詞之間建立關聯。其中使用最頻繁的短語將被用于AI算法訓練,以識別人類說話。

AI只能識別出訓練過的內容,所以訓練內容的口音多樣性決定了語音識別軟件的靈活性。 當前,政府、學術界和小型創業公司已經能依靠已有的音頻和書面記錄(稱為語音語料庫)來避免人工轉錄錄音內容這樣的勞動密集型工作。 賓夕法尼亞大學的語言數據聯盟(LDC)是一個強大的語音語料庫。它根據許可協議向公司和研究人員提供這些數據集。

二十世紀九十年代早期,TexasInstruments推出了Switchboard語音數據庫,然后由LDC把Switchboard提供給其他機器學習程序使用。 Switchboard是一個由543位美國人錄制的大約2,400個電話對話組成的集合,共有約250小時的錄音。當時研究人員通過贈送長途電話卡來招募參與者。 參與者撥打電話和其他參與者聯系, 然后兩個陌生人會就特定的話題展開討論,比如如何撫養小寶貝,或最近的體育賽事如何。

因為LDC位于費城,多年來語言學家一直認為這些收集到的談話樣本總體上來看,應該會更接近美國東北部口音。 但是一直到應用程序Yik Yak的機器智能主管MarsalGavald拿到Switchboard參與者的資料時,他才發現在語言庫里中西部地區口音其實更多一些,而南部和北中部的口音比例合起來才到40%左右,遠沒有預想中那么多。

雖然還有許多其他語料庫,Switchboard仍然是語音識別系統模型的基準。IBM和Microsoft都使用Switchboard來測試其語音系統單詞的錯誤率。 Gavaldà告訴我們:“幾乎所有的語音識別引擎都使用了這套超500人樣本的語料庫進行訓練”。

以一個只有26年時間限度的語料庫為基礎開發出來的語音技術,不能識別某些口音是無法避免的。 雖然英語是語言市場中的專業貨幣,但現實中許多的人是將它作為第二、三甚至第四語言來學習的,口音無法避免。將該過程與藥物試驗相比較,Gavaldà認為:“比如這種藥可能已經在一百名患者中被試驗過了,但100人相對龐大的人口基數非常微不足道。如果想以此推斷在大多數人身上的效果,試驗對象的數量不太具有說服力。”

競爭使得數據無法共享,最新語音識別技術流傳緩慢

大多數智能手機的銷售都在美國以外的地區,所以大公司需要在全球范圍內保持競爭力。蘋果、谷歌和亞馬遜都有自己一套收集語言和口音數據的秘訣。使用他們產品的消費者越多,能搜集到的反饋就越多,然后就能通過Alexa應用程序上的語音培訓等程序來改善他們的產品。

雖然大型科技公司在收集語音數據方面取得不錯的進展,但是由于相互的競爭關系,和市場份額等原因,這些數據無法實現共享。 這是為什么往往最新的語音識別技術需要花費很長時間才能流傳開的原因。 這個秘密也適用于我的這篇報道。 亞馬遜從來沒有回復過我讓他們評論這篇報道的請求,谷歌的發言人讓我去看一篇介紹他們深度學習技術的博客,而蘋果的公關代表則指出現在可以為36個國家定制不同的Siri版本,并支持21種語言、語言變體和口音。

其他國家和地區的企業也意識到口音的重要性。 中國搜索引擎公司百度的一位代表表示,他們建立在深度學習上的對英語和漢語的語音識別精度,比人類識別的更加高。此外,百度還開發了一種能夠識別方言和口音的“深度語音”算法。當時的百度首席科學家吳恩達(譯者注:目前已離職)告訴《大西洋月刊》 :“中國對英語世界發生的情況相當了解,不過英語世界可能并不了解中國在發生什么。”

另一方面,無力投資在語音數據收集上的小公司和個人會傾向于使用更便宜、更容易獲得的數據庫。這些數據庫在語音數據多樣化方面,可能不如之前提到的著名語音數據庫。 會議記錄初創公司Remeeting的研究員Arlo Faria說到:“至少從我的角度來看,(語音數據)并沒有真正變得更加多元化。例如Remeeting研究了一個叫作Fisher的語料庫,雖然其中包含一組非英語母語的參與者,但還是忽略了很多其他口音。 比如Fisher里雖然有一些西班牙和印度口音英語,但英國國內不同口音數據卻不那么全。”

語音科學仍是最終解決口音識別問題的關鍵所在

這就是為什么語音識別技術與人類的反應不同。Pop UpArchive(奧克蘭音頻搜索平臺)的聯合創始人兼首席執行官AnneWootton說:“通常軟件識別印度口音時更加靈活,而識別像ShenandoahValley南方地區口音會更難一些。我認為這和培訓數據是否包括這些口音有重要關系。”

華盛頓大學語言學系的社會語言學方向博士研究生Rachael Tatman指出,這些數據中代表性不足的群體往往是在現實中也是被排斥的群體。 例如,美國的語音數據庫中缺乏貧困群體、未受過教育的群體、農村群體、非白人群體、母語非英語群體的英語聲音。 她說:“如果某人具有越多的上述特質,那對其的語音識別效果就越差。”

盡管如此,Trint的首席執行官兼聯合創始人JeffreyKofman(一個英國自動化語音文本軟件公司)卻堅信語音科學是最終解決口音識別問題的關鍵所在。 他談到,當人們在Trint平臺上視頻聊天時,Trint可以把澳大利亞口音像英國口音和北美口音一樣順利轉為書面記錄。 Trint還為十幾種歐洲口音的英語提供語音轉錄記錄,并計劃在今年晚些時候增加南亞口音。

收集口音語音數據耗資不菲,并且十分麻煩,這也是為什么大多數公司優先考慮收集關鍵人群語音數據的原因。有南亞口音的Kofman說:“比如在印度、巴基斯坦以及英國、美國和加拿大這些人數眾多的國家,人們說話很帶有明顯的口音。”他表示接下來會優先考慮南非的口音。

顯然,不僅語音識別技術歧視帶有口音的人群,人類也有。大眾媒體和全球化對人們說話的口音有著很大影響。 演講專家記載了自1960年以來美國某些區域性口音的變化趨勢,人們傾向于對來自混合地理區域的人使用更一致的口音,比如數字助理或接線員就使用沒有口音的聲音。

我們也可以理解為,是一種沒有任何口音的聲音。

隨著語音識別技術的進步,這種使用機器人才能聽懂的標準口音與設備進行互動的方式將面臨挑戰。如果人們不需要像對機器說話一樣來對設備說話,就可以像一個人類朋友那樣自然地和設備說話。 當前有不少人在利用與語音助手對話來糾正發音中的方言,但來自舊金山的普通話教學從業者Lisa Wentz老師并不推薦學生這樣做。

她的大部分學員或多或少都覺得自己的口音妨礙和他人交流,他們希望通過訓練可以讓別人聽懂自己的話,而不是一遍又一遍的解釋剛才的內容。在這種情況下,如果他們使用當前這種還不能很好的適應不同口音的語音設備,無疑會加劇他們的挫敗感。

帶著口音給Alexa指令就像在教小孩兒學說話

我和我老媽一起設置了她手機上的Alexa應用程序,但她好像并不是很期待。 我都能想象到她對聲音驅動汽車的不信任和恐懼。我猜老媽可能永遠都不會坐這種車,因為她非常非常擔心發生車禍。 不過呢,她還是向Echo問了幾個問題。

比如,她說:“Alexa,播放Que sera sera(譯者注:一首歌名)。”

“我找不到這首歌:Kissyour ass era.。”

這種識別結果真讓人哭笑不得。 她又慢慢地重復了一次,就像在和一個小孩兒說話: “A-l-e-x-a,播-放-Que- sera-sera 。”她甚至還輕輕地唱出了sera 的每個音節,希望軟件可以清楚地收錄到“se-rah”。

這次Alexa明白了我媽的意圖。 他說“這是Doris Day的Que sera sera的歌詞。”然而它的sera單詞發音有些刺耳 ,聽起來更像“se-raw”。

《Kiss your ass era》是首1964的老歌。Alexa能識別我媽出語音和意圖,讓她高興了好一陣子。

來源: 虎嗅網 



1.砍柴網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為砍柴網或將追究責任;3.作者投稿可能會經砍柴網編輯修改或補充。


閱讀延展



最新快報

1
3