長(zhǎng)久以來,人類都含有一個(gè)共同的夙愿:發(fā)明一個(gè)機(jī)器,實(shí)現(xiàn)全世界之間毫無障礙的自由交流。而毫無疑問,自由交流,在一個(gè)宣稱為自由連接的互聯(lián)網(wǎng)時(shí)代,更能夠彰顯它的價(jià)值。畢竟,同是地球人,同住地球村,當(dāng)你我覓得彼此,卻聽不懂彼此的語言,實(shí)在有些尷尬
長(zhǎng)久以來,人類都含有一個(gè)共同的夙愿:發(fā)明一個(gè)機(jī)器,實(shí)現(xiàn)全世界之間毫無障礙的自由交流。而毫無疑問,自由交流,在一個(gè)宣稱為自由連接的互聯(lián)網(wǎng)時(shí)代,更能夠彰顯它的價(jià)值。畢竟,同是地球人,同住地球村,當(dāng)你我覓得彼此,卻聽不懂彼此的語言,實(shí)在有些尷尬。
微軟旗下的Skype進(jìn)行宣布,具備了實(shí)時(shí)語音翻譯的翻譯器Skype Translator中文預(yù)覽版已經(jīng)正式在中國(guó)的市場(chǎng)上推出了。其實(shí),不同于母語間的人直接對(duì)話,讓機(jī)器實(shí)時(shí)翻譯,這些技術(shù)微軟早在去年的時(shí)候就已經(jīng)與公眾見面了,只是那個(gè)時(shí)候還不支持中文。你知道,哪怕是對(duì)于機(jī)器,有大約一萬個(gè)常用漢字以及各種語音語調(diào)的中文也頗具挑戰(zhàn)性。但如今,包括微軟和谷歌在內(nèi)的科技巨頭的發(fā)力,使得地球上使用人數(shù)最多的語言與使用最廣泛的語言能夠直接開展對(duì)話了。
Skype的翻譯系統(tǒng)主要是分個(gè)三步驟:首先,把你的實(shí)時(shí)語音翻譯成文字;然后,再把文字翻譯成為另外一種語言的文字;最后,把文字轉(zhuǎn)換成語音。其中,識(shí)別實(shí)時(shí)語音并轉(zhuǎn)換成文字,一直是最棘手的部分。
如你所知,精準(zhǔn)的實(shí)時(shí)語音翻譯,有賴于強(qiáng)大的機(jī)器學(xué)習(xí),也就是軟件學(xué)習(xí)訓(xùn)練數(shù)據(jù)的能力。這些訓(xùn)練數(shù)據(jù)包括翻譯的網(wǎng)頁,配有字幕的視頻,以及預(yù)先翻譯且轉(zhuǎn)錄成文字的一對(duì)一談話。Skype Translator通過記錄對(duì)話來分析文本并且訓(xùn)練系統(tǒng)能夠更好地“學(xué)習(xí)”語言——當(dāng)準(zhǔn)備好的數(shù)據(jù)錄入系統(tǒng)后,機(jī)器學(xué)習(xí)軟件會(huì)在這些對(duì)話和環(huán)境涉及到的單詞中搭建一個(gè)統(tǒng)計(jì)模型,當(dāng)你說話時(shí),軟件會(huì)在統(tǒng)計(jì)模型中尋找相似內(nèi)容,然后應(yīng)用到預(yù)先“學(xué)到”的轉(zhuǎn)化程序中,得以讓語音轉(zhuǎn)換為文本,再從文本轉(zhuǎn)換成另一種語言。
值得一提的是,與程序設(shè)定一般的朗誦不同,人會(huì)一邊思考一邊說話,會(huì)犯錯(cuò),這種犯錯(cuò)在口語表達(dá)中的體現(xiàn)就是打磕巴,停頓,重復(fù),或者頻頻出現(xiàn)如“嗯”“啊”“呃”之類的語氣助詞,針對(duì)于此,Skype Translator的機(jī)器學(xué)習(xí)模型也會(huì)處理這些停頓。在預(yù)覽版中,用戶可以看到部分語氣詞停頓被移除,而未被移除的部分則可能通過用戶反饋進(jìn)行再優(yōu)化。
在數(shù)據(jù)進(jìn)入系統(tǒng)之后,機(jī)器學(xué)習(xí)軟件會(huì)為對(duì)話中的單詞建立統(tǒng)計(jì)模型,當(dāng)你說到某一個(gè)東西時(shí),系統(tǒng)會(huì)在統(tǒng)計(jì)模型里尋找類似的單詞,并響應(yīng)之前做過的類似的翻譯。實(shí)時(shí)語音翻譯對(duì)用戶對(duì)話的環(huán)境很敏感,稍有噪音干擾可能準(zhǔn)確度就會(huì)降低很多。這一方面,深度神經(jīng)網(wǎng)絡(luò)有效的減少識(shí)別錯(cuò)誤率,改善了系統(tǒng)的健壯性,讓實(shí)時(shí)翻譯能夠有更大的應(yīng)用范圍。
不過,作為一項(xiàng)不斷優(yōu)化的技術(shù),無論是微軟的Skype Translator還是“老對(duì)手”谷歌的Google Translate,至少在現(xiàn)階段,實(shí)時(shí)語音翻譯技術(shù)應(yīng)該還是談不上完美的,系統(tǒng)對(duì)語音的識(shí)別準(zhǔn)確率也有待完善。要知道,語言如同一只野獸,時(shí)刻都在變化,哪怕同一國(guó)家,因地域不同也有不同口音與俚語文化。這些問題可以通過更大范圍的數(shù)據(jù)解決么?也許能,但還需要時(shí)間。
然而無論怎樣,就像一位評(píng)測(cè)者所言:“整個(gè)體驗(yàn)就像是兩名電話銷售員在使用對(duì)講機(jī),不過在使用過程中,這樣的抱怨將會(huì)被‘奇跡’帶來的震驚所取代。”
Skype的機(jī)器學(xué)習(xí)原型通過預(yù)覽階段的大量數(shù)據(jù)進(jìn)行訓(xùn)練,并優(yōu)化語音識(shí)別(SR)和自動(dòng)化機(jī)器翻譯(MT)任務(wù),這些優(yōu)化包括去除語句中的不流利成分(比如“ahs”、“umms”和重復(fù)性的語言)、把文本分段成句子、增加標(biāo)點(diǎn)符號(hào)、文本的大小寫等等。
至于不同語言的文本翻譯,Skype利用的則是和Bing翻譯一樣的引擎技術(shù):語法和統(tǒng)計(jì)模型的結(jié)合使用,同時(shí)為特定語言進(jìn)行特殊的訓(xùn)練。普通的文本翻譯往往要求使用規(guī)范正確的書面語言,而Skype翻譯系統(tǒng)不僅包括Bing翻譯的引擎技術(shù),還額外增加了一層口語化的語言業(yè)務(wù)。
此外,Skype還建立了一套自定義的串連整個(gè)流程的架構(gòu),以協(xié)調(diào)系統(tǒng)里多個(gè)部分間的運(yùn)作。如何簡(jiǎn)單又高效的運(yùn)作整個(gè)系統(tǒng),也是一門不小的學(xué)問。
Skype的實(shí)時(shí)語音翻譯系統(tǒng)還面臨著很多挑戰(zhàn),比如語言的變化的速度很快,每個(gè)人說話的方式又很獨(dú)特,這些都會(huì)為實(shí)時(shí)翻譯造成不少的麻煩。但是,對(duì)于這一種可能會(huì)真正改變?nèi)藗兘涣鞣绞降目萍籍a(chǎn)品,越來越多的人都為之激動(dòng)。相信全人類的夙愿終會(huì)實(shí)現(xiàn)。