• 瀏覽: 187
  • 回覆: 1
+15
[隱藏]

新智元報道

編輯:好睏 LRS

【新智元導讀】翻譯軟體翻車的案件屢見不鮮,但這次谷歌翻譯的翻車卻涉及「辱華」,網友怒斥谷歌夾帶私貨。問題披露後谷歌翻譯第一時間釋出公告並迅速修復,並聲稱此次事故要背鍋的是訓練語料!

谷歌翻譯翻車了!

大部分人使用翻譯軟體時,對於翻譯後的語言大部分都是看不懂的,所以除了選擇相信翻譯後的結果,並沒有其他選擇。

但如果翻譯結果你能看懂,並且發現他翻譯錯了,那。。。


最近安徽省團委在微博上發現谷歌翻譯會將一些艾滋病相關的詞翻譯為中國侮辱性詞彙,引發網友對谷歌翻譯的反感和憤怒。


在英翻中的英文對話方塊輸入「新聞」,「傳播」等詞彙,中文部分顯示的仍然是「新聞」和「傳播」。

但在英文對話方塊輸入「艾滋病毒」等類似詞彙,中文翻譯就會顯示惡毒攻擊中國的詞彙。如輸入「艾滋病人」,就會出現「武漢人」的中文翻譯。

此外,在俄語對話方塊輸入「艾滋病人」,也同樣出現了「武漢人」的中文翻譯。

不過也有網友發現谷歌翻譯也會將「埃博拉病毒」翻譯為「紐約病毒」。


目前谷歌翻譯的問題已無法復現,有網友認為谷歌是在「夾帶私貨」,但Google 在微博上的解釋是「模式」,也就是說訓練語料要背大鍋,如果訓練語料存在夾帶私貨的情況,那翻譯結果也不會準確。


在谷歌迴應之後,安徽省團委也再次發文表示「希望廣大網友們能理性對待,中國人民不可辱!」


對此,NeX8yte指出,國際網際網路上中文的語料大部分並不掌握在我們自己手裡,而且此類結果很可能是經過了中介語言,從而也就放大了錯誤。

今天雷雨三級風則從技術角度指出,谷歌翻譯是可以通過大量使用者提交的修改進行「糾錯」的。當翻譯結果被大量使用者「更正」之後,那麼谷歌就會認為這樣翻譯是對的,從而修改顯示的結果。

銀藍劍6H17也表示,這種結果的出現一方面是機器學習用了髒語料,讓部分中文輸入也可以輸出翻譯結果,另外一方面就是模型到api的呼叫階段管理出現了真空。

曹哲的雜貨鋪認為這是有意製造的:

為什麼恰好會有人找到谷歌翻譯,又恰好翻譯這些並不常用的詞語,又雙叒叕恰好把忽略系統建議硬把源語言設成「英文」呢?

輸入一段中文,然後硬告訴程式這是英文,讓他把這玩意「翻譯」成中文,其直接後果無非就是程式被你玩炸了,程式會認為這條「英文」它不會翻譯,這時候只要有心人把這個用漢語寫成的「冷門英文單詞」在翻譯社羣提交翻譯建議,就很容易達成這種結果。

順便一提,谷歌2010 年退出中國內地市場。


時任國務院新聞辦公室網路局負責人同年3月23日指出,外國公司在中國經營必須遵守中國法律。谷歌公司違背進入中國市場時作出的書面承諾,停止對搜尋服務進行過濾,並就黑客攻擊影射和指責中國,這是完全錯誤的。我們堅決反對將商業問題政治化,對谷歌公司的無理指責和做法表示不滿和憤慨。

時任工業和資訊化部部長李毅中同年3月12日在迴應「谷歌退出中國事件」時說,中國的網際網路是開放的,進入中國市場就必須遵守中國法律。

翻車才是常態?

當然,不僅谷歌翻譯,各種翻譯軟體也是經常翻車。

例如大量重複的翻譯的內容相信經常使用翻譯的使用者都會遇到過。


古文翻譯也是一個常見的翻譯場景,但可能是翻譯語料太少的緣故,常見的名人名言都無法正確翻譯,不過語氣詞倒是翻譯的很準確。


一些歷史事件如虎門銷煙(Destruction of opium at Humen),如果沒有建立專門的短語庫,也是一個大型翻車現場,例如百度翻譯曾經把「林則徐虎門銷煙」翻譯為「林則徐在虎門賣煙」,目前該問題已經修復。

不過這也不能怪翻譯軟體,畢竟「銷售」也是這個「銷」,只能說中華文化博大精深,翻譯軟體也要倒在一詞多義上。


一些明星與粉絲互動時也要依靠翻譯軟體,由於不懂目標語言,所以他們也無法檢驗翻譯結果是否正確。

例如原本的意思是讓沒能到場的聖女們也能夠high起來,然而也許是翻譯軟體太過於直白,弄出了一些虎狼之詞。


機器翻譯技術發展

由於語言的博大精深,儘管機器翻譯已經發展了70年,但翻譯軟體目前還沒有到令人滿意的程度,而機器翻譯卻是在網際網路時代最重要的基礎工具。

谷歌曾報告過,全世界網際網路內容中英文佔到了50%。與此同時僅有20%的人口能夠看懂英文,可以說對於世界上大多數的人來說網際網路上的大部分內容是與不懂中英文的人來說是絕緣的。

一般認為機器翻譯的歷史始於1950年代,雖然相關理論和研究較早已經進行,但在1954年初的喬治城大學的實驗,即電腦成功將四十多條俄文句子自動翻譯成英文,是機器翻譯史中的一個里程碑,標誌著現代機器翻譯的開端。


在當時研究人員聲稱在三或五年內,機器翻譯中遇到的語言邏輯的困難將會迎刃而解,美國和蘇聯為此投入了大量資金研究機器翻譯。

然而,實際進展比預期慢得多。

1966年,自動語音處理顧問委員會(Automatic Language Processing Advisory Committee, ALPAC)報告發現十幾年來的研究未能達到預期的成果,而且認為機器翻譯在短期內不會取得突破性進展。

此報告一出,相關的研究經費大幅萎縮。


直至80年代後期,由於電腦運算效能的提升及電腦成本的降低,研究的重心開始放在機器翻譯統計模型上。

至今仍沒有一個翻譯系統能夠達到「全自動優質翻譯任何文體」(fully automatic high quality translation of unrestricted text)的境界。

但在使用場景的嚴格限制下,已經有很多程式能夠提供相對準確的翻譯了。

在神經網路在NLP領域大火前,機器翻譯界的主流方法都是Phrased-Based Machine Translation (PBMT),Google翻譯使用的也是基於這個框架的演算法。

所謂Phrased-based,即翻譯的最小單位由任意連續的詞(Word)組合成為的短語(Phrase)。


首先,演算法會把句子打散成一個個由詞語組成的片語(中文需要進行額外的分詞);

然後,預先訓練好的統計模型會對於每個片語,找到另一種語言中最佳對應的片語;

最後,需要將這樣「硬生生」翻譯過來的目標語言片語,通過重新排序,讓它看起來儘量通順以及符合目標語言的語法。

傳統的PBMT的方法,一直被稱為NLP(Natural Language Processing,自然語言處理)領域的終極任務之一。

因為整個翻譯過程中,需要依次呼叫其他各種更底層的NLP演算法,比如中文分詞、詞性標註、句法結構等等,最終才能生成正確的翻譯。這樣像流水線一樣的翻譯方法,一環套一環,中間任意一個環節有了錯誤,這樣的錯誤會一直傳播下去(error propagation),導致最終的結果出錯。

因此,即使單個系統準確率可以高達95%,但是整個翻譯流程走下來,最終累積的錯誤可能就不可接受了。

由於神經網路的大火,目前的機器翻譯技術大多都採用神經網路機器翻譯(Neural Machine Translation, NMT)的方式。

相比於傳統的統計機器翻譯(SMT)而言,NMT能夠訓練一張能夠從一個序列對映到另一個序列的神經網路,輸出的可以是一個變長的序列,這在翻譯、對話和文字概括方面能夠獲得非常好的表現。

NMT本質上是一個encoder-decoder系統,encoder把源語言序列進行編碼,並提取源語言中資訊,通過decoder再把這種資訊轉換到另一種語言即目標語言中來,從而完成對語言的翻譯。


NMT這樣的過程直接學習源語言到目標語言,省去了訓練一大堆複雜NLP子系統的依賴,依靠大量的訓練資料(平行語料庫,比如同一本書的中文和英文版本),直接讓深度神經網路去學習擬合,省去了很多人工特徵選擇和調參的步驟。

2015年,Yoshua Bengio團隊進一步,加入了Attention的概念。稍微區別於上面描述的Encoder-Decoder方法,基於Attention的Decoder邏輯在從隱層h中讀取資訊輸出的時候,會根據現在正在翻譯的是哪個詞,自動調整對隱層的讀入權重。即翻譯每個詞的時候,會更加有側重點,這樣也模擬了傳統翻譯中片語對片語的對應翻譯的過程。

Bengio團隊的這個工作也奠定了後序很多NMT商業系統的基礎。

時至今日,框架還是那個encoder-decoder,但模型也已經換了一個又一個,從RNN到Transformer,本質不變的還是訓練資料。

如果訓練資料不乾淨,那以後谷歌翻譯這樣的「事故」還會更加多,人工智慧的發展也應符合社會統一的道德要求,只有加強資料和技術上的審計才能避免社會問題。

參考資料:

https://weibo.com/7532796319/L3i2ajckR?refer_flag=1001030103_

https://world.huanqiu.com/article/45kM1mkchMV



原文連結:https://inewsdb.com/數碼/谷歌翻譯陷入“辱華”風波:夾帶私貨還是訓練語

inewsdb.com 日日新聞 . 掌握每日新鮮事



inewsdb.com 日日新聞 . 掌握每日新鮮事
哇哦


[按此隱藏 Google 建議的相符內容]