唐能翻譯牛:
現(xiàn)在的翻譯器,很多都是作秀成分多,當(dāng)然像這樣明目張膽地讓人去扮演機(jī)器的也是太夸張一點(diǎn)。 方向都是明確的,機(jī)器肯定是會(huì)在翻譯工作中不斷學(xué)習(xí),表現(xiàn)越來越好,越來越能承擔(dān)一部分以前人做的工作;但現(xiàn)階段,機(jī)器的表現(xiàn)還遠(yuǎn)遠(yuǎn)沒有達(dá)到令人滿意的水平,還有很長(zhǎng)的路要走。任何說機(jī)器來了,人工翻譯就立馬可以下崗了的說法都危言聳聽。
人工和機(jī)器相結(jié)合,才能給出更好的解決方案,釋放出原先被壓抑的更大需求。
以一個(gè)“八卦”作為開頭吧。
本文開始要寫作的時(shí)候,翻譯圈里出了一個(gè)“爆炸性”的事件。6月27日下午,一個(gè)同傳譯員在朋友圈里爆料:某AI公司請(qǐng)這位譯員去“扮演”機(jī)器同傳,制造人工智能取代人工同傳的“震撼”效果。
這個(gè)事件瞬間在譯員群體的朋友圈、微博、微信群引爆了隱忍已久的火藥桶。因?yàn)檫^去幾個(gè)月來,隔三差五就冒出一個(gè)號(hào)稱要取代同聲傳譯的翻譯機(jī),尤其是一篇題為《剛剛宣告:同聲傳譯即將消亡!》的微信文章,在六月下旬鋪天蓋地的充滿了一堆有關(guān)的或者無關(guān)的公眾號(hào),不知道帶來了幾個(gè)10萬+。幾乎每個(gè)翻譯行業(yè)的從業(yè)者,都收到了朋友略帶同情關(guān)切的口氣轉(zhuǎn)過來的那篇文章,從一開始的“呵呵”到逐漸不堪其擾,終于被上面這個(gè)事情徹底激怒了。微博上的@同聲翻譯櫻桃羊 嗆聲道:
還有臺(tái)上的演講嘉賓,光鮮亮麗的,德高望重的,一邊享受著我們的服務(wù),一邊兒說以后同傳都要失業(yè),骨子里透著對(duì)這個(gè)行業(yè)的輕慢——“你們以后都是要被替代的工種,我們何必在乎你們的感受?”有本事不要請(qǐng)我們,既然請(qǐng)了我們,在說這句話之前,能不能跟現(xiàn)場(chǎng)辛苦工作的同傳說聲抱歉?
“積怨”深到了什么樣的程度,可見一斑。
這件事后來有了一個(gè)略帶戲劇性的轉(zhuǎn)折。兩天后,《消亡》文中被吹捧的曉譯翻譯機(jī)的制造者,科大訊飛(注意:沒有證據(jù)表明上面的造假和訊飛有關(guān))在其公眾號(hào)上發(fā)布了一篇題為《拒絕神化 人工智能技術(shù)需踏實(shí)前行》的文章。重點(diǎn)在這兩段:
目前,機(jī)器翻譯已經(jīng)取得非常大的進(jìn)步,在衣食住行等常用生活用語上的中英翻譯可以達(dá)到大學(xué)六級(jí)的水平,能夠幫助人們?cè)谝恍﹫?chǎng)景處理語言交流的問題,但距離會(huì)議同傳以及高水平翻譯所講究的“信、達(dá)、雅”還存在很大的差距。
訊飛一直所努力的,是希望通過語音轉(zhuǎn)寫和翻譯技術(shù)幫助同傳提高工作效率、減少失誤,形成人機(jī)耦合的同傳新模式,并不是去替代同聲傳譯。
好吧,原來是“被神化”,原來“我是拒絕的”。但是不管怎么樣,此文一出,又收獲了不少不明真相群眾的交口稱贊。而義憤填膺的譯員們,也迅速恢復(fù)了低調(diào)內(nèi)斂的幕后工作者姿態(tài)。甚至連揭發(fā)造假者的呼吁,也立馬無聲無息了。
作為一個(gè)混跡在人工翻譯圈的機(jī)器翻譯工作者,我感覺到,這個(gè)事情暴露出了一些對(duì)翻譯行業(yè)的很深的誤解,無論是普通大眾還是機(jī)器翻譯/人工智能工作者。本文的主題,初衷就是探討人機(jī)結(jié)合對(duì)于機(jī)器翻譯發(fā)展的重要性。所以,有必要首先澄清一下這些誤解。GitChat的讀者們可能更期待技術(shù)深度,一開始我也打算寫得更技術(shù)流一些。但是,上面這個(gè)事件出現(xiàn)之后,我覺得在關(guān)心人機(jī)結(jié)合模式的技術(shù)實(shí)現(xiàn)之前,我們還是得多探究一下問題的本質(zhì)。雄心勃勃要替代人工的同行們,也得先知道要替代的到底是神馬樣的存在,不是么?
誤解一:翻譯就是簡(jiǎn)單機(jī)械的語言轉(zhuǎn)換
對(duì)翻譯工作的誤解非常多,這點(diǎn)是核心的,很多其他誤解(比如會(huì)外語就能做翻譯、翻譯人才遍地都是、翻譯不需要理解專業(yè)就能做等)和由此產(chǎn)生的輕慢(翻譯沒有技術(shù)含量、隨便可以替代、不值錢等),正是根源于此。
為什么這么多人“一致”相信翻譯即將被替代?除了博眼球的自媒體之外,“替代黨”包括了太多的互聯(lián)網(wǎng)大佬,比如庫(kù)茲韋爾、李彥宏、李開復(fù)、王小川等等。我們來看看這背后的邏輯是什么。
李開復(fù)在其新書《人工智能》中提出了一個(gè)“五秒鐘準(zhǔn)則”:一項(xiàng)本來由人從事的工作,如果人可以在5秒以內(nèi)對(duì)工作中需要的思考和決策的問題做出相應(yīng)的決定,那么,這項(xiàng)工作就有非常大的可能被人工智能技術(shù)全部或部分取代。
然后基于“五秒鐘準(zhǔn)則”,該書預(yù)測(cè):從事翻譯、新聞報(bào)道、助理、保安、銷售、客服、交易、會(huì)計(jì)、司機(jī)、家政等工作的人,未來10年將有約90%被人工智能全部或者部分取代。
顯然,翻譯不幸被首當(dāng)其沖的歸入“五秒鐘”可以解決的問題。大概是同聲傳譯這個(gè)帶著光環(huán)的工種給大家?guī)砹艘粋€(gè)幻覺:翻譯不就是幾秒鐘就出來的嗎?而且,據(jù)說同傳還是所有翻譯工作里難貴的,那其他翻譯豈不是更不在話下?
事實(shí)上呢?口譯員們知道,為了準(zhǔn)備一場(chǎng)會(huì)議口譯,事先要提前做多少天的功課,會(huì)前要做多少溝通協(xié)調(diào),會(huì)中要多注意隨機(jī)應(yīng)變;更不用說,達(dá)到可以做同傳的水準(zhǔn),要經(jīng)過多少年鬼知道經(jīng)歷什么的刻苦訓(xùn)練。用“臺(tái)上一分鐘,臺(tái)下十年功”來形容口譯員的工作,再貼切不過。而筆譯的工作,也一點(diǎn)都不輕松,也同樣需要多年的磨練才能產(chǎn)出合格的譯文。
進(jìn)一步說,這個(gè)誤解實(shí)際上包含兩個(gè)論斷:
1. 翻譯只是語言轉(zhuǎn)換。
2. 語言轉(zhuǎn)換是簡(jiǎn)單機(jī)械的。
實(shí)際上,這兩個(gè)論斷都是不成立的。
對(duì)于一個(gè)問題,我們要追問一下翻譯的本質(zhì)。翻譯是一種語言服務(wù)。對(duì)于語言服務(wù),近期看到廣東外語外貿(mào)大學(xué)的李瑞林教授給出的定義,我認(rèn)為接近其本質(zhì):語言服務(wù)是以語言資源為基礎(chǔ),以致知、賦能、移情為目標(biāo),實(shí)現(xiàn)知識(shí)和經(jīng)驗(yàn)人際或組織間轉(zhuǎn)移的社會(huì)經(jīng)濟(jì)過程(見《語言服務(wù)概念框架的再反思:存在依據(jù)、普遍本質(zhì)及實(shí)踐邏輯》)。可見,語言是翻譯這種服務(wù)實(shí)現(xiàn)的一個(gè)載體,而不是服務(wù)本身。翻譯工作帶來的知識(shí)、經(jīng)驗(yàn)和情感,才是關(guān)鍵的東西。而這些東西,相信開復(fù)們都不會(huì)認(rèn)為是機(jī)器很容易處理的(記憶性的靜態(tài)知識(shí)除外)。
對(duì)于第二個(gè)問題,則要進(jìn)一步追問“語言”的本質(zhì)。我們知道,語言是信息的載體。比如我們要傳達(dá)“蘋果”的信息給另一個(gè)人的時(shí)候,不用非得拉著他去水果店或者某高科技體驗(yàn)店去才行。但是這個(gè)信息載體并不是無損的,我們用“蘋果”這個(gè)概念,顯然無法把具體的形狀、顏色、觸感、氣味、效用等信息都全部傳輸過去,得靠對(duì)方把其他信息“腦補(bǔ)”出來。因此,語言實(shí)際上只是信息處理過程中的一個(gè)經(jīng)過編碼了的“快捷方式”。能否把快捷方式所代表的信息解碼出來,對(duì)信息接收者的認(rèn)知結(jié)構(gòu)是有要求的。這就是所謂的“一千個(gè)讀者就有一千個(gè)哈姆雷特”。一個(gè)翻譯工作者既要做解碼者,又要做編碼者,必須在短時(shí)間內(nèi)使自己的認(rèn)知結(jié)構(gòu)接近原文作者的預(yù)期,又要考慮到另外一種語言的讀者的認(rèn)知結(jié)構(gòu)的差異。轉(zhuǎn)換的難度可想而知。
因此,翻譯這個(gè)事情,不是想當(dāng)然的那么簡(jiǎn)單。在本文的預(yù)告貼里,我列舉的幾個(gè)語言特性中,“開放性”、“歧義性”、“演化性”等問題,給翻譯帶來了極大的困難。我們想要讓機(jī)器翻譯達(dá)到或者超過人工翻譯,首先得正視其困難和價(jià)值,而不是靠將對(duì)方“簡(jiǎn)化”為某種形式的機(jī)器。否則的話,我們豈不就相當(dāng)于靠把國(guó)乒搞垮來實(shí)現(xiàn)“讓國(guó)足達(dá)到國(guó)乒的水準(zhǔn)”?
誤解二:人工翻譯就是“好翻譯”
這點(diǎn)可能是人工智能工作者普遍的誤解,但也是目前大家對(duì)機(jī)器翻譯普遍非常樂觀的一個(gè)原因。受“圖靈測(cè)試”思想的影響,我們會(huì)把“讓機(jī)器翻譯給出好的譯文”這個(gè)問題轉(zhuǎn)化為“如果機(jī)器翻譯給出的譯文,人無法分辨是人還是機(jī)器做的,就是好的譯文”。所以絕大部分的機(jī)器翻譯訓(xùn)練,無論是統(tǒng)計(jì)機(jī)器翻譯還是人工神經(jīng)網(wǎng)絡(luò),都以和人工譯文語料庫(kù)的“很大似然度”為訓(xùn)練目標(biāo)。也就是,想辦法讓機(jī)器譯文看起來和平行語料的對(duì)譯關(guān)系接近。
這個(gè)假設(shè)又包含以下幾個(gè)子假設(shè):
1. 人工翻譯水平是質(zhì)量刻度線上的一個(gè)黃金分界點(diǎn)。
2. 我們可以從平行語料(只要足夠多)中學(xué)習(xí)到這個(gè)分界點(diǎn)。
3. 普通雙語人士可以很確定的分辨出譯文質(zhì)量是否過了這個(gè)分界點(diǎn)。
很遺憾,這幾個(gè)假設(shè),也是我們?yōu)榱俗寙栴}有更良好的形式化定義,以及有相對(duì)一致的評(píng)價(jià)標(biāo)準(zhǔn),而做出的簡(jiǎn)化假設(shè)。在我們離問題的“完美”解決方案還很遠(yuǎn)的時(shí)候,這些假設(shè)對(duì)于我們做出切實(shí)有用的近似解決方案,是非常有幫助,也是必須的。但是如果把在這些假設(shè)下得到的局部挺好解的大幅進(jìn)步等同于非常接近全局挺好解了,就會(huì)產(chǎn)生即將沖破臨界點(diǎn)的幻覺。這對(duì)于探求真正的真理,是不利的。
我們逐個(gè)說一下上面幾個(gè)子假設(shè)。
一,人工翻譯水平顯然不是質(zhì)量刻度線上的一個(gè)點(diǎn),而是上下界離得很遠(yuǎn)的一個(gè)區(qū)間,比如從30分到99.99分。其下界低于機(jī)器翻譯的水準(zhǔn),是正常不過的事情了。更要命的是,這個(gè)刻度線上的刻度值(如果以所需投入的努力作為間距衡量單位)并不是等距離分布的。打個(gè)比方,59分到60分如果間隔1厘米的話,95分到96分的間隔可能是1米,而98分到99分可能是幾公里……所以,試問我們應(yīng)該把哪個(gè)位置設(shè)為人工翻譯的水平線呢?這里面學(xué)問可就大了——比如把分界點(diǎn)設(shè)在60分,讓機(jī)器翻譯從30分提高到57分,是不是可以說目標(biāo)達(dá)成90%了?即使我們?cè)O(shè)定了99分的高標(biāo)準(zhǔn),機(jī)器翻譯從39分提高了30分到69分,離99分還有30分的時(shí)候,我們能宣稱走完一半的路了嗎?恐怕萬里長(zhǎng)征只是一步??墒俏覀兒苋菀紫氘?dāng)然的這么來炫耀我們走過的路。比如去年谷歌GNMT的那篇論文,就是這樣計(jì)算出來提升了87%(某個(gè)語種方向上,大家可以去找來原論文分析一下其評(píng)測(cè)數(shù)據(jù)和結(jié)論之間的關(guān)系),已經(jīng)可以看到勝利在凱旋門下招手了……
第二,相比別的一些自然語言處理任務(wù),機(jī)器翻譯顯得更成功,就是因?yàn)橛衅叫姓Z料這種天然帶標(biāo)的數(shù)據(jù)資源。只要平行語料是人工翻譯的,我們似乎就可以將其作為衡量質(zhì)量的黃金標(biāo)準(zhǔn)。然而,問題在于:
· 語料是有限的,但語言是開放的,和語料不匹配的,不代表是“不好的”。
· 語料是靜態(tài)的,但語言是動(dòng)態(tài)演化的——過去好的,現(xiàn)在未必好。在一個(gè)領(lǐng)域好的,換個(gè)領(lǐng)域未必好。對(duì)一部分人或場(chǎng)景好的,對(duì)其他人或場(chǎng)景未必好。
· 語料本身的質(zhì)量可能是參差不齊的(因?yàn)槿斯しg的質(zhì)量是參差不齊的,參考上述一條,暫且不說很多語料的來源也是機(jī)器翻譯),尤其是海量規(guī)模的時(shí)候,也就是說,近似的也未必是好的。
因此,基于雙語語料的質(zhì)量標(biāo)準(zhǔn),也是沒有更好辦法的辦法,“黃金”度還是不夠高的。
第三,假設(shè)我們確實(shí)可以找到足夠好的人工譯文作為質(zhì)量標(biāo)準(zhǔn),那么是不是任何一個(gè)雙語人士都有足夠的判別能力,來正確區(qū)分人工譯文和機(jī)器譯文呢?也就是說,會(huì)不會(huì)出現(xiàn)這種情況,一個(gè)機(jī)器譯文確實(shí)是有瑕疵的,但某些人就是看不出來它與參考譯文不一致的地方到底是好還是不好?答案是肯定的。這就像機(jī)器寫詩,普通人的鑒賞能力或閱歷經(jīng)驗(yàn)有限,可能已經(jīng)分辨不出它是不是機(jī)器寫的,所以才有微軟的機(jī)器人小冰潛伏在各個(gè)文學(xué)社區(qū)也沒被發(fā)現(xiàn)。但是對(duì)文字敏銳的人,還是可以篩選出來哪些是好的詩歌——小冰出版的詩集,其實(shí)也是經(jīng)過人工“精選”的。既然如此,不同資歷、不同專業(yè)、不同文化、不同目標(biāo)、不同條件的人,對(duì)翻譯質(zhì)量的認(rèn)知也是不一樣的。找什么樣的人來作為圖靈測(cè)試的鑒別者,也是一個(gè)需要仔細(xì)考量的事情。
三個(gè)子假設(shè)都與現(xiàn)實(shí)問題存在一定的差距,可見,我們目前所以為據(jù)的評(píng)價(jià)體系,還不足以帶來足夠充分的反饋。這點(diǎn)正是和下圍棋的AlphaGo的很大不同。我們知道,AlphaGo強(qiáng)大的地方,就是可以通過自己和自己下棋來不斷提升水平,而自我對(duì)弈的前提,是明確的勝負(fù)判別標(biāo)準(zhǔn)。而翻譯孰好孰壞,還沒有很好的評(píng)價(jià)機(jī)制。也正因?yàn)槿绱耍衲昊鸬囊凰康纳蓪?duì)抗網(wǎng)絡(luò)(GAN)在機(jī)器翻譯中雖然驗(yàn)證有效,但效果并不太驚艷。要想取得突破,在評(píng)價(jià)機(jī)制上必須多花點(diǎn)心思了。
誤解三:翻譯市場(chǎng)就那么大,機(jī)器做得多了,人的飯碗就小了
的確,我們?nèi)绻逊g市場(chǎng)比作圍棋棋盤,人工翻譯執(zhí)黑,機(jī)器翻譯執(zhí)白,雙方你死我活、拼命廝殺、攻城掠地、此消彼長(zhǎng),那就會(huì)存在所謂的“替代”問題。
可是,現(xiàn)實(shí)的翻譯市場(chǎng)格局是怎樣的呢?我們來看下面這張圖。
這張圖出自行業(yè)研究報(bào)告。如果把企業(yè)中的文字內(nèi)容比作一個(gè)金字塔:
· 頂端的部分,是目前由人工翻譯來完成的,包括產(chǎn)品資料、營(yíng)銷文案、品牌形象、法務(wù)合同等。
· 底端的部分,是目前由機(jī)器翻譯來完成的,大多數(shù)是由用戶發(fā)起的公開網(wǎng)頁瀏覽等。
· 中間的部分,比如實(shí)時(shí)支持和FAQ、用戶生成內(nèi)容、企業(yè)內(nèi)部知識(shí)庫(kù)等,其實(shí)是沒有被翻譯的。
而這些沒被翻譯的內(nèi)容,竟然占到了99%!
也就是說,無論對(duì)于人工翻譯還是機(jī)器翻譯,都有大片的處女地等待開墾,而且其中很大比例,可能需要人和機(jī)器攜起手來,才能夠給出可行的解決方案。
君不見,如今機(jī)器翻譯用得多的那些場(chǎng)景,比如旅游、電商、聊天社交,之前也并不是人工翻譯的菜。而未來在客服、知識(shí)庫(kù)、UGC等場(chǎng)景下的語言支持,基本上都要求既要有機(jī)器的快捷,又要有人工的可靠性或溫度,一定是人機(jī)結(jié)合才能做到的。
更何況,上面的這個(gè)金字塔的體量也不是一成不變的,隨著互聯(lián)網(wǎng)和人工智能的發(fā)展,全球信息加速流動(dòng),內(nèi)容規(guī)模不斷膨脹,整體需求只會(huì)不斷擴(kuò)大,試問人機(jī)雙方何時(shí)才能夠在楚河漢界上兵戎相見?
實(shí)際上,關(guān)于翻譯行業(yè)或職業(yè)的誤解還有很多,為什么就挑這三點(diǎn)來講?不單是因?yàn)檫@三點(diǎn)要害,更是因?yàn)槌吻辶诉@三點(diǎn),我們的正題及預(yù)定通告中的一問(為什么需要人機(jī)結(jié)合)的答案就非常清楚了。
1. 機(jī)器翻譯要替代人工翻譯,還有很遠(yuǎn)的路要走。
2. 人工和機(jī)器相結(jié)合,才能給出更好的解決方案,釋放出原先被壓抑的更大需求。
3. 翻譯是知識(shí)、經(jīng)驗(yàn)和情感的轉(zhuǎn)移,人是實(shí)現(xiàn)這種轉(zhuǎn)移的主體,現(xiàn)階段只有通過人,才能更好的獲取機(jī)器翻譯所需要的知識(shí)和數(shù)據(jù)。
4. 缺少好的評(píng)價(jià)機(jī)制,很快將成為制約機(jī)器翻譯進(jìn)步的關(guān)鍵瓶頸,而語言的特性決定了,評(píng)價(jià)反饋不能來自語言本身,而只能來自于語言使用場(chǎng)景中的人。
對(duì)于致力于機(jī)器翻譯/人工智能的同行,希望這篇文章,可以引起大家的一些思考。上述觀點(diǎn)不一定正確。但是在密切跟進(jìn)深度學(xué)習(xí)很新成果的今天,也許我們也應(yīng)該適當(dāng)?shù)皖^想想,我們還缺什么,在可見的成果收割之后,還可以做些什么。
翻譯圈的朋友,看到機(jī)器翻譯還代替不了人工翻譯的時(shí)候,是不是了松一口氣?然而,這并不意味著機(jī)器翻譯不會(huì)使現(xiàn)有的譯員失業(yè)。
本文轉(zhuǎn)自:翻譯技術(shù)沙龍(微信公眾號(hào)ID: TranTechSalon),歡迎前往訂閱!