唐能翻譯君按語(yǔ):
2013年底我和搭檔魏勇鵬創(chuàng)辦公司的時(shí)候,他說(shuō)了兩件事:一是,谷歌機(jī)器翻譯幾乎不再聘請(qǐng)語(yǔ)言學(xué)專家了,由懂得統(tǒng)計(jì)、計(jì)算的計(jì)算機(jī)專家主理開(kāi)發(fā)。二是,谷歌有世界上豐富的多語(yǔ)言語(yǔ)料數(shù)據(jù),但對(duì)這種基于數(shù)據(jù)統(tǒng)計(jì)訓(xùn)練而成的翻譯引擎來(lái)說(shuō)現(xiàn)狀有點(diǎn)尷尬,更多語(yǔ)料能帶來(lái)效果不再明顯了,盡管谷歌的語(yǔ)料、用戶量和使用量都在日益增多。
在我們運(yùn)營(yíng)公司的兩年多時(shí)間里,遇到了很多客戶和投資人,他們問(wèn)的一句話是:“你們機(jī)器翻譯能達(dá)到什么樣的準(zhǔn)確度?”這個(gè)問(wèn)題意味深長(zhǎng),我一般只能回答說(shuō):“在某些垂直領(lǐng)域,我們比谷歌翻譯要好。”這句帶有挑釁意味的話讓聽(tīng)者將信將疑卻無(wú)從反駁,因?yàn)門a從未得到過(guò)無(wú)瑕的機(jī)器翻譯體驗(yàn)——像科幻影視文學(xué)、類似《星際迷航》里展現(xiàn)的,那邊阿凡達(dá)星語(yǔ)說(shuō)出來(lái),這邊火星人聽(tīng)進(jìn)去,毫無(wú)停頓卡帶的痕跡。
行內(nèi)人用專業(yè)尺度評(píng)價(jià)機(jī)器翻譯的現(xiàn)實(shí)是這樣:美國(guó)商務(wù)部下屬的國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所NIST舉辦的一項(xiàng)機(jī)器翻譯研究水平評(píng)測(cè),采用BLEU(Bilingual Evaluation Understudy)標(biāo)準(zhǔn)。 其原理是比較機(jī)譯結(jié)果和人譯結(jié)果的相似度,完全一致得分為1(當(dāng)然不同的人的翻譯很難“完全一致”,所以得分1為理想值)。2008年NIST的英文-中文的機(jī)器翻譯評(píng)測(cè)結(jié)果,谷歌翻譯得分0.4142,微軟亞洲研究院提交的測(cè)評(píng)是0.4099,廈門大學(xué)得分0.2502;谷歌和微軟亞洲的中文-英文機(jī)翻得分分別是0.2999和0.2901,中科院自動(dòng)化所的得分是0.2407。
2015年9月第十一屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT 2015)上,中國(guó)超過(guò)10所科研所和大學(xué)參加了機(jī)器翻譯的評(píng)測(cè)。同樣以BLEU值為標(biāo)準(zhǔn),英漢新聞平均得分接近0.35,漢英新聞則接近0.25,日漢新聞質(zhì)量很好——高分超過(guò)0.5;英漢科技則普遍超過(guò)0.35,高分0.43。國(guó)內(nèi)語(yǔ)種的機(jī)翻效果更好,藏漢政府文獻(xiàn)的很高分0.61,維漢新聞的很高分0.54。
囿于測(cè)試所選文檔和評(píng)測(cè)方法,該數(shù)值結(jié)果和普通人閱讀體驗(yàn)有可能偏差很大。權(quán)當(dāng)參考:機(jī)器翻譯中有40%左右的結(jié)果,用戶可以較為容易理解使用。和阿凡達(dá)電影場(chǎng)景的效果,和此時(shí)此刻用戶/投資人對(duì)人工智能產(chǎn)業(yè)的期待相比,還是弱爆了。不過(guò),2013年谷歌翻譯每天的用戶量超過(guò)2億人、翻譯10億次,每天翻譯的文字相當(dāng)于100萬(wàn)冊(cè)圖書,超過(guò)全球?qū)I(yè)翻譯一年的工作量,他們用的就是BLEU值40%左右的機(jī)器翻譯。
“人工智能領(lǐng)域沒(méi)有取得任何進(jìn)展,”英國(guó)理論物理學(xué)家戴維·多伊奇在其著作《無(wú)窮的開(kāi)始》里說(shuō):“因?yàn)樵谄浜诵睦镉幸粋€(gè)懸而未決的哲學(xué)問(wèn)題:我們還不了解創(chuàng)造性如何運(yùn)作。一旦解決了這個(gè)問(wèn)題,編程實(shí)現(xiàn)人工智能將不是難事。圖靈發(fā)明了圖靈測(cè)試,希望繞開(kāi)這個(gè)哲學(xué)問(wèn)題。換句話說(shuō),他希望在解釋這項(xiàng)功能之前就實(shí)現(xiàn)這項(xiàng)功能。不幸的是,類似這樣的情形極為罕見(jiàn)?!保▓D靈測(cè)試由計(jì)算機(jī)科學(xué)和密碼學(xué)的先驅(qū)阿蘭·圖靈于1950年設(shè)計(jì):如果電腦能在5分鐘內(nèi)回答由人類測(cè)試者提出的一系列問(wèn)題,且其超過(guò)30%的回答讓測(cè)試者誤認(rèn)為是人類所答,則電腦通過(guò)測(cè)試,它被認(rèn)為具有智能。)
“現(xiàn)在我們談的比較多的是人機(jī)鏈接,就是把大腦和計(jì)算機(jī)相連,用機(jī)器擴(kuò)展人類的思維能力。我覺(jué)得這一點(diǎn)利用目前的老式計(jì)算機(jī)是無(wú)法實(shí)現(xiàn)的,因?yàn)槿四X在我看來(lái)更接近于量子計(jì)算機(jī),我們?nèi)祟惻c電腦的區(qū)別在于,電腦你輸入什么,它輸出什么,先進(jìn)的例外是它死機(jī)了。而輸入相同的信息,人類的輸出是不可預(yù)知的,這就是人類的自由意志。我認(rèn)為人類的自由意志是以量子計(jì)算為基礎(chǔ),是一種模糊的計(jì)算而不是邏輯計(jì)算?!敝猩酱髮W(xué)天文與空間科學(xué)研究院院長(zhǎng)李淼說(shuō)。
按照中國(guó)人工智能泰斗、中科院院士張鈸教授的分析,人工制造的智能機(jī)器即使有了自主意識(shí),也是機(jī)器的意識(shí),比如“有一個(gè)機(jī)器人會(huì)做勺子,而且它像人一樣‘有意識(shí)’自主工作,這個(gè)機(jī)器人可能耗盡地球的資源來(lái)生產(chǎn)勺子,因而對(duì)人類產(chǎn)生威脅”。
雖然數(shù)據(jù)在增加,但是主要基于統(tǒng)計(jì)計(jì)算的人工智能不能滿足人的意志和情緒需求。至少在基于邏輯計(jì)算的機(jī)器翻譯領(lǐng)域,語(yǔ)料數(shù)據(jù)的增長(zhǎng)與翻譯準(zhǔn)確度不再成正比,讓機(jī)器理解人的努力嘗試卡在半山腰。
在用戶和投資人對(duì)人工智能有愛(ài)有期待的時(shí)候,這個(gè)夢(mèng)醒得有點(diǎn)殘酷。不管所謂機(jī)器智能是否是真正的智能,在某些場(chǎng)景下,它已經(jīng)開(kāi)始發(fā)揮價(jià)值。我的一個(gè)朋友、中科院自動(dòng)化所的博士生黃國(guó)平講的話很有力量:“即使是現(xiàn)在的機(jī)器翻譯,用好了照樣震爆世界?!彼囊馑际牵簷C(jī)器已經(jīng)做了40%、垂直領(lǐng)域的引擎能提供超過(guò)50%的有效結(jié)果,理論上很好的翻譯項(xiàng)目能提高50%的效率,機(jī)器的生產(chǎn)能力同樣令人乍舌。
可預(yù)見(jiàn)的時(shí)間里,機(jī)器翻譯一直都會(huì)不完美有遺憾。其實(shí)這也是一個(gè)好消息,它給人留了尊嚴(yán)和安全感,保留了翻譯職業(yè),甚至為譯員提供了更多的商業(yè)需求和更多的工作崗位。
不人性的一面
我在翻譯生產(chǎn)中遇到了三個(gè)譯員(以下用化名),三個(gè)案例和機(jī)器翻譯的關(guān)系層次分野清晰。
23歲天秤座張林林姑娘,南京某大學(xué)英語(yǔ)系大四學(xué)生,參加譯后編輯(基于機(jī)器翻譯結(jié)果作人工優(yōu)化)培訓(xùn)2個(gè)月,她的感受是“譯后編輯很大程度上提高了翻譯的效率,但是會(huì)對(duì)譯者的翻譯的風(fēng)格和思維有一定影響和改變”,工作效率從初每小時(shí)完成2件任務(wù)提高到了3-4件,兼職月收入達(dá)到了3500元。
24歲水瓶座孫青青姑娘,河北某大學(xué)商務(wù)日語(yǔ)系畢業(yè),對(duì)譯后編輯的感受是“比如有些句子比較難懂,句子結(jié)構(gòu)組織起來(lái)比較困難,機(jī)器譯文起到了好的提示作用”,培訓(xùn)半年后轉(zhuǎn)為全職譯員,一小時(shí)穩(wěn)定完成4件,月收入超過(guò)1萬(wàn)。
第三位是25歲的白羊座小伙子小韓,大連外語(yǔ)大學(xué)日語(yǔ)畢業(yè)生,他說(shuō)“有的機(jī)器翻譯只需調(diào)整語(yǔ)序即可,跟純手動(dòng)翻譯相比,極大地提高了翻譯效率和準(zhǔn)確性”。他的效率是一小時(shí)完成5件,兼職做翻譯月收入9千元。
從受機(jī)翻結(jié)果影響,逐漸到以機(jī)翻結(jié)果為主做優(yōu)化,譯后編輯的譯員的工作方式和傳統(tǒng)人腦翻譯、詞典輔助的模式有很大區(qū)別。他們的工作流程發(fā)生了明顯變化,從90%的時(shí)間進(jìn)行逐字逐句翻譯,轉(zhuǎn)變?yōu)槌^(guò)一半的時(shí)間來(lái)理解術(shù)語(yǔ)和機(jī)翻結(jié)果,真正動(dòng)手“翻譯”句子段落的時(shí)間僅為過(guò)去的小一半。結(jié)果是“翻譯”時(shí)間越少的譯員,效率很高,收入也很高。
2015年第四季度,麥肯錫全球研究院發(fā)表報(bào)告《如何利用AI重新定義工作》,開(kāi)篇的一句話就是“隨著體力工作和知識(shí)工作自動(dòng)化的進(jìn)步,許多工作至少在短期內(nèi),會(huì)被重新定義而不是被消除”。我們?cè)谧g后編輯譯員身上看到的是機(jī)器翻譯并沒(méi)有改變翻譯職業(yè),但是新的流程卻改變了譯員。譯員在工作中術(shù)語(yǔ)的選擇、詞句段落編排等過(guò)程在系統(tǒng)中都被記錄下來(lái)供機(jī)器學(xué)習(xí),譯員是語(yǔ)言數(shù)據(jù)和系統(tǒng)的使用者,也是數(shù)據(jù)生產(chǎn)者。有效的狀況可以被描述為:譯員是機(jī)器翻譯的研發(fā)和生產(chǎn)的延伸,其思維和行為被技術(shù)化了。
好的一面,麥肯錫的報(bào)告說(shuō)“到2025年將有50萬(wàn)億美元的價(jià)值會(huì)被人工智能和機(jī)器人創(chuàng)造出來(lái)”,壞的一面則是有些譯員會(huì)覺(jué)得不適,不適應(yīng)的結(jié)果是拿不到好工資甚至新的翻譯工作不需要Ta,可能被批評(píng)為反人性。我自己倒是覺(jué)得不能說(shuō)帶個(gè)大頭盔看VR的技術(shù)是人們喜聞樂(lè)見(jiàn),而改變思維、工作習(xí)慣的譯后編輯是不人道的,就像上個(gè)世紀(jì)初把走路變成踩油門、把方向盤的開(kāi)汽車一樣?!叭藱C(jī)鏈接”無(wú)法實(shí)現(xiàn)的時(shí)候,“人機(jī)結(jié)合”是人與機(jī)器之間有效的合作方式,也是一個(gè)更準(zhǔn)確、讓大眾更安心的用詞。
與譯后編輯類似的場(chǎng)景,出現(xiàn)在醫(yī)療大數(shù)據(jù)的應(yīng)用里。醫(yī)生診斷時(shí),能看到的是機(jī)器給出來(lái)類似的病例和對(duì)應(yīng)的診斷匯總,也許還給出狀況接近案例的診斷處方推薦。機(jī)器不會(huì)直接給人看病,醫(yī)生和譯后編輯譯員一樣選取Ta中意的參考再給出診斷。不過(guò)人們對(duì)此的擔(dān)心少很多,“醫(yī)生為自己的診斷書負(fù)責(zé)嘛,機(jī)器干不了這個(gè)事?!?
億級(jí)需求
新的互聯(lián)網(wǎng)翻譯還有一條路徑是屬于共享經(jīng)濟(jì)的社會(huì)化生產(chǎn),國(guó)內(nèi)外的翻譯行業(yè)誕生了很多眾包翻譯服務(wù)平臺(tái),但是效果堪堪,一直沒(méi)有實(shí)現(xiàn)期待中的結(jié)果。原因是眾包平臺(tái)為需求匹配到合適譯員的成本,高于網(wǎng)絡(luò)眾包生產(chǎn)的效率收益,生產(chǎn)過(guò)程和結(jié)果的非標(biāo)準(zhǔn)化帶來(lái)的工程管理成本更高了。
就在為眾包困局很困擾的時(shí)候,我與中國(guó)很大的非標(biāo)服務(wù)眾包平臺(tái)豬八戒網(wǎng)的朋友有過(guò)幾次深入的交流,雙方達(dá)成的共識(shí)很特別:服務(wù)眾包的核心在于供應(yīng)端,而不是互聯(lián)網(wǎng)經(jīng)濟(jì)的主流思維“客戶一、需求至上”。豬八戒網(wǎng)的一個(gè)主要品類“建筑設(shè)計(jì)”,包括供應(yīng)商的招募、生產(chǎn)和質(zhì)量、客服等的運(yùn)營(yíng)管理交給了豬八戒與設(shè)計(jì)行業(yè)某上市公司的合資公司來(lái)打理。
翻譯也是一樣,個(gè)人、企業(yè)和機(jī)構(gòu)的需求時(shí)刻都存在,但是中國(guó)超過(guò)3萬(wàn)家提供“翻譯”服務(wù)的公司,很大的年收入只有3億元,規(guī)模狹小甚至還不夠成為一個(gè)行業(yè),而大部分的需求沒(méi)有被好好滿足,譯員該掙的錢掙不到。行業(yè)短板非常明顯:小規(guī)模、幾個(gè)兼職譯員的公司用師傅帶徒弟的作坊生產(chǎn)方式,能提供的服務(wù)能力有限,更談不上質(zhì)量、客服標(biāo)準(zhǔn)化。
由機(jī)器來(lái)統(tǒng)一基本勞作規(guī)范,完成部分翻譯量,組合大量譯員完成剩余優(yōu)化任務(wù)的模式,有望推進(jìn)輾轉(zhuǎn)不前的眾包翻譯來(lái)完成行業(yè)的跳躍發(fā)展。發(fā)展動(dòng)力的基礎(chǔ)是機(jī)器翻譯,其實(shí)更主動(dòng)的是人(譯員)。譯員在理解和使用機(jī)器翻譯輔助軟件,改變翻譯習(xí)慣以更好使用機(jī)翻結(jié)果,不同學(xué)生的可塑性不一樣,導(dǎo)致工作效率和收入的差異。因此翻譯的人機(jī)結(jié)合催生了一個(gè)重要的學(xué)習(xí)培訓(xùn)需求,其教學(xué)過(guò)程甚至是重新探索了譯后編輯這個(gè)職業(yè)的從業(yè)標(biāo)準(zhǔn)。
翻譯服務(wù)能否從小作坊升級(jí)到互聯(lián)網(wǎng)上的富士康? 我看不出不能的障礙在哪里。計(jì)算機(jī)技術(shù)工具&大數(shù)據(jù)學(xué)習(xí),基于互聯(lián)網(wǎng)平臺(tái)管理、培訓(xùn)和生產(chǎn),以及中國(guó)少有的全語(yǔ)種外語(yǔ)教育體制和數(shù)量一的外語(yǔ)人才儲(chǔ)備,地利和人和都在了,下面看看市場(chǎng)需求的天時(shí)到?jīng)]?
全球化的深入不再是只有部分人出國(guó)觀光,從吃買玩,到投資學(xué)習(xí)工作,乃至生老病死都不會(huì)是局限在出生國(guó)家的事情。圣經(jīng)里上帝讓各族人說(shuō)不同語(yǔ)言的設(shè)計(jì)制造了天成的剛需,多語(yǔ)言交流需求不是敢不敢想,而是能不能做的問(wèn)題。它意味著產(chǎn)能巨大、穩(wěn)定和低成本的翻譯服務(wù),滿足這一需求的新翻譯生產(chǎn)方式,一定是包含了機(jī)器翻譯軟件、基于互聯(lián)網(wǎng)的供需眾包和協(xié)作生產(chǎn)、以及譯員用以學(xué)習(xí)、分享的互聯(lián)網(wǎng)社區(qū)培訓(xùn)平臺(tái)。
能不能讓淘寶、亞馬遜的商品全部被不同國(guó)家的顧客直接看懂,讓中國(guó)的股民了解所有紐交所、納斯達(dá)克股票交易的信息和后面的公司行業(yè)資訊,讓國(guó)內(nèi)外新發(fā)表的論文文獻(xiàn)同步多語(yǔ)言出版,讓美國(guó)很大的醫(yī)訊網(wǎng)站整站的優(yōu)質(zhì)內(nèi)容占領(lǐng)目前被莆田醫(yī)生籠罩的中文網(wǎng)絡(luò)?使用谷歌、有道免費(fèi)翻譯工具自助閱讀的人越來(lái)越多,這顯然不會(huì)是互聯(lián)網(wǎng)社會(huì)大規(guī)模多語(yǔ)言交流的先進(jìn)方式——如上面所說(shuō),缺點(diǎn)太明顯,對(duì)用戶的知識(shí)、技能挑戰(zhàn)過(guò)高,只是因?yàn)槊赓M(fèi)才可以容忍。
擁有行業(yè)和外語(yǔ)知識(shí)人士提供的專業(yè)翻譯服務(wù)的需求會(huì)更旺盛——只要價(jià)錢合適;更重要的是合格的翻譯能力才能對(duì)接有質(zhì)量要求的商業(yè)內(nèi)容,促成有利潤(rùn)的商業(yè)項(xiàng)目。翻譯服務(wù)體量從每單幾百元、上千元,提升到每單幾千萬(wàn)、上億元,成本則下降40%-80%。二十年的互聯(lián)網(wǎng)經(jīng)驗(yàn)告訴我,一個(gè)互聯(lián)網(wǎng)項(xiàng)目?jī)|元的運(yùn)營(yíng)成本不可怕,投資人和運(yùn)營(yíng)人擔(dān)心的是每年數(shù)億元的投入能否帶來(lái)倍增的收益。翻譯僅僅是打破語(yǔ)言障礙的一步,進(jìn)一步的知識(shí)管理和服務(wù),是信息里蘊(yùn)藏的更大金庫(kù)。
從這個(gè)邏輯來(lái)說(shuō),人機(jī)結(jié)合的翻譯花得起億級(jí)的錢,也掙得到10倍以上的收入和可觀的利潤(rùn),它在抄過(guò)來(lái)的路上。
本文轉(zhuǎn)自:英國(guó)《金融時(shí)報(bào)》中文網(wǎng)“商業(yè)”專欄,作者系商鵲網(wǎng)聯(lián)合創(chuàng)始人、首席執(zhí)行官鄒劍宇 。本文僅代表作者觀點(diǎn)。