科技部學術研習營 暨 語言科技與醫療翻譯工作坊 參加心得

日前跑去參加了輔仁大學跨文化研究所主辦的科技部學術研習營暨語言科技與醫療翻譯工作坊。印象中之前就有辦過類似的活動了,但抽不太出時間,今年終於有時間參加了。

會想要參加的原因主要是覺得一個自由譯者對於自身能力需要考慮的絕對不是只有翻譯技巧而已。對於產業以及學術(至少在翻譯科技這塊)的走向也是要了解才能適時調整自己的接案類型、行銷、進修等等的策略。雖然學校辦的活動應該學術性質較高,但是由於翻譯這個學門本身很講究實務應用,所以我認為去參加一定會有收穫的。

這邊不會紀錄太多太完整的內容,畢竟那是人家的東西(其實希望可以看到主辦單位開放PPT下載,因為開放知識可以讓相關領域的人一起提升,一起升級語言產業),主要還是記錄一下自己的心得及覺得有趣的東西。

語言學與人工智慧

清華大學語言學研究所 蔡維天教授

蔡教授首先講了一些語言學的概念,主要圍繞在人類語言學習的機制,因為這個牽涉到如何設計機器翻譯的背後運作。蔡教授提出Chomsky的看法,也就是語言是一個內建的先天系統,可以想像成一個藍圖,而後天的語言學習是照著這個藍圖去實現,環境與訓練只是在這個藍圖下做微調。藍圖是什麼,怎麼形成的其實也還是語言學中的一個大課題。這就好像我們知道宇宙起源於 The Big Bang,但是在時間的起始點發生了什麼事我們到現在還不知道(我知道這個例子只有少數理工人會覺得有助於解釋….)

眾所皆知,小孩學習母語跟大人學習第二外語的方式差很多,學母語可以視為上述的內建系統的運作。而第二外語的學習則是建立在母語的基礎上(所以學第二外語會有母語文法與發音的干擾,但也因為語言通用性的關係,母語的觀念可以應用在學習第二外語上)。如果我們想像教人工智慧語言就是在教人工智慧第二外語(因為學習第二外語都是透過反覆練習語言的規則來習得),那它的母語基礎是什麼?一個無法清楚定義描述的語言系統要如何教給人工智慧?

現在的人工智慧機器翻譯依賴的是訓練資料,而這個訓練資料來自於人,所以理論上機器翻譯頂多翻得跟人一樣好、不太可能超越。機器的強項在於可以快速地分析大量的資料,如果可以定義語言的規則,則機器可以快速利用規則去學習發展出強大的行為模式。然而翻譯與語法的規則極難定義,不像圍棋規則那麼容易就可以讓機器可以理解,因此我們到現在還是常常看到機器翻譯失誤。

所以也許一些制式化、可以導出原則的文件(如專利申請書)翻譯上,我們可以期待將來機器翻譯可以直接產出可用的翻譯,但是文學翻譯上的處理有很多資訊無法餵給機器,很難去定義出一個機器可以理解的文學翻譯規則與目標(例如將用詞遣字的優美或易讀性最佳化)。 就我自己對於人工智慧的認知,其實很多是透過黑盒子產出的表象去學習得到黑盒子內部運作的原理,例如最近就有人工智慧只透過觀看小精靈遊戲就可以重建運作的研究,包含移動規則,吃了大力丸以後的改變等等。所以這方面其實不見得要餵規則給人工智慧才有辦法做到模擬黑盒子的運作。例如像軟體手冊等,我相信技術上是可以開發出人工智慧自行模擬使用軟體後產出技術手冊這樣的應用,所以不見得要走翻譯這條路,只要有「軟體」跟「技術手冊」的平行資料庫當作訓練資料,就可以利用人工智慧去開發這樣的應用。

翻譯另外還要考慮譯文的用途。我們譯者常常要去思考讀(聽)者是誰,背景是什麼,這部分的考量未必與原文相同(最簡單的例子,中文原文是給台灣人看、英文譯文是給西方人看,就會產生文化背景的差異)。又例如說原文可能刻意寫得模稜兩可,譯文在選字上就有更多的考量,因為有的譯法也許無法保留這個詮釋空間與模糊性。人工智慧在翻譯的時候目前好像還沒看到可以把這些東西當作參數餵進去。

總之聽了蔡教授的演講覺得我真的應該有空要去多讀讀語言學。很後悔大學通識課選的是哲學而不是語言學啊~

人工智慧與文本分析技術 在人文領域的一些應用

政治大學資訊科學系 劉昭麟教授

劉教授提到科技在人文領域可以做為輔助的一個工具,利用科技挖掘一些平常不易發覺的資訊,再交由人文專業來做分析。

例如李白與杜甫在詩詞中「月」或「風」的運用與頻率,我們會看到「春風」與「秋風」出現頻率很高,但沒有「夏風」與「冬風」,這意味著什麼。又或者杜甫很多的「月」的使用是「月份」,人文方面的專家也許就可以聯想到這對應杜甫諸多對於現實社會的評論。

而在歷史時間軸的詞頻分析,也能作為用詞演化的觀察。劉教授舉的是「硬頸」這個詞在新聞媒體中的頻率可以觀察到在某個時間點後在媒體上出現的頻率就變高。並且在檢視該時間點前後的使用,「硬頸」的意義也從負面的轉正面的,而研究歷史、社會或者傳播學的則可以用這個資料去思考為什麼有這個變化,例如詞頻變化的時間前後發生了什麼事件等。

而數位科技中最熱門的人工智慧 AI 可以應用在書本數位化、文言文本斷句(古文常常沒有標點符號,可以利用人工智慧去做)、詩歌斷詞、甚至在傳記資料可以做人名與辨析(例如辨識提到的張三到底是哪個朝代的哪個張三?)。這些都仰賴「工人智慧」所提供的資料庫做訓練,例如書本數位化需要的 OCR (Opitcal character recognition,光學字元辨識)技術,可以提供 AI 同樣字的不同樣本(不同字體,不同筆跡之類的)做學習,日後 AI 見到相似的影像才能正確辨識。

這邊就衍生出一個問題,也就是訓練資料庫的品質到底好不好?劉教授提到他的詩歌斷詞資料庫是找兩組中文系大學生去手工斷詞好幾萬首詩當作訓練資料,這部分到底斷得正不正確呢?現實(也就是金錢)考量下不太可能去找中文系教授去做這種事情,而資科專長的劉教授也沒有相關專業(事實上也不可能花那個時間)自己評估,所以他的做法是將需要斷詞的詩詞分成A、B、C 三組,第一組人做 AB、第二組人做 BC,再來比較兩組人所做的 B 詩詞組,這樣至少可以評估斷詞上的一致性如何,但是正確性就真的很難去評估了(又,正確性的問題似乎也不一定有唯一解)。

現場也有人提出另一個問題,也就是斷詞的不同也可能會影響詩詞的意思。翻譯上也可能會有詩詞內出現「三月」的「三」到底是數量還是月份的歧義,這感覺應該沒有簡單的解法啊。

翻譯科技在翻譯實務與研究的應用

台灣大學外國語文學系 高照明教授

高教授介紹了如何活用網路的資源做翻譯,而這個跟我實作時的工作流程不謀而合,但同時又多了一些不同的作法,我覺得在翻譯卡關的時候應該很有幫助。

由於我自己沒有做過非網路時代的譯者,所以我很難想像以前的人是怎麼做翻譯的。高教授提到說現在做翻譯,光看辭典是不夠的,實務上在翻譯的時候,往往是把詞句切割以後,把翻譯的問題變成查資料的問題,這點我非常同意啊!

這個查資料的過程如下
1. 找出關鍵字或詞組
2. 搜尋雙語資料庫(如 linguee, linggle)
3. 找到語境最相近的例句
4. 再找出正確的對應詞組

但是雙語資料庫畢竟比較少量,所以不見得可以找得到適用的。另一個常見的問題就是這個雙語資料庫到底可不可靠?(我個人使用linguee的經驗是其實翻得不好的例句也不少)。這時候就需要依賴單語資料庫了。中翻英的時候可以從第四步驟找到的資料再拿去餵到netspeak這種可搜尋的 collocation 資料庫,就可以找出詞或詞組更多元的用法以及常用的搭配詞。

不管是上述在雙語資料庫中找到適當的翻譯或者是搜尋單語資料庫,都要有一定的程度才能在語料庫中的眾多資料中找到合適的,因此翻譯知識的累積就像是有錢人用錢滾錢一樣,真的是強者恆強。今天你程度不夠時,找到的語料可能語境不對,也可能挑到根本錯誤的翻譯或用法,程度夠的時候就可以避免這些問題。實際工作時,也不可能每條資料都跑這個流程,這太耗費時間了,所以自己有足夠的程度應付八九成的翻譯,剩下的專有名詞才跑上述流程,在效率上比較實際。如果發現大部分的專有名詞都要這樣查,也許以後不要接這個領域的案子才是正解(笑)。

高教授也提到了網路上一些公開語料庫以及可以自己建立語料庫的工具(包含自動抓網頁製作語料庫的工具、製作可搜尋語料庫的工具等)。這樣做的好處就是自己可以將自己常翻譯的領域做成自己專用的語料庫,語料庫的品質自己把關比較不會出問題。但是我初步看了一下如 Opus Corpus 雙語資料庫、AntPConc 雙語資料庫建構工具、bootCAT 自動抓網頁文字分析工具等,這些我覺得都不算是很輕易就可以上手的工具。真心覺得網路的公開免費資源在使用上技術門檻還不低。這年頭的譯者除了語言能力以外,科技方面的能力也需要具備才能提高競爭力。

基於語料庫的醫療語境與醫療術語研究

輔仁大學跨文化研究所 楊承淑教授

輔仁大學電機工程學系 劉惠英副教授

這個研究是讓學生在醫療口譯現場的實習經驗去紀錄出實際使用情境的語料。除了實習時的心得報告以外,還有一些工作上的 Line 對話等(當然是將隱私資料處理過以後的)。主要目的是讓非醫療專業的口譯可以學到醫療與醫療程序的知識、強化口譯在醫療場域的應對與反應能力、建構醫療術語詞庫、教學運用等。

透過詳細的紀錄,可以讓這些專業術語多了語境的資料,並且將其數位化。所謂語境的資料包含對話中的人物為何(例如講話的是醫生、護士、病人還是病人家屬)、在什麼場合(病床、診間)、用詞是術語還是俗語等等。

這場講座多為研究方法的描述等,我在這邊就不再重複了,但必須說這些真的是非常詳細非常珍貴的資料,因為一般的雙語資料庫並沒有這些語境的資料,於是如上述高教授所提出的查資料流程就必須要有人工去判斷資料庫哪些資料的語境適合。當我們可以將這些語境的資訊參數化、數位化時,就能用來訓練人工智慧去做這些判斷。當然資料庫的建構成本非常的高,也需要非常多的人工處理,但這樣的研究對於人工智慧翻譯來說是重要的一步。

譯者是否會被人工智慧取代

很多去聽這場活動的譯者都很在意一個問題,就是我們這些譯者到底會不會被機器翻譯取代,而每位講者其實或多或少都有回答這個問題但看法不一。常常看到譯者聚在一起討論這個問題的時候會一起批評機器翻譯的品質低落,然後普遍認為文學翻譯不可能被機器翻譯取代。我自己的看法是與其自嗨式地去貶低這些科技,倒不如好好去理解並且將科技轉為助力。整個語言產業因為這些科技正在轉變中,譯者要認清自己的價值與區別性在哪裡並且去有意識的強化它,這個過程當然也包含學習活用持續進步的科技,這才是在人工智慧時代的生存之道。

不知道讀者對於人工智慧的在翻譯方面的發展有什麼樣的看法呢?譯者又該如何因應呢?

Leave a Reply

Your email address will not be published. Required fields are marked *