胡又天
胡又天

在兩岸三地都拿了學位的文學博士,同人社團恆萃工坊創辦人

我們來做一個真正堪用的簡繁轉換系統吧!

「后里」是一個地名,在低能的簡繁轉換之下就會轉錯。此類錯誤,不勝枚舉。

《都不錯歌》 作者:沙予 

澳洲華文報刊上同音字混用的現象,人們都已司空見慣,但稱名家郁風為静風,余光中為餘光中,則堪稱為與時俱進之創舉。恰如用問號代替找不到的某些鉛字之不乏創意。審訂和推行簡體字的文字學專家,不會有錯。用電腦把簡體字一律還原為繁體字,以使海外華人看得懂,這更没有錯。現斗膽摘取澳洲報刊上常見的由簡變繁,同音但不同義的字混用的趣事,凑成打油詩《都不錯歌》一首,以娛諸公。此詩平仄不調,對仗不工,當然也没有錯。

夏五郭公尋常見, 魯魚亥豕久相通。
嶽飛追諡尊武穆, 奕詝登極號鹹豐。
韋陟豈辭刀削面, 劉幫能忍箭傷胸。
碑成無字武皇後, 卜獲非熊薑太公。
甦武留鬍十九載, 鐘馗捉鬼兩三籠。
萬裏徵東薛仁貴, 單騎救鬥趙子龍。
遁居五湖歌範蠡, 逼上梁山泣林衝。
子曰詩雲四舊也, 如今題字學干隆。

(原載《文傳論叢:2004年第三屆漢文史資料庫研討會論文集》,文信傳文史研究院。亦載《漢字文化》2006年2期)

  如果你經常從事文字工作,也經常要處理中港台三地的稿件,你一定經常碰到簡繁轉換的錯誤問題。如果你比較認真,或是專業上有需求,你就得花費大把時間在人工校對上面。而即便你個人盡力做到了正確,你還是會在新聞、小說、遊戲裡看到一大堆未經校對的轉碼錯誤;也許你可以留言指正一下,認真的編輯也會改,但我們難道不能想辦法改善這種情況,開發一個比較好用的簡繁轉換系統嗎?

  二十多年來,絕大多數人所用的簡繁轉換系統,就是Microsoft Word的「繁簡轉換」;也有一些人開發過不同的轉換程式,但也沒比Word好多少,至少我沒看到特別好用的。

  我們都很清楚,簡繁轉換的問題無非就是兩個:簡體字到繁體字的一對多問題、兩岸三地常用詞彙不同的問題。電腦總是無法準確地判斷什麼時候該改、什麼時候不該改;何時該轉成這個、何時該轉成那個;二十多年過去了,Microsoft Word在此沒有太大進步。雖然應該比以前稍微智能了一點,沒再像前引〈都不錯歌〉的時候那樣糟糕了,但我們寫東西的人都知道,文章永遠有例外,例如特意舉出錯誤的情況。目前AI還沒有聰明到能判別這些特殊狀況,最後還是要我們人工多校對三遍。

       所以,在我們研發出真正能讀懂文章的AI,或者至少能把準確率多提高一些的系統之前,我們需要的,應該是一個輔助人工校對的系統,讓我們人工的效率可以大增的工具──畢竟,就算AI能把準確率提到99%以上,甚至100%,我們做編輯的,職責所在,也還是要人工再校三遍。那為什麼不一開始就往「輔助人工校對」的思路來設計?

  我在2009年就寫文章(https://www.ptt.cc/bbs/Chinese/M.1232393680.A.5C8.html)提過設計思路:碰到每一個有分歧的情況時,讓使用者按1,2,3手動選字或選詞,這樣做選擇題,幾萬字也很快校完;就算慢一點,也比你看漏了哪個轉錯的地方好;如果選項裡的都不對,也還可以手動修改並新增選項。事實上,這個想法,我早在1998年剛開始碰到這個問題時就想到了。但我自己不會寫程式,也沒很積極找人去做,就這麼耽擱了下來。

  然後到今年,我也比較有空,想在個人的創作之外多做一點事,便覺得也該是時候來做了。於是我再度找到了正在研發翻譯系統、專精機器學習領域、於傳統文化亦有使命感的台大學長Farmer──前年我就跟他提過此事,但一直各忙各的沒有認真來推。現在我們決定好好來做了。

  我初步的想法只是做個人工校對輔助系統或插件,然而對Farmer學長來說,如果不做機器學習、不養AI,那太簡單了,沒有他的用武之地。所以,合理的方案,當然就是「都做」:

  我們做一個方便人工校對的轉換工具讓大家來用,大家在使用的時候,可以像編輯維基百科那樣新增詞條、修改對照表,討論各個字詞在哪種情況下應該怎麼改,然後如果使用者願意餵食AI,就讓系統把校對的結果傳輸給系統來作機器學習。

  我們目前正在籌畫這個系統的介面與資料庫格式,而這幾天看到Matters在辦「你發起活動,Matters來支持」,我就想,正好在這裡初步作個宣傳,也徵集一下意見,看看大家希望這個簡繁轉換程式有什麼功能。

  下面就按所要求的資訊來條列一下吧:

徵文主題:我對簡繁轉換的想法

  請留言或發文分享您對「簡繁轉換」這回事的各種意見,可以說笑話、吐苦水、發洩怨念,也可以認真一點,以使用者的角度談談,在現有的技術條件下,你希望簡繁轉換系統可以怎麼做、做成怎樣,來滿足你的工作需求和閱讀體驗。

參加辦法

  關聯本文,或加上標籤「簡繁轉換」。

  截止日期:暫訂3月31日。那之後我們應該會發布進一步的消息。

獎金分配方式

  30%的LikeCoin分發給分享段子、故事、雜感的朋友;70%分發給提出建議如系統規劃、使用者需求、運營方式等等的朋友。

  接受社區贊助。

我們徵不徵人?

  如果您對這個企畫很感興趣,想要參加,請留言或私信告知您有什麼相關技能,想做什麼事。我們會在評估人力需求以後一一答覆。

CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…
加载中…

发布评论