簡述
Google 翻譯最近新支援了粵語 (Cantonese)、阿法爾語 (Afar)、曼克斯語(Manx) 等 110 種語言
當中不缺乏一些極少人使用的語言
這標誌着Google 以 AI 支援 1000 種語言的計劃又向前邁進了一步
同時,大眾也會更容易的接觸這些語言
使用方法
首先,我們要先進入 Google 翻譯
要使用這些新增的語言就如往常我們使用 Google 翻譯一樣在語言選項中揀選想要使用的語言
你可以看到,可供選擇的語言多了不少
要是想不使用搜尋就找到目標語言是有一點難度的
要注意的是
廣東話在語言列表中的名字是「粵文」(意思就是粵語白話文)
要是你找廣東話的話是會找不到的
那麼在這篇文章後面的部份
我們還是跟隨官方稱其為粵文吧
在左側選擇粵文就可以把粵文翻譯為其他語言
在右側選擇粵文就可以把其他語言翻譯為粵文
測試
雖說 Google 翻譯現在是支援粵文了
但 Google 翻譯的成品質素啊
大家都是知道的
那麼,這次的粵文翻譯的質量又能不能令人滿意呢?
測試項目一:粵文 -> 其他語言
我們先來試試一些簡單的項目吧
我們試着把一些簡單的句子翻譯為中文(書面語)、英文、日文吧
就這麼看來,翻譯的質素真的不錯
雖說是比較常見的句子
但也能明確得出來它不是字對字的翻譯
而是明確的掌握了句子本來的意思
「機翻味」已是不那麼明顯了
如果只是這麼一兩句
真的很難看出是人翻還是機翻
測試項目二:其他語言 -> 粵文
下一步,我們就把剛剛的測試反過來
把中文(書面語)、英文、日文翻譯為粵文吧
經過了這個測試
我們可以看到
對於意思相同的句子
翻譯出來的結果也是準確穩定的
測試項目三:長文字
看來短短的一句也都是測不出 Google 翻譯的實力的了
而且,我相信大家用 Google 翻譯也都是用來翻譯文章為主的吧
那麼,就讓我們用一段文章來測一測吧
這個測試我們就試着把書面語翻譯為粵文吧
兩方我們都更熟悉一點
也更易看出有什麼問題
文章方面,我們採用了維基百科中「香港」詞條的一段文字
大家有興趣的話可以自己去看看
香港 – 維基百科,自由的百科全書 (wikipedia.org)
翻譯之後的粵文整體感覺還是不錯的
應轉換的字眼都轉換了
例如把「是」轉換為「係」,把「和」轉換為「同」
而且通篇的字眼轉換都很穩定
不會出現有時候是「係」,有時候是「喺」的情況
翻譯的質素是不錯
但還擺脫不了「書面味」啊
例如文中有一句「而其它自由港多為『自由港區』」
翻譯後則是完全沒有變化
如果是口語化一點的話
可以翻譯為「而其它自由港多數都係『自由港區』」
可見 Google 翻譯還以是「書面粵文」為主
想要「地道口語粵文」的話還是直接使用 LLM 會更好一點
下面是我用 Bing Chat 翻譯的例子
測試項目四:一字多義
一般的測試做完了
接下來,該是時候加點難度了😈
眾所周知,粵文中有一些字眼在不同的語境中會有不同的意思
那麼 Google 翻譯能準確的讀懂我們的意思嗎
我們可以看到
當「好」被用作副詞的時候
Google 翻譯是能正確的解讀
「你好」也是能正確的被劃為一個詞語
但「你好我好大家好」會被翻譯為「Hello me hello everyone」實在是有點可愛
我都快忍不住想要給它頒個「努力獎」了
( ̄y▽ ̄)╭ Ohohoho…..
相對的,把它視為中文(書面語)時
則是能準確的翻譯為「good for everyone」
「粵文君」你還是要多努力一點啊😏
測試項目五:多字一義
眾所周知,粵文中加一個口字部
就能把書面語轉換為口語 ((大誤!!
在日常應用中
「係」和「喺」、「既」和「嘅」所表達的意思都是一樣的
Google 翻譯正確的解讀它們嗎
這個結果看來是有點有趣了
在粵文翻譯中
「係」和「喺」、「既」和「嘅」似乎是被視為同一個字
翻譯的結果完全沒有分別
而在中文(書面語) 的翻譯中
則是把它們視為不同的字
當我們加了一個口字的部首
Google 翻譯就為將其視為口語並翻譯出和粵文翻譯差不多的結果
我有一個大膽的想法
難道說,只要用字恰當
原本的中文(書面語)翻譯也能翻粵文?!?!??!?
測試項目六:一字多音 + 俗語
在粵文翻譯中
所有文字都有被標上音標
也會有廣東話語音
我們現在就用一字多音的字來測一下它有多準確吧
我們可以看到
「銀行」的發音是準確的
但是之後的兩句
不論是意思還是發音都是錯得一塌糊塗啊
看來要有正確的發音得先要明白句子的意思啊
測試項目七:文法
眾所周知,中文和英文的文法是有不同的
例如中文中的「雖然」和「但是」是會經常中起出現的
但英文中的卻不會一起出現
就讓我們看看
我們能不能引導它倆在英文中一起出現吧
哎唷,不錯唷
在英文譯本中,雖然和但是沒有一起出現
看來 Google 翻譯是能做到意譯而不是字譯了
若是它能理解那段文字的意思
那就應該不太用擔用文法的問題了
測試項目八:潮語
既然俗語不行
潮語大多都是不行的了
雖然是不抱期待了
但我們還是試試看吧
沒想到,還真的有意外之喜
「大癲」竟然能被正確的譯出來
看來是因為其字面意思跟本義沒有太大差別的關係吧
而「屈機」會被翻譯為「boring」是真沒想到
看到這個我真的笑了
畢竟潮語區域性強,不屬於通用的粵文
而且其意思也很容易在短時間內發生變化
潮語不能被正確翻譯也只能說是意料之中吧
測試項目九:%!^(*&@#%$^#
現在,終於來到大家最期待的環節了
很多 LLM 服務都不準我們說一些「不好的字」
究竟 Google 翻譯又會如何處理我們那些地道的粗口呢
說實話,那是譯得真的不錯
除了「扑街」之外的粗口都能被正確的譯出來了
而「撚手小菜」中的「撚」也被視為粗口了
翻譯君,你的詞庫還得再改進一下啊
整體而言,粗口的部份還算是譯得不錯的
看來 Google 都知道大家會試這個
是故意保留這個部份了啊 ((笑
結語
外語使用者
一通測試下來
Google 粵文的翻譯質素也還算是可靠的 ((只要它能讀懂字面的意思,笑
只要不是用他來翻譯一些俗語潮語
也都算得上是好用
像是維基百科那些比較正規的粵文資料應該大多都能好好的翻譯
若是放到連登等地道的討論區
翻譯得出的譯文應該是會把人誤導到九宵雲外
方便的粵文翻譯對於粵文學習者來說可謂是神兵利器
尤其是它還帶有音標和朗讀音頻的生成
若你是廣東話的學習者
這可算是不可多得的好幫手
即便不是在學廣東話
沒了溝通問題
要來港旅行也方便多了
母語使用者
一般的文字資料採用的都是書面語
特殊一點的句子它又翻譯不了
那麼對於以廣東話作為母語的人來說又有什麼價值呢?
當然
它是一個很好的工具去查發音、正字、解釋或是適合的詞彙
但它還肩負着更重要的使命
目前
網絡上的粵文資料也依然非常稀少
以維基百科為例
截至2024年7月6日
中文維基百科有1,428,732篇文章
粵文維基百科有141,953篇文章
也就是說,粵文的資料量只有中文書面語資料的十分之一左右
而事實上
粵文的維基百科條目往往都是比中文畫面語的要短
所以就字數而言,是一定不及十分之一的
當中有一部份的原因是很多廣東話的使用者已經喪失了書寫粵文的能力
((老實說,其實我也不太會
現在有了這些翻譯服務
中文書面語的資料會更容易的翻譯為粵文
在可見的將來
粵文的資料數量應會有明確的增長
不論是不是以廣東話作為母語的人
也會更易的接觸到粵文的資料
目前,一些主流語言使用的人數愈來愈多
一些較少人使用的語言正不停的消失
這固然是方便溝通了
但一些「語言限定」的資料就會從此再無人能解
一些獨有的表達方式也會從此消失
以廣東話作為母語的人也都應該明白這種感覺吧
有一些韻味
是只有我們才能意會的
若是有一個平台
能解讀相關語言的資料
這些語言的資料就不會再面臨無法解讀的困境
學習變得方便了
也就更易把一門語言傳承下去
啟示
話說回來
Google 翻譯服務推出了快二十年了
為什麼到今天才推出粵文的翻譯服務呢
它需求少嗎?
一點也不
作為全球第十七多人用的語言 (在2019年,約有8490萬人使用)
廣東話使用者的足跡踏遍全球
Google 的資深軟件工程師 Isaac Caswell 都說了
「廣東話在 Google 翻譯上一直以來都是其中一種需求最大的語言」
那麼為什麼會拖了這麼久呢?
剛剛的那位工程又給出了答案
那是因為真的很難做啊
「由於廣東話在書寫上經常與普通話重疊,因此很難找到數據並訓練模型。」
那麼現在怎麼又做出來了呢?
大人,時代變了啊
ChatGPT 的出世
標誌着 LLM 進入了實用的時代
也向我們展現了 AI 的潛力
LLM 的發展使粵文的翻譯變成可能
不只是廣東話,還有更多的語言都同樣受惠
隨着科技的進步以及時代的發展
上文提到的翻譯質量問題也終將會消失吧
最近 AI 取代人類的討論鬧得沸沸揚揚
確實是有很多的工種可能會被 AI 取代
假以時日,若我能在 Google 翻譯選擇我想要的翻譯風格
可能都不再需要翻譯家了
1760年代,第一次工業革命開始
機器開始取代人力
1998 年,Google 橫空出世
以一己之力,改寫了互聯網的生態
一時無兩的索引頁屍橫遍野
但今天回過頭看
這個世界不也都還在正常運轉嗎
就像我們今天適應了Google 這個搜尋引擎一樣
數年過後,我們也會適應 AI 這個強大的助手
把它變為我們生活的一部份
就像我在寫這篇文章時
也用了 AI 工具去幫我查找資料和翻譯
要不然這可能要再花幾個小時才能寫好這篇文章
這篇文章也不會有封面
在文章的最後
就讓我用AI生成的一段文字作結吧
人工智能(AI)正在逐步取代人類在許多領域中的角色,從基本的數據分析到複雜的決策制定,AI的影響力日益增強。然而,這並不意味著人類將被邊緣化。AI在提高我們的生產力的同時,也在保護著人類的傳承。它通過自動化和優化工作流程,讓我們有更多的時間和精力去追求創新和創造性的工作。此外,AI還能學習和理解人類的文化、語言和藝術,從而幫助我們保存和傳承這些重要的人類遺產。因此,儘管AI正在改變我們的生活方式,但它也在以一種獨特的方式保護和豐富我們的人類文明。
Bing Chat, 2024
AI 都寫得比我好了,我該怎麼辦。急,在線等,20分。
參考資料
Google Translate adds 110 languages in its biggest expansion yet (blog.google)
3 ways AI is scaling helpful technologies worldwide (blog.google)
Google Translate 終支援廣東話 更新後支援語言數量達 243 種 – unwire.hk 香港
按人口排列的語言列表 – 維基百科,自由的百科全書 (wikipedia.org)
維基百科:統計 – 維基百科,自由的百科全書 (wikipedia.org)
維基百科:粵文維基百科 – 維基百科,自由的百科全書 (wikipedia.org)
更新 (07/07/2024)
剛剛發現我在粗口測試中誤把「仆」打成「扑」
要是輸入「仆你個街」的話
是能夠正確翻譯的
不過「仆街」還是譯錯了
發佈留言