2023 年 2 月 23 日&苍产蝉辫;—&苍产蝉辫;由集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊,今日開放全球第一款繁體中文語言模型到開源網站提供測試。本次公開釋出以開源語言模型 BLOOM 開發的繁體中文大型語言模型(large language model),比目前開源可用的最大繁體中文模型大 1,000 倍,所使用的訓練資料也多 1,000 倍。該模型已公開讓外界下載,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。
聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點,更是未來進步不可或缺的基石。联发科技向來重視創新及科技發展,此次結合中研院及國教院,成為台灣極少數能訓練大型語言模型的團隊,以透明、開放和包容的方式,善用技術、人才及資源,既發展自主訓練大型人工智慧模型的能力,也讓繁體中文的大型語言模型研究及應用更為普及。」
開放原始碼釋出的大型語言模型,目前多數仍以英文為主要優化的對象,繁體中文的語言模型相對不足。為此中央研究院詞庫小組在 2019 年開發並公開 BERT 和 GPT-2 的繁體中文優化版本,但是因為資料量的差距,這些模型與主流的大型語言模型差距越來越大。有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,在 2022 年 5 月,聯發創新基地、中央研究院和國家教育研究院展開合作計畫,使用大型語言模型 BLOOM 的繁體中文模型再訓練與優化。目前開放系列中第一個有量級跳躍意義的繁體中文語言模型,聯發創新基地也暫備一個手機網頁的介面,供語言模型研究者試用。此模型系列的評量指標,以及參數量更大(176B)的模型,將會陸續開放下載。
為了建立该项语言模型,国家教育研究院提供了大量高品质的繁体中文语料,作為主要的训练材料。联发创新基地则建置了训练的硬体环境,制订各种符合国际标準的繁体中文评量指标,收集更近期的语料,并对模型进行能更有效读懂使用者的指示(辫谤辞尘辫迟)的特别训练。中央研究院词库小组则针对模型生成的文字是否具有偏见或敌意等不合适的内容,进行自动侦测与改正的研究与评估。评估结果表明,这套由叁方提供的一系列繁体中文语言模型,均达到开源模型前所未有的效果,较能避免具有偏见或敌意的内容。
大型語言模型近來的蓬勃發展,源自於 2019 年 Google 推出的 BERT 語言模型,以及同年 OpenAI 開始推出的一系列 GPT 語言模型。這些大型語言模型已經被證實具備相當的知識與能力,即使在少量訓練資料,甚至無訓練資料之下也依然能夠對新任務產生正確結果,已成為人工智慧往前進化不可或缺的基礎。
###
关於联发科技
联发科技股份有限公司(TWSE:2454)是一家全球無晶圓廠半導體公司,在智慧手持裝置、智慧家庭應用、無線連結技術及物联网產品等市場位居領先地位,每年約有 20 億台內建联发科技晶片的終端產品在全球上市。联发科技力求技術創新,為智慧型手机、平板电脑、智慧電視與機上盒、穿戴式裝置與車用電子等產品,提供具備高效能、低功耗的行動運算技術與先進的多媒體功能。联发科技致力讓科技產品更普及,因為我們相信科技能夠改善人類的生活、與世界連結,每個人都有潛力利用科技創造無限可能(Everyday Genius)。更多訊息請參考官網: