日期:2024/07/18
主權AI意識是近期各國積極關注項目,電信三雄董總18日拜會新任數發部長黃彥男並交換對資訊產業意見,台灣大哥大(3045)總經理林之晨則建議,數位部結合政府與民間力量,打造主權AI需要的繁體中文共同語料庫(common data set)。據了解,黃彥男表示,開發繁體中文共同語料庫未來是多元創新司的其中一個任務,未來也希望能有機會跟電信業者一起合作。
林之晨指出,現在許多公司可以用AI工具訓練出內容,但是繁體中文內容「怪怪的」,主要是基礎來自美國的大語言模型如ChatGPT、Gemini,其中的繁體中文資料不是台灣的語料。他指出中文語料是主權AI的基礎,沒有高品質的繁中資料庫,根本訓練不出來主權AI。他向黃彥男建議要集合政府甚至民間力量去把繁中共同資料庫做好。
圖/PhotoAC アトリエ100
|原文網址|
林之晨指出,現在許多公司可以用AI工具訓練出內容,但是繁體中文內容「怪怪的」,主要是基礎來自美國的大語言模型如ChatGPT、Gemini,其中的繁體中文資料不是台灣的語料。他指出中文語料是主權AI的基礎,沒有高品質的繁中資料庫,根本訓練不出來主權AI。他向黃彥男建議要集合政府甚至民間力量去把繁中共同資料庫做好。
圖/PhotoAC アトリエ100
|原文網址|