日期:2025/12/29

數位發展部發表「台灣主權 AI 訓練語料庫」,廣納高品質、在地化正體中文語料,支援 AI 模型訓練更貼近台灣的語言、文化及生活情境,促進 AI 模型具備更高的本土辨識力與語意理解能力,以符合台灣社會與產業需求。

數發部推動「台灣主權 AI 訓練語料庫」,已有超過 200 個政府機關投入,上架逾 2,000 筆資料集、超過 6 億 token 數,收錄各機關具台灣文化特色的高品質資料集,語意連貫、內容完整,涵蓋語言、文化、教育、生物、地理環境等領域,並設有入口網( taic.moda.gov.tw )提供個人、公司法人申請使用。

資料與人才將是 AI 發展的護城河,數發部積極推動正體中文語料庫,未來也會朝多媒體如影像、圖像等資料形式發展,並在合作框架下,引導地方政府與民間單位參與起中。

新聞圖片

▲左起數發部政務次長侯宜秀、資料創新司司長莊明芬。圖/數位發展部

原文出處:科技新報|助力 AI 模型學台灣用語,數發部推動台灣主權 AI 訓練語料庫(點此閱讀)