中文断词系统 台湾

中文断词系统 台湾

所属分类:古籍网

官方网址:http://ckipsvr.iis.sinica.edu.tw

-- -- 0

站点介绍

詞是最小有意義且可以自由使用的語言單位。任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、資訊抽取。因此中文自動分詞的工作成了語言處理不可或缺的技術。基本上自動分詞多利用詞典中收錄的詞和文本做比對,找出可能包含的詞,由於存在歧義的切分結果,因此多數的中文分詞程式多討論如何解決分詞歧義的問題,而較少討論如何處理詞典中未收錄的詞出現的問題(新詞如何辨認)。
由於中文詞集是一個開放集合,不存在任何一個詞典或方法可以盡列所有的中文詞。當處理不同領域的文件時,領域相關的特殊詞彙或專有名詞,常常造成分詞系統因為參考詞彙的不足而產生錯誤的切分。為了解決這個問題,最有效的方法是補充領域詞典加強詞彙的搜集。因此新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟。領域關鍵詞彙多出現在該領域的文件中而少出現在其它領域,因此抽取關鍵詞時多利用此特性。高頻的關鍵詞比較容易抽取,少數低頻的新詞不容事先搜集,必須線上辨識。構詞律、詞素、詞彙及詞彙共現訊息,為線上新詞辨識依據。本系統提供了一個解決方案,可以自動抽取新詞建立領域用詞或線上即時分詞功能。為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文斷詞系統。此一系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞歧義問題。除了基本詞彙庫外,使用者可依需要附加領域專屬詞庫。詞類標記為選擇性功能,可附加文本中切分詞的詞類解決詞類歧義並猜測新詞之詞類。分詞系統採用之詞典俱可擴充性,使用者可依據不同領域文件,補充以領域詞典做為分詞之用。

相关推荐

  • 古今图书集成

    古今图书集成

    【注意】经使用者反映,该网站(国学大师网)存在销售资料硬盘以牟利的行为,请使用者(尤其是学生)注意辨别,避免不必要的资金损失。

  • 台湾甲骨文数位典藏

    台湾甲骨文数位典藏

    本計劃由2004年開始建置甲骨文拓片數位典藏,主要處理對象是藏於史語所的甲骨文拓片,約有四萬餘件,可分為考古發掘甲骨之拓片,及購藏所得甲骨之拓片兩類。本資料庫的...

  • 宋人文集 国图

    宋人文集 国图

    国家图书馆精选所藏宋人文集善本二百七十五部,首选宋元刊本,次及明清精抄精刻,或经名家校勘题跋之本,通过缩微胶卷还原数字影像,并辅以详细书目建成本全文影像数据库,...

  • 香港城市大学古籍

    香港城市大学古籍

    香港城市大学邵逸夫图书馆所藏善本书,目前仅上线12部。

  • 古音小镜

    古音小镜

    古音小鏡是一個歷史語言學分享網站,提供韻書查詢、中古音查詢、上古音查詢、方言查詢、古文字查詢、民族語查詢、地名查詢、詩經韻腳查詢、異讀查詢、假借查詢、方言地圖查...

  • 韩国历史情报综合系统

    韩国历史情报综合系统

    資料總數為9,110,555件之多,包括古圖書3,061,273冊、古文書92,242件、一般圖書1,256,382冊、一般文書358,810件、學術期刊2,2...

微信二维码