- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
台语文书面语语料库简介及典藏相关建议-白话字台语文
台語文書面語語料庫簡介及典藏相關建議 花蓮大漢技術學院 資訊工程系楊允言 I?n ún-gian 台灣Holo話的活力與傳承研討會 2005/10/21 大綱Tai-kong 台語文書面語語料庫簡介 語料庫簡介 來源、數量 現有成果 未來空課 台語文典藏e建議 WordNet TAT2006 ? 1.台語文書面語語料庫簡介 簡介 2003年正月開始蒐集 現代台語 vs 中研院閩南語典藏計畫 以白話字書寫e全羅/漢羅書面語 避開書寫系統爭議 書面語數量siong choe e書寫系統 簡化資料處理e複雜度 因為編碼問題,需要轉檔 文類、作者性別、出版年 目標:公開e平衡語料庫 1.台語文書面語語料庫簡介-2 主要來源 台文刊物 台文通訊、台文罔報、台灣字、台灣公論報蕃薯園、蓮蕉花、湠根、… 專書、論文電子檔 作者提供 計畫成果 台灣白話字文學資料蒐集整理計畫(台灣文學館委託成大台文所 2001.5~2004.12) 其它 1.台語文書面語語料庫簡介-3 目前語料數量(音節) 全羅 3,462,367 tokens / 3,525 types 漢羅 5,568,057 tokens / 8,527 types 包括數字,排除: 標點 無合法e白話字音節 英文 Phah字錯誤 1.台語文書面語語料庫簡介-4 現有成果 台語文語詞檢索系統(Concordancer).tw/TG/concordance 漢羅/全羅(2) 音節/語詞(2) 頻率/MI/Correlation (3) e統計資料(12個表) .tw/giankiu/keoe/keoe.asp 論文,利用台語新約聖經探討歷時台語語詞變化(1910’s vs 1970’s) (word type層次, -43%).tw/giankiu/GTH/2004/LanguageRights/index.htm 1.台語文書面語語料庫簡介-5 未來空課 繼續蒐集語料,尤其是網路資源(Wikipedia) 解決著作權問題 Koh-khah choe e研究人力/資源 語料庫加工:斷詞、tagging 台語辭典編纂 希望帶動計算語言學界e台語文相關研究 2.台語文典藏e建議 WordNet 台語文國際化e一條路 TAT-2006 ? MAT-2000 (Mandarin speech data across Taiwan) 3.展望 Ti台灣,閩南語使用人口1千7百萬人 全世界,閩南語使用人口超過5千萬人,排名第21 希望中研院語言所願意投入khah choe e資源kah人力,帶動台灣本土語言e基礎研究 敬請指教Kèng-chhián chí-kàu * * *
文档评论(0)