《资讯处理用中文分词规范》设计理念及规范内容

被引:7
作者
黄居仁
陈克健
陈凤仪
魏文真
张丽丽
机构
关键词
分词单位; 定义; 附着语素; 中文分词; 资讯; 自动分词; 自然语言处理; 辅助原则; 字串; 名词性成分; 汉语分词; 接尾词; 双音节词; 双音词; 词库; 设计理念;
D O I
10.16499/j.cnki.1003-5397.1997.01.020
中图分类号
G202 [信息处理技术];
学科分类号
摘要
《资讯处理用中文分词规范》有下列两个突破:(1)提出分级的观念及确立信、达、雅三级的标准。最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作自动翻译、资讯检索等自然语言处理的标准;至于最需要人工分词才能达到的雅级则视为电脑处理、理解中文之最高目标。(2)把分词规范分成不变核心(分词单位定义及基本原则),以及可变准则(辅助原则)。在确定分词规范架构后,只要定时更新基本词库或特殊领域的专门词库,便可维持分词规范的不变性
引用
收藏
页数:9
相关论文
empty
未找到相关数据