中文文本歧义字段切分技术

被引:7
作者
温锁林
机构
[1] 山西大学中文系!山西太原
关键词
自动分词; 歧义字段; 交集型歧义字段; 多义型歧义字段;
D O I
暂无
中图分类号
H13 [语义、词汇、词义(训诂学)];
学科分类号
摘要
中文文本的自动分词是中文信息处理的瓶颈技术,这一技术中的核心是歧义字段切分问题,它是影响分词系统切分精度的重要因素,也是自动分词系统设计中的一个最困难的问题。当前,国内对歧义字段切分提出了多种方法,取得了一定的成效。但根据权威方面的资料,汉语书面语自动分词软件的歧义字段切分正确率很低,离实际需要的差距还是很大。文章展示了真实文本中获取的翔实语言材料和具体处理难点,在此基础上,全面展示在处理这一技术难题时所采用的技术路线以及取得的阶段性成果。
引用
收藏
页码:36 / 40
页数:5
相关论文
共 3 条
[1]  
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[2]  
语言工程.[M].陈力为;袁琦主编;.清华大学出版社.1997,
[3]  
自然语言的计算机处理.[M].冯志伟著;.上海外语教育出版社.1996,