面向中文电子病历的词法语料标注研究

被引:9
作者
蒋志鹏
赵芳芳
关毅
杨锦锋
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
中文电子病历(CEMR); 词性标注; 标注一致性; 语料差异; 错误分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
引用
收藏
页码:609 / 615
页数:7
相关论文
共 4 条
  • [1] 北京大学现代汉语语料库基本加工规范
    俞士汶
    段慧明
    朱学锋
    孙斌
    [J]. 中文信息学报, 2002, (05) : 49 - 64
  • [2] 信息处理用现代汉语分词规范.[S].北京航空航天大学;燕山公司系统部;北京师范大学;中国标准技术咨询服务中心;机电部计算机与微电子中心;北京语言学院;水电科学院计算所;中国软件技术公司;机电部第四研究所.国家技术监督局.1992,
  • [3] Developing a corpus of clinical notes manually annotated for part-of-speech.[J].Serguei V. Pakhomov;Anni Coden;Christopher G. Chute.International Journal of Medical Informatics.2005, 6
  • [4] Really; Is Medical Sublanguage That Different? Experimental Counter-evidence from Tagging Medical and Newspaper Corpora.[J].Marius Fieschi;Enrico Coiera;Yu-Chan Jack Li;Joachim Wermter;Udo Hahn.Studies in Health Technology and Informatics.2004,