基于混合策略的公众健康领域新词识别方法研究

被引：2

作者：

侯丽

李姣

侯震

陈松景

机构：

[1] 中国医学科学院医学信息研究所

来源：

图书情报工作 | 2015年 / 23期

关键词：

互联网查询数据; 公众健康术语; N-Gram; 实体识别;

D O I：

10.13266/j.issn.0252-3116.2015.23.017

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

[目的 /意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法 /过程]设计规则与NGram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果 /结论]从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。

引用

页码：115 / 123

页数：9

共 13 条

[1] 规则与统计相结合的中文新词识别研究
王琳琳
[J]. 嘉兴学院学报, 2014, 26 (06) : 124 - 130
[2] CRF与规则相结合的医学病历实体识别
栗伟
赵大哲
李博
彭新茗
刘积仁
[J]. 计算机应用研究, 2015, 32 (04) : 1082 - 1086
[3] 基于CRF和规则的中文医疗机构名称识别
张金龙
王石
钱存发
[J]. 计算机应用与软件, 2014, 31 (03) : 159 - 162+198
[4] 基于N-Gram的专业领域中文新词识别研究
段宇锋
鞠菲
[J]. 现代图书情报技术, 2012, (02) : 41 - 47
[5] 统计与规则相结合的术语抽取
唐涛
周俏丽
张桂平
[J]. 沈阳航空航天大学学报, 2011, 28 (05) : 71 - 74
[6] 电子病历中命名实体的智能识别
叶枫
陈莺莺
周根贵
李昊旻
李莹
[J]. 中国生物医学工程学报, 2011, 30 (02) : 256 - 262
[7] 中文新词识别技术综述
张海军
史树敏
朱朝勇
黄河燕
[J]. 计算机科学, 2010, 37 (03) : 6 - 10+16
[8] 面向短文本的命名实体识别
王丹
樊兴华
[J]. 计算机应用, 2009, 29 (01) : 143 - 145+171
[9] 一种基于大规模语料的新词识别方法
贺敏
龚才春
张华平
程学旗
[J]. 计算机工程与应用, 2007, (21) : 157 - 159
[10] 基于构词法的网络新词自动识别初探
郑家恒
李文花
[J]. 山西大学学报(自然科学版), 2002, (02) : 115 - 119

← 1 2 →