基于最大概率法探讨中医症状信息提取与标准化

被引:7
作者
梁礼铿
黎敬波
机构
[1] 广州中医药大学
关键词
症状; 文本挖掘; 文本数据结构化; 中文分词; 最大概率法; 标准化;
D O I
暂无
中图分类号
R241 [中医诊断学];
学科分类号
100505 [中医诊断学];
摘要
目的:通过比较两个基于最大概率法的症状提取方案,探讨中医症状信息的提取和标准化。方法:数据分析和处理在R 3.3.2上进行。运用《诊断学》《中医诊断学》及1 000份已标记的肺炎住院病历建立症状标准化数据库,症状描述词库和关键词-形容词词库。基于最大概率法分别设计出中文分词方案,直接提取方案和组合提取方案。并用这3种方案对2 311份肺炎病历进行症状信息提取和标准化,从产生维度、手工处理情况、症状提取效果对方案进行比较。结果:直接提取方案和组合提取方案均能有效降低维度,组合提取方案手工处理百分比较小和症状提取效果较好。结论:基于最大概率法的组合提取方案能有效提取中医症状信息。
引用
收藏
页码:2159 / 2162
页数:4
相关论文
共 7 条
[1]
隐马尔可夫模型在中文文本分词中应用研究 [J].
王庆福 .
无线互联科技, 2016, (13) :106-107
[2]
中文分词模型的领域适应性方法 [J].
韩冬煦 ;
常宝宝 .
计算机学报, 2015, 38 (02) :272-281
[3]
中医医案文献自动分词研究 [J].
张帆 ;
刘晓峰 ;
孙燕 .
中国中医药信息杂志, 2015, 22 (02) :38-41
[4]
CRF与规则相结合的医学病历实体识别 [J].
栗伟 ;
赵大哲 ;
李博 ;
彭新茗 ;
刘积仁 .
计算机应用研究, 2015, 32 (04) :1082-1086
[5]
基于二元语法的N-最大概率中文粗分模型 [J].
吴春颖 ;
王士同 .
计算机应用, 2007, (12) :2902-2905
[6]
诊断学[M] 戴万亨; 张永涛; 主编 中国中医药出版社 2012,
[7]
中医诊断学[M] 邓铁涛主编; 上海科学技术出版社 2006,