中医诊断古文的词性标注与特征重组

被引:11
作者
王国龙 [1 ]
杜建强 [1 ]
郝竹林 [1 ]
程春雷 [1 ]
蔡良俊 [2 ]
张鑫 [1 ]
机构
[1] 江西中医药大学计算机学院
[2] 江西中医药大学临床医学院
关键词
中医诊断古文; 键值对模型; 隐马尔可夫模型; 词性标注; 特征重组;
D O I
10.16208/j.issn1000-7024.2015.03.054
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中医诊断古文存在大量单音词,使用通用切词技术处理,结果是单个的分词结果,不能构成一个完整的诊断词汇。对此,设计一个基于键值对模型的中医诊断词性标记集,提出基于词汇联系的隐马尔可夫模型(HMM),进行词性标注,结合词法分析,采用移进归约算法进行特征重组,生成中医诊断词汇。实验结果表明,改进的HMM的词性标注准确率在训练集和测试集中分别提高了2.58%和1.02%,特征重组结果是完整独立的诊断词汇,方便中医人员进行诊断分析,适合构成向量空间模型的特征。
引用
收藏
页码:835 / 841
页数:7
相关论文
共 11 条