基于HMM的百科辞典文本中句子的知识点分类

被引:5
作者
许勇
宋柔
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学计算机系 北京
[3] 北京
关键词
HMM; 百科辞典知识获取; 自然语言处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型不同的条目文本中的分布有较强的规律性。在条目文本中识别出对应的知识点序列是百科全书中知识提取过程的重要一环。该文提出了一种基于隐马尔科夫(HMM)模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。
引用
收藏
页码:35 / 37+133 +133
页数:4
相关论文
共 2 条
[1]   用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[2]   一个基于向量空间模型的中文文本自动分类系统 [J].
朱华宇 ;
孙正兴 ;
张福炎 .
计算机工程, 2001, (02) :15-17+63