基于伪相关反馈模型的领域词典生成算法

被引:10
作者
黄玉兰
龚才春
许洪波
程学旗
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 有意串; 领域词典; 大规模语料; 伪相关反馈;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。
引用
收藏
页码:111 / 115
页数:5
相关论文
共 4 条
[1]
基于频繁模式的消息文本聚类研究 [D]. 
胡吉祥 .
中国科学院研究生院(计算技术研究所),
2006
[2]
Meaningful term extraction and discriminative term selection in text categorization via unknown-word methodology.[J].Yu-Sheng Lai;Chung-Hsien Wu.ACM Transactions on Asian Language Information Processing (TALIP).2002, 1
[3]
一个中文新词识别特征的研究 [J].
秦浩伟 ;
步丰林 .
计算机工程, 2004, (S1) :369-370+414
[4]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9