共 4 条
一种基于LDA模型的关键词抽取方法
被引:15
作者:
朱泽德
[1
,2
]
李淼
[2
]
张健
[2
]
曾伟辉
[2
]
曾新华
[2
]
机构:
[1] 中国科学技术大学自动化系
[2] 中国科学院合肥智能机械研究所
关键词:
信息抽取;
关键词抽取;
LDA模型;
主题相似性;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。
引用
收藏
页码:2142 / 2148
页数:7
相关论文