基于主题词分布的低价值新闻识别技术研究

被引:2
作者
朱青
李贞昊
机构
[1] 北京工业大学软件学院
关键词
新闻识别; 主题词分布; 依存句法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种识别网络新闻中主要内容与标题不相符或相关性不大的低价值新闻的算法。该算法先从新闻标题中提取出最能反映新闻主题的两个主题词,再分析主题词在正文中的分布情况,并计算出相关概率,以相关概率来判断是否为低价值新闻。实验证明该算法的识别率可达到85.71%,高于基于主题句相似度计算方法的72%,且该算法不受新闻正文长度的影响,是一种实用有效的识别方法。
引用
收藏
页码:190 / 195
页数:6
相关论文
共 17 条
[1]   汉语句法分析研究综述 [J].
郑伟发 .
信息技术, 2012, 36 (07) :72-74+78
[2]   “标题党”泛滥的危害、根源和对策 [J].
朱继东 .
新闻爱好者, 2012, (17) :15-18
[3]   网络新闻标题写作中存在的问题及对策 [J].
杨红星 ;
张兆金 .
新闻知识, 2013, (06) :96-97
[4]   网络“公民新闻”的社会舆情解读 [J].
吴晓明 .
河北学刊, 2011, 31 (03) :167-171
[5]   关于“恐惧夸大”与媒体责任的反思 [J].
陈力丹 ;
赵一争 .
新闻实践, 2010, (03) :15-17
[6]   基于句法结构分析的中文问题分类 [J].
文勖 ;
张宇 ;
刘挺 ;
马金山 .
中文信息学报, 2006, (02) :33-39
[7]  
一种商品标题主题词的重要性排序算法[A]. 刘春阳,叶君峰,母海龙,陆秋霞,陈沧,高莺.第五届全国信息检索学术会议论文集[C]. 2009
[8]  
Dependency grammar and dependency parsing. Nivre J. MSI report . 2005
[9]  
Information extraction. Sarawagi,Sunita. Foundations and Trends in Databases . 2007
[10]  
Phrase dependency parsing for opinion mining. Wu Y,Zhang Q,Huang X, et al. Proceedings of the 2009Conference on Empirical Methods in Natural LanguageProcessing . 2009