Web科技新闻分类抽取算法

被引:3
作者
朱全银
潘禄
刘文儒
李翔
张永军
刘金岭
机构
[1] 淮阴工学院计算机与软件工程学院
关键词
科技新闻; 文本分类; TF-IDF; 抽取算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为了改善从Web上获取的新闻信息的使用价值,针对Web网站存在大量非科技相关新闻的现状,以互联网上政府新闻网站、凤凰网等新闻为研究背景,选取TF-IDF文本加权方法,设计了科技新闻多层次二分类模型,实现了基于TFIDF的科技新闻文本分类抽取系统,在20万新闻文档和4000多种分类上,实验取得了科技新闻85.3%的识别准确率和非科技新闻82.9%的识别率,为Web科技新闻分类抽取提供有实用价值的参考模型。
引用
收藏
页码:18 / 24
页数:7
相关论文
共 12 条
[1]
Effect of Magnitude Differences in the Original Data on Price Forecasting [J].
Zhu, Quan-yin ;
Yin, Yong-hua ;
Zhu, Hong-jian ;
Zhou, Hong .
JOURNAL OF ALGORITHMS & COMPUTATIONAL TECHNOLOGY, 2014, 8 (04) :389-420
[2]
Price Forecasting for Cell Phone Market Using Adaptive Sliding Window and Adaptive RBF NN [J].
Zhu, Quan-yin ;
Cao, Su-qun ;
Zhou, Pei ;
Yin, Yonghua .
JOURNAL OF ALGORITHMS & COMPUTATIONAL TECHNOLOGY, 2013, 7 (04) :395-421
[3]
基于左归词频向量空间模型的中文文本抄袭检测算法 [J].
谢松山 ;
唐雁 .
西南大学学报(自然科学版), 2015, (05) :158-161
[4]
文本分类方法在网络舆情分析系统中的应用研究 [J].
马海兵 ;
毕久阳 ;
郭新顺 .
情报科学, 2015, 33 (05) :97-101
[5]
一种改进的支持向量机文本分类方法 [J].
李琼 ;
陈利 .
计算机技术与发展, 2015, 25 (05) :78-82
[6]
基于类别信息优化的潜在语义分析分类技术 [J].
季铎 ;
毕臣 ;
蔡东风 .
中国科学技术大学学报, 2015, 45 (04) :314-320
[7]
基于邻域粗糙集的多标记分类特征选择算法 [J].
段洁 ;
胡清华 ;
张灵均 ;
钱宇华 ;
李德玉 .
计算机研究与发展, 2015, 52 (01) :56-65
[9]
基于词矢量相似度的短文本分类 [J].
马成龙 ;
姜亚松 ;
李艳玲 ;
张艳 ;
颜永红 .
山东大学学报(理学版), 2014, 49 (12) :18-22+35
[10]
超球支持向量机文本分类方法改进 [J].
胡吉明 ;
陈果 .
现代图书情报技术, 2014, (09) :74-80