考虑全文本内容的算法学术影响力分析研究

被引:21
作者
王玉琢 [1 ,2 ]
章成志 [1 ,2 ,3 ]
机构
[1] 南京理工大学经济管理学院信息管理系
[2] 江苏省社会公共安全科技协同创新中心
[3] 江苏省数据工程与知识服务重点实验室(南京大学)
关键词
算法影响力; 影响力评估; 全文本内容; 文本内容分析;
D O I
10.13266/j.issn.0252-3116.2017.23.001
中图分类号
TP311.13 []; TP391.1 [文字信息处理];
学科分类号
1201 ;
摘要
[目的/意义]从全文本内容分析的角度对算法的学术影响力进行分析。[方法 /过程]以自然语言处理领域十大数据挖掘算法使用为例,分析不同算法在特定领域的影响力。通过对1965年-2006年间发表的自然语言处理领域10 922篇学术论文的调研,从其全文内容中抽取6 001条包含十大数据挖掘算法的句子(简称算法句);针对算法句从提及论文数、总提及次数、提及位置等3个方面,对不同算法的影响力进行比较分析。[结果/结论]以不同特征作为影响力衡量标准,十大数据挖掘算法在自然语言处理领域学术论文中的影响力有明显区别,在基于论文数、提及数和提及位置的评估标准中,SVM算法表现出较高的影响力,Apriori算法的影响力则明显低于其他算法。本研究为量化评估算法的影响力提供了新思路。
引用
收藏
页码:6 / 14
页数:9
相关论文
共 15 条