面向网络文本的信息可信度研究

被引:0
作者
李璐旸
机构
[1] 哈尔滨工业大学
关键词
信息可信度; 网络文本信息; 词语抽取; 可信度计算;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
当互联网用户对一个疑惑的命题通过搜索引擎寻求答案时,不得不面对几十至几千条的搜索结果进行人工判别。网络上过量的搜索引擎返回结果分散了用户的精力和时间。又由于搜索引擎不能保证所有搜索结果的可靠性,其中掺杂的有误信息可能会误导用户,影响其做出正确的判断。如何过滤掉有误信息、筛选出可信信息是互联网用户面临的一个问题。因此研究信息可信度并帮助人们获取可信信息是有意义的。 网络上传播的信息,其可信度与两大因素相关:信息源的可信度和信息在网络这一传播媒体中的传播转载的特点。本文在研究中同时考虑了这两方面因素,设计了两层特征空间来从网络文本信息中抽取可信信息候选集,通过信息源可信度分类和信息的可信度计算获取可信信息。两层特征空间的第一层是关于信息源的特征空间,用于判断信息源的可信度。通过组建可信信息、不可信信息的信息库,训练得到判断信息源可信度的模型。第二层特征空间用于判断信息的可信度,由信息源可信度及信息在网络中的覆盖率等其他统计信息组成,通过计算最终得到信息的可信度。 本文的研究内容主要包括以下几方面: (1)在提取可信信息阶段,提出了利用词语结构特征从文本中提取可能为可信信息的候选信息。词语结构特征包括词性特征和命名实体特征,本文通过这两项特征来提取可信信息的候选集,实验中的提取准确度为91.25%。 (2)在信息可信度计算阶段,提出了构造包括信息源特征和可信信息特征的两层特征空间,将第一层信息源的可信度分类结果加入到第二层可信信息特征空间中,再通过可信度计算,排序获得最终的高可信度答案。 (3)结合本文提出的算法,设计实现了面向网络文本的信息可信度评估系统。系统在实验中获得89.2%的准确度。
引用
收藏
页数:60
共 17 条
[1]
基于SVMTool的中文词性标注 [J].
王丽杰 ;
车万翔 ;
刘挺 .
中文信息学报, 2009, 23 (04) :16-21
[2]
基于统计的中文网页正文抽取的研究 [J].
赵文 ;
唐建雄 ;
高庆锋 .
电脑知识与技术, 2008, (01) :120-123
[3]
基于网络的中文问答系统及信息抽取算法研究 [J].
崔桓 ;
蔡东风 ;
苗雪雷 .
中文信息学报, 2004, (03) :24-31
[4]
自动问答综述 [J].
郑实福 ;
刘挺 ;
秦兵 ;
李生 .
中文信息学报, 2002, (06) :46-52
[5]
汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77
[6]
A Survey of Web Clustering Engines [J].
Carpineto, Claudio ;
Osinski, Stanislaw ;
Romano, Giovanni ;
Weiss, Dawid .
ACM COMPUTING SURVEYS, 2009, 41 (03)
[7]
Making sense of credibility on the web: Models for evaluating online information and recommendations for future research [J].
Metzger, Miriam J. .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2007, 58 (13) :2078-2091
[8]
An examination of factors that affect the credibility of online health information [J].
Freeman, KS ;
Spyridakis, JH .
TECHNICAL COMMUNICATION, 2004, 51 (02) :239-263
[9]
Bursty and hierarchical structure in streams [J].
Kleinberg, J .
DATA MINING AND KNOWLEDGE DISCOVERY, 2003, 7 (04) :373-397