随着数字信息的膨胀,大量可用的数字信息对于回答用户的各种问题变成了可利用的资源。传统的信息检索通常会对用户的提问返回成百上千篇文档,而用户必须依靠自己在这些繁多而又充满重复的文档中筛选自己需要的有用信息。为了克服这些不足,近年来,越来越多的研究机构和公司致力于新一代信息检索系统的研究,其中一个很重要的方向就是问答系统。
如今大多数的问答系统对于简单的事实性问题和常问问题的回答已经达到了很高的准确率,然而偏重于观点或情感的问答系统的研究却相对较少。人们不仅想要了解既定的事实,也想了解大众或他人对于某些特别的话题、人物,或者事件所持有的观点、想法和感情。我们发现人们对于焦点人物的关注度很高。人们喜欢了解焦点人物的喜好,也想要了解别人对这些公众人物是如何看待的。本文以娱乐焦点人物的喜好以及大众对其的情感作为研究对象,从比较新颖的情感角度来对问答系统进行研究。
相对于事实性问答系统而言,观点或情感问答系统的研究除了需要考虑观点持有者及情感倾向性等与情感相关问题以外,其难点还在于答案形式更复杂更分散。本文从百度知道人工搜集了大量的情感问题,并根据情感问题的特征,统计并归纳了五大情感问题类型。问题分类模式与传统事实性问答系统不同,不能仅仅根据疑问词对其进行分类,还需要考虑到观点以及受众的反应。问题分类使用基于组块分析的CRF模型与规则相结合的情感问题分类方法。在答案抽取时结合组块识别的结果和情感的倾向性,并根据情感问题类型的不同采取不同的方法以获取答案。实验表明本文情感问答系统研究中所用方法是有效的。