基于多向量和实体模糊匹配的话题关联识别

被引:5
作者
张晓艳
王挺
陈火旺
机构
[1] 国防科技大学计算机学院
关键词
计算机应用; 中文信息处理; 话题关联识别; 多向量表示模型; 命名实体模糊匹配;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
引用
收藏
页码:9 / 14
页数:6
相关论文
共 10 条
[1]  
Data characteristicsthat determine classifier performance. Van Der Walt C M,Barnard E. SixteenthAnnual Symposium of the Pattern RecognitionAssociation of South Africa . 2006
[2]  
The 2003 Topic Detection and Tracking(TDT2003)Task Definition and Evaluation Plan. http://www.nist.gov/speech/tests/tdt/tdt2003/evalplan.htm .
[3]  
Semantic language models for topicdetection and tracking. Nallapati R. Proceedings of the2003 Conference of the North American Chapter of theAssociation for Computational Linguistics on HumanLanguage Technology:Proceedings of the HLT-NAACL 2003 student research workshop . 2003
[4]  
http://projects.ldc.upenn.edu/TDT4/Annotation/2003-eval-topics.html .
[5]  
UMass atTDT 2004. Connell M,Feng A,Kumaran G,et al. The 7th Topic Detection and TrackingConf . 2004
[6]  
http://projects.ldc.upenn.edu/TDT4/ .
[7]  
http://www.csie.ntu.edu.tw/~cjlin/libsvm/ .
[8]  
Topic-conditioned noveltydetection. Yang Y,Carbonell J,Jin C. Proceedings ofthe 8thACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining . 2002
[9]  
Taking TopicDetection From Evaluation to Practice SystemSciences. Allan J,Harding S,Fisher D,et al. Proceedings of the 38th Annual HawaiiInternational Conference . 2005
[10]  
http://sewm.pku.edu.cn/QA/reference/ICTCLAS/FreeICTCLAS/ .