具有概念联想功能的特定领域分词词典的自动构建

被引:3
作者
张彦
邵志清
机构
[1] 华东理工大学计算机科学与工程系
[2] 华东理工大学计算机科学与工程系 上海
[3] 上海
关键词
语义词典; 未登录词; PAT树; 语义距离;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
081203 ; 0835 ;
摘要
提出了一种基于PAT树型结构的高频字串提取的改进算法,并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将生成的语义词典用于搜索引擎FlyingSender中。实验结果证明新的词典比原有的手工构建的词典分词效果要理想得多,而且提供了概念联想的功能。
引用
收藏
页码:148 / 150
页数:3
相关论文
共 3 条
[1]  
AutomaticConstruction ofNetworks ofConceptsCharacterizingDocumentDatabases. ChenH,LynchK J. IEEE Transaction onSystems,Man andCybernetics . 1992
[2]  
PAT-tree-based Adaptive Keyphrase Extraction for Intelli-gent Chinese Information Retrieval. Feng C L. Information Processing and Man-agement . 1999
[3]  
A ChineseDictionaryAlgorithm forInfor- mationRetrieval. JinHonglan,WongK F. http:// www.se.cuhk.edu.hk/dn/TALIP-02-a35. doc .