基于概率统计技术和规则方法的新词发现

被引:26
作者
贾自艳
史忠植
机构
[1] 中国科学院计算技术研究所
基金
北京市自然科学基金;
关键词
新词发现; 短语抽取; 二元语法; 语料库;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。
引用
收藏
页码:19 / 21+83 +83
页数:4
相关论文
共 4 条
[1]  
Meaningful Term Extraction and Discriminative Term Selection in Text Categorization via Unknownword Methodology. Lai Yusheng,Wu Chunghsien. ACM Transaction on Asian Language Information Processing . 2002
[2]  
TheUse ofBigramstoEnhanceTextCategorization. TanChademeng,WangYuanfang,LeeChando. InformationProcessing andManagement . 2002
[3]  
A Comparison ofClassifiers andDocumentRepresentations for theRoutingProblem. SchutzeH,,HullD,PedersonJ. Proceedings ofSIGIR-95,15thACM InternationalConference onResearch andDevelopment inInformationRetrieval . 1995
[4]  
FeatureSelection andFeatureExtraction forTextCategorization. LewisD. Proceedings of aWorkshop onSpeech andNaturalLanguage . 1992