基于概率统计技术和规则方法的新词发现

被引：26

作者：

贾自艳

史忠植

机构：

[1] 中国科学院计算技术研究所

来源：

计算机工程 | 2004年 / 20期

基金：

北京市自然科学基金;

关键词：

新词发现; 短语抽取; 二元语法; 语料库;

D O I：

暂无

中图分类号：

TP391.4 [模式识别与装置];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。

引用

页码：19 / 21+83 +83

页数：4

共 4 条

[1]

Meaningful Term Extraction and Discriminative Term Selection in Text Categorization via Unknownword Methodology. Lai Yusheng,Wu Chunghsien. ACM Transaction on Asian Language Information Processing . 2002

[2]

TheUse ofBigramstoEnhanceTextCategorization. TanChademeng,WangYuanfang,LeeChando. InformationProcessing andManagement . 2002

[3]

A Comparison ofClassifiers andDocumentRepresentations for theRoutingProblem. SchutzeH,,HullD,PedersonJ. Proceedings ofSIGIR-95,15thACM InternationalConference onResearch andDevelopment inInformationRetrieval . 1995

[4]

FeatureSelection andFeatureExtraction forTextCategorization. LewisD. Proceedings of aWorkshop onSpeech andNaturalLanguage . 1992

← 1 →