基于分词信息的中文机构名简称自动生成方法

被引:3
作者
连誉舜
赵宇明
机构
[1] 上海交通大学自动化系系统控制与信息处理教育部重点实验室
关键词
组织机构名; 中文简称; 中文分词; 条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在日常生活中,中文组织机构名简称被广泛使用。作为新词的重要来源之一,简称的识别和生成已成为自然语言处理领域研究的重点之一。分析中文组织机构名简称生成的特点,提出一种基于中文分词信息的组织机构名简称生成方法,并使用条件随机场建立自动生成模型。采用上海组织机构简称实际数据的实验结果,其Top-5的覆盖率达到了96.34%。
引用
收藏
页码:153 / 156
页数:4
相关论文
共 15 条
  • [1] Mining Atomic Chinese Abbreviation Pairs:A Probabilistic Model for Single Character Word Recovery. Chang J,Teng W. Proceedings of the Third SIGHAN workshop on Chinese Language Learning . 2006
  • [2] Conditional random fields: probabilistic models for segmenting and labeling sequence data. Lafferty J,McCallum A,Pereira F. Proceedings of the Eighteenth International Conference on Machine Learning . 2001
  • [3] Chinese segmentation and new word detection using conditional random fields. Fuchun Peng,Fangfang Feng,Andrew McCallum. Proceeding of The 20th International Conference on Computational Linguistics . 2004
  • [4] An Improved Chinese Word Segmentation System with Conditional Random Fied. Hai Zhao,Changning Huang,Mu Li. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing . 2006
  • [5] A maximum entropy approach to Chinese word segmentation. Jin K L,Hwee T N,Guo W Y. Proc of the4th SIGHAN Workshop on Chinese Language Proc . 2005
  • [6] Automatic chinese abbreviation generation using conditional random field. Yang D,Pan Y C,Furui S. . 2009
  • [7] Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression[J] . Xu Sun,Hou-Feng Wang,Bo Wang. &nbspJournal of Computer Science and Technology . 2008 (4)
  • [8] 中国计算机语言学研究前沿进展[M]. 清华大学出版社 , 孙茂松, 2009
  • [9] 构造缩略语的方法和原则
    殷志平
    [J]. 语言教学与研究, 1999, (02) : 73 - 82
  • [10] 基于条件随机场与Web数据的缩略语预测
    焦妍
    王厚峰
    张龙凯
    [J]. 中文信息学报, 2012, (02) : 62 - 68