导航菜单
首页 >  » 正文

浅谈中文分词技术

摘 要:目前,中文信息处理涉及面广泛,中分分词作为中文信息处理中的基础环节,其重要性不言而喻。本文主要叙述了中文分词的重要性以及发展中的难点,重点分析了目前典型的分词算法及优缺点。
  关键词:中文分词 算法 发展难点
  中图分类号:TP391.1 文献标识码:A 文章编号:1672-3791(2011)11(b)-0226-01
  1 中文分词的重要性
  中文分词是中文信息处理的重要的基础环节,可以从以下几点来认识[1]:首先,“词”是组成句子的基本单位,要对句子进行分析,首先得对“词”进行分析,只有在这个基础上才能谈得上进一步作其他的处理;其次,计算机有关汉语言的知识很大一部分是以机器词典(给出词的各项信息,包括句法信息,语义信息,甚至语用信息等)的形式存储的,中文信息处理系统只有在“词”的基础上进行,才可能利用这些知识。目前,有关中分分词技术的研究已经取得了很大的进展,涌现出许多的分词方法并在实际过程中取得了一定的应用成果。
  
  2 典型分词算法及优缺点
  目前采用的分词算法大体上分为三类:(1)基于字符串匹配的分词方法,如MM方法、RMM方法;(2)基于统计的分词方法,如组合度算法;(3)基于理解的分词方法,如专家系统方法、神经元网络方法。
  (1)MM方法,即正向最大匹配算法,该算法的基本思想是按照文本从左至右的阅读习惯取一定长度(等于词典中最长词条中汉字的个数)的汉字串与词典中的最长词条进行比对,如果比对成功则把该汉字串作为一个词切分出来,如果在词典中匹配不到这样长度的汉字串,则去掉该汉字串的末尾一个字重新与词典中的词条进行比对,按照汉字串长度逐步减小的原则重复以上比对过程,直到匹配成功为止,这样就完成一个词的切分,然后对剩余未切分的文本重复上述一系列步骤,直到切分出语句中所有词为止。
  (2)RMM方法,即逆向最大匹配算法,它的分词过程与MM方法相同,不同的是分词方向与MM正好相反。每次是从待处理文本的末尾开始处理,每次匹配不成功时去掉的是汉字串的首字。
  从以上两种分词方法来看,MM法的原理简单,容易在计算机上实现。但是,据统计MM方法的错误切分率为1/169,也就是说切分精度不高,所以,该方法一般不单独使用,而是作为一种基本的方法和其它方法配合使用;RMM方法的切分精度要高一些,据统计RMM的错误切分率为1/245。但是,该方法为了查询方便,要求配备逆序的分词词典,这样的分词词典维护起来比较困难,不符合人们习惯。
  (3)组合度算法,该算法大致的分词思路是根据在上下文中相邻字同时出现的概率高于一定的值时就把相邻字作为一个词看待。这个统计方法的结果反映了语言中的用词规律,对切分歧义和识别新词有良好的效果。但它也存在一些缺点,如对自然语言的处理和表示比较薄弱,经常会抽一些无用词组;对频度较低的词,永远被错误切分。
  (4)专家系统方法,该方法力求从结构与功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识及语义知识,使知识库便于维护和管理。它把自动分词过程看成是自动推理过程。实现推理的方法是统一的,不论对歧义切分字段还是非歧义字段都采用同样的推理,所需的知识全部在知识库中。但该方法由于分词所依赖的常识性知识过于庞大,全面地收集整理这些常识性知识是非常困难的。
  (5)神经元网络方法,该方法旨在模拟人脑的神经系统运作机制来实现一定的功能。主要是将分词知识以统一的“权重”形式表示,从而使一般分词方法中的“启发性”知识与“常识性”知识处于相同地位,知识表达简捷性和精确性使得知识的组织和利用也相当简单,但其时间复杂度较高。
  以上关于专家系统和神经元网络分词方法在中文自动分词中的应用将大大提高分词的智能性,是近年来分词研究的热点也是未来中文自动分词发展的一个重要方向。
  
  3 中文分词发展难点
  目前,虽然国内外对中文分词的研究取得了很大的进展,但是还不能满足实际需要,主要表现在以下三个方面。
  (1)分词算法的运行速度和精度未能达到理想的效果。目前,中文分词涉及到的应用广泛,如机器翻译、搜索引擎、文本分类、信息检索等等,由于采用的分词算法的好坏直接影响到这些信息处理系统的应用效果,所以继续在分词算法的运行速度和精度上下功夫必将带动信息处理系统整体性能的提升。
  (2)对歧义切分和未登录词的识别未能达到令人满意的程度。中文分词中的歧义识别和未登录词识别对分词的速度和精度有很大的影响,目前还没有很好的办法提升歧义词和未登录词的识别精度,有待进一步有针对性地研究。
  (3)至今对分词未能达成彻底统一的标准。通用的词表和统一的分词规范将对中文分词的研究起到促进作用,应该尽快做好这些基础性工作[2]。
  
  4 结语
  随着信息技术的普及,越来越多的领域涉及到中文自动分词的应用,所以中文分词技术的进步将影响到众多领域的发展。虽然现在已有清华、中科院等几十家国内外专业机构在从事中文分词技术的研究并已取得了较好的成果,但是关于分词的几大难点还没有完全突破,需要综合多个学科的研究成果作为基础,可以考虑把专家系统方法和神经元网络方法结合起来,或者从中文书面书写规则出发寻求好的办法[3~4]。相信随着科学技术的发展以及我们的共同努力,中文分词技术的难点会得到彻底的解决。
  
  参考文献
  [1] 苗夺谦,卫志华.中文文本信息处理的原理与应用[M].北京:清华大学出版社,2007.
  [2] 张春霞,郝永天.汉语自动分词的研究现状及困难[J].系统仿真报,2005,17(1):74~102.
  [3] 刘晓英.汉语自动分词的发展趋势[J].高校图书馆工作,2005,4:133~176.
  [4] 文庭孝,邱均平,侯经川.汉语自动分词 研究展望[J].数字图书馆,2004,7:204~245.