[发明专利]基于搜索的无词边界标记语言的分词方法以及装置无效
申请号: | 200710086030.9 | 申请日: | 2007-03-07 |
公开(公告)号: | CN101261623A | 公开(公告)日: | 2008-09-10 |
发明(设计)人: | 王欣靖;秦勇;刘文 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 冯谱 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索 边界 标记 语言 分词 方法 以及 装置 | ||
技术领域
本发明涉及无词边界标记语言的分词技术,更具体地,本发明涉及基于搜索的无词边界标记语言文本的分词方法和装置。
背景技术
与英文以及其它的西方语言不同,许多亚洲语言,例如中文、日文、韩语以及泰语等语言没有用空格等词边界标记来划界。一个句子中会包括一串连续的字符,而在单词之间并没有定界符,也就是分隔符。如何界定单词则依赖于所讨论的是否为音位单词、词汇单词、语形学单词、依据造句法的单词、语义学单词或是心理学单词。因此,在任何的基于单词的语言处理中,例如在文本转语音也即语音合成(TTS)、文档特征提取、文档自动摘要、文档自动分类和中文文本检索中,将每一个句子分词成单词是首要的步骤。
为了清除起见,本发明例如针对中文进行描述,但是应当理解的是,本发明的范围并不受限于此。
中文单词分词技术主要需要解决中文自然语言处理(NLP)中的两个问题,即中文中的单词是什么以及计算机如何自动识别中文单词。相应地,中文单词的分词主要涉及了两个研究问题,单词清晰地分界以及未知单词的识别。而在目前大部分的系统中,这两个问题被认为是独立的任务因此采用了层级或是连续的方式通过不同的元件或是组件来完成。然而,由于中文单词的一些特殊语言特性,使得中文单词分词主要的困难在于分词的结果根据不同的单词语言学定义以及不同的工程需求而有所变化。关于这一点,并没有单一的标准使得所有的语言学家和计算机应用都满意,也没有能够统一接受的标准来清晰地确定每一种语境下的单词。例如,中文语言特别小组(SIGHAN)2005竞赛(SIGHAN Workshop 2005.www.sighan.org/bakeoff2005/)中,虽然所有的组所报告的精确度达到了百分之九十,但是训练语料库包含了约90,000句而测试数据集只包含了约4,400句。此外,该结果需要基于四种分词方法(即AS,PKU,CityU和MSRA)进行单独的比较。这为期望用于训练多种类型NLP系统的注标语料库的发展制造了问题,同时也对期望能够支持多重用户应用的中文单词分词系统带来了挑战。
目前中文单词分词的方法基本上可以归类为四种:1)基于字典的方法;2)统计机器学习方法;3)基于转换的方法;4)合并方法。
在基于字典的分词方法中,使用了预先定义的字典以及人工产生的语法规则。在这种方法中根据字典对句子进行分词,同时应用语法规则来进行改进。基于字典的分词方法的一种典型的技术称为最大匹配法,该方法对所输入的句子和字典中的条目进行比较以找出能够匹配最多字符的条目。可以看出,基于字典的分词方法的局限性在于这种方法受限于字典的覆盖面并且其规则缺乏稳健的统计推论。由于预先定义的字典无法列出所有的单词也无法及时更新,因此这种方法的准确性在新单词出现的时候会急剧降低。
统计机器学习方法是一种使用了概率或基于成本的评分机制而不是字典来对文本进行分词的方法。目前所提出的统计机器学习方法主要有以下几种:1)MSRSeg方法,该方法包括两个部分,一个部分是基于线性混合模型结构的一般分词器,该分词器对单词级的中文语言处理的五个特征进行统一,该五个特征为词典单词处理、语形学分析、数字串检测、命名实体识别以及新单词识别;另一个部分是一组输出适配器,将一般分词器的输出适配为不同的特殊应用标准;2)使用相邻字符的信息以接合N-gram和其相邻字符;3)最大似然法;4)应用神经网络的方法;5)引入中文词汇分析器的统一基于HHMM(Hierarchical Hidden Markov Model,结构化的隐马尔可夫模型)的框架;6)从一句话中提取各种可用的特征以构建广义的模型,并且接着基于这种模型得到各种概率模型;7)使用共有信息以及字符之间的t-评分差,这些共有信息以及字符之间的t-评分是自动从原始中文语料库中获得的;将有条件的随机字段用于分词任务。由于统计机器学习方法一般基于字符序列共现的信息来进行分析,因此这一类的方法一般要求大量的中文标注语料库用于模型训练,而更重要的是其缺乏灵活性以适应于不同的分词标准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710086030.9/2.html,转载请声明来源钻瓜专利网。