[发明专利]中文语句分词方法及其在中文查错系统中的应用无效

专利信息
申请号: 97103125.8 申请日: 1997-03-13
公开(公告)号: CN1193779A 公开(公告)日: 1998-09-23
发明(设计)人: 裘照明;杨力平 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/20 分类号: G06F17/20
代理公司: 中国国际贸易促进委员会专利商标事务所 代理人: 于静
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 语句 分词 方法 及其 查错 系统 中的 应用
【说明书】:

发明涉及一种对中文语句进行分词的方法,具体地说涉及一种使用特定类别的优化权值的集成分词方法及其在中文查错系统中的应用。

随着计算机的发展和普及,人们对其要求也日益增高,要求计算机能自动识别出中文文本中常见的错误。这些错误主要是由以下因素引起的:

·键盘输入错误,主要由相同或类似输入代码(如:发音或笔划信息的代码)引起的;

·由于知识不足而产生的错误,例如,很多人可能认为“按步就班”是一正确的成语(正确的应该是“按部就班”);

·语法错误,如“高质量的完成”(正确的应该是“高质量地完成”);

  中文查错的常用方法有:

·基于表的错误查询;很显然,无论表有多大,也只能包含极小一部分错误。此外,许多错误与上下文有关,通过比较来简单地识别它们会导致误报。

·基于语法规则的方法;由于中文语法的复杂性和不规则性,该方法只能用作其他方法的补充形式。

·统计方法,根据由语言资料库得出的字/词搭配或字/词本身的统计信息,监视可能出现的错误,这是一种非常实用并被广泛采用的方法。

在统计方法中,可通过研究字/词的搭配来识别错误。由于在中文文本中没有自然的词边界,所以有必要对句子进行分词。为了对句子进行分词,字典是必不可少的。通常是把句子中的字串与字典中的最长词进行匹配来实现非统计分词。该方法无法(事实上也不可能)处理歧义性问题。随着计算机性能的飞速发展,使用字词的统计信息对句子进行分词变得越来越普遍。为了按这种方式来分词,必须为字典的每一条目都增添频率信息。该信息是一个能够表明字词在语言资料库中出现的概率的数值(以下称为权值)。采用被称为动态规划的方法,可以找出可能性最大的分词结果,这是借助带有频率信息的字典实现的,其中所述可能性最大的分词结果是指这样一种分割,即:其中所有分词单元权值的乘积是所有可能分割方式中最大的。应强调的是,动态规划方法通常用在语句的分词和词性标注方面。于是,所产生的分词单元是所使用的字典中的一些条目。

在现有技术中,中文查错方法可分为两类:

一类是不对语句进行分词,直接根据从语言资料库导出的汉字二元语法表的统计信息查看语句中的相邻两个汉字的搭配,统计频率低于一定值的相邻汉字对都认为是潜在的错误,反之则认为是合法的。

另一类方法按如下步骤进行:

a)根据一给定字典对句子进行分词,分词方法一般是传统的正向扫描或反向扫描最长匹配方法;

b)如果有预先定义的错误库,将分词后相邻分词单元进行组合,然后查看这样的组合是否匹配预先定义的错误库中的条目,如果找到匹配,就被认为是潜在的错误;

c)对于这样分析后剩下的落单汉字,根据从语言资料库中导出的落单概率和一个预先确定的阈值比较,决定它是否是潜在的错误。

在研究分词的论文中,也出现过根据一个有词条频率信息的字典,用动态规划进行分词的方法。但是这样的动态规划分词方法用于中文查错系统有很多缺点。

因为它仅能用于字典中那些正规的词,而对于预先定义的错误(经常出现的错误)、名字、数词和量词等必须分开处理。对这些不同单元的处理顺序会导致截然不同的分词结果,由于这些类别彼此牵连,以致还没处理的某一类别的开始或结束字符可能与其他字词连在一起形成正在处理的另一类单元,结果产生错误的分词,并导致低的检出率和高的误报率。例如,给出以下句子:

李大明天天上班

正确的分词应是:

李大明|天天|上班

在现有技术中,分词如下:

李|大|明天|天|上班

由于“李大”不是常用名字,所以有可能把其确定为一种错误。

特别是,如果在一预定义的错误上出现这种情况(即预定义的错误在分词后未被确认为一个分词单位),它将无法被识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/97103125.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top