[发明专利]侦测及校正中文错字的系统及方法无效

专利信息
申请号: 201210001647.7 申请日: 2012-01-05
公开(公告)号: CN103034625A 公开(公告)日: 2013-04-10
发明(设计)人: 王铭樟 申请(专利权)人: 王铭樟
主分类号: G06F17/27 分类号: G06F17/27;G06F17/21
代理公司: 北京华夏博通专利事务所(普通合伙) 11264 代理人: 刘俊
地址: 美国新泽西州摩*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 侦测 校正 中文 错字 系统 方法
【说明书】:

技术领域

发明涉及一种中文的处理,尤其是一种处理及校正中文词汇中错字的系统及方法。本发明侦测中文词汇中的错字,然后比较词汇中错字的发音和字根组成与储存在数据库中正确词汇的字的发音和字根组成。

背景技术

不同于英文,其单词由26个字母中一个或多个字母所组成,中文可由一个或多个字来组成词汇。中文字词如何构成仍存在许多争议,字词的定义复杂不说,再加上中文中没有“空格字”,所以在文法上无法清楚地将句子分段成多组字群,读者通常需要阅读整个句子,才能了解由哪些字群来构成整个句子。

在缺乏对字词的明确定义状况下,为避免混淆,本发明将“词汇”定义为一组由二个或二个以上的中文字所组成的字群,且其长度不长于一个句子。本发明不涉及单独一个的中文字,因为单独一个的中文字无法判断其是否为错字。

中文拼字的问题是关于中文词汇中的错字。在罗马语系的语言中,是由字母拼出单词,拼写错误是指在单词中用错了字母,或是字母的排列顺序错误。在类似的状况下,在非罗马语系、非拼音的语言(例如中文)中,存在有用错字的问题,也就是组成词汇的文字中,有一个或一个以上的字有所错误。但是就技术上而言,中文没有拼写错误的问题,因为中文的字/词汇是由单一的字而不是字母所组成。为了易于了解,相对于罗马语系(例如:英文)中的拼字检查,在本说明书中,将中文的拼字检查定义为“中文错字的侦测及校正”。

每个中文字除了其本身的含意外,还具有以下的各种特质:

(1)字根:中文字通常由字根组成。例如“好”是由部首字根“女”和非部首字根“子”二字根组成,非部首字根在某些状况下亦称为右侧字根,虽然大部分的部首字根位在字的左侧,可是部首字根和非部首字根在字里面的位置(上、下、左、右)并没有一定的规则。中文有固定的个部首字根,以“好”字为例,“女”和“子”都属于部首字根,可是一个字中只有一个部首字根,所以“女”为部首字根,而“子”为非部首字根。发生错字的原因之一为字根错误,例如将“人煙稠密”错写成“人煙綢密”,因为“稠”和“綢”有相同的非部首字根“周”。此外中文有二种书写体系,分别是中国使用的简体字和台湾使用的繁体字,对大多数的字而言,简体字和繁体字字型相同并无区别,但是对某些字而言,虽然意义相同,可是书写的字型不同,所以其字根也就跟着不同。例如简体字的“并”对应至二个不同的繁体字“并”和“倂”,简体字“并”的意义必需由词汇的上下文决定。

(2)发音:语言藉由拼音系统来记录和教导文字的发音,目前简体字的拼音系统为汉语拼音,而繁体字的拼音系统则为注音符号。中文有“一音多字”的情形,不同的字具有相同的发音,例如日文的汉字中“确率”和“确立”的发音同为“kakuritsu”,但是第二个字却不相同,此同音异字为发生错字的可能原因之一。此外另一种可能发生错字的原因是发音相似,例如“fa”和“hua”发音相似,所以误将“发挥”写成“花挥”。另外还有“一字多音”的问题,中文音随意转,例如“吃饭”和“口吃”的“吃”,意义不同,发音也跟着不同,所以另一种常发生错字的情形为误将“口吃”误写为“口及”。

所以在书写中文字时,书写者可能因上述字根或发音的因素,而写错字。书写者所写的错字,可能是看起来相像、但是字根却不完全相同,书写者也有可能在词汇中写了一个意义全然不同的字,所以要解决词汇中的错字问题,不能仅靠单一一种侦测方式(例如只针对字根或只针对发音的侦测方式),而须考虑所有可能导致词汇中错字的原因来进行校正词汇中的错字。

拼字检查通常涵盖二个主要的功能,第一是在字/词汇中找出错误的字母/字,第二,如果可能的话,更正错误的字母/字。也就是罗马语系(例如英文)更正单词中错误的字母,非罗马语系(例如中文)更正词汇中错误的字。

当比较二个字汇/词汇来侦测错误的字母/字时,信息科学通常引用“编辑距离”的概念。在罗马语系(例如英文)中,编辑距离指的是二个字中字母相异的数目,是在字母的层次中做比较。当比较二个字时,如果编辑距离为0,二个字中字母相异的数目为0,也就是二个字相同。如果编辑距离为1,二个字中有1个字母相异。如果编辑距离为2,二个字中则有2个字母不同。如果编辑距离大于2,此二字很可能为全然不同的二个字,所以无法或不值得去更正拼字的错误。在获得编辑距离之后,即可藉由与一正确拼写的字中相同位置的相关字母作比较,来更正拼写错误的字母。

发明内容

本发明的主要目的在于提供一种检测输入的中文词汇并自动校正输入词汇中错字的系统及方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王铭樟,未经王铭樟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210001647.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top