[发明专利]中文错别字自动订正方法及装置无效
申请号: | 94109394.8 | 申请日: | 1994-08-05 |
公开(公告)号: | CN1056933C | 公开(公告)日: | 2000-09-27 |
发明(设计)人: | 张照煌 | 申请(专利权)人: | 财团法人工业技术研究院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 张志醒,王岳 |
地址: | 中国*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 错别字 自动 订正 方法 装置 | ||
本发明有关于一种中文错别字自动订正方法及装置,特别是有关于利用综合近似字集代换及语言模型评分方式,使字形、字音、字义或与输入码相近的字集产生候选字串,并找出评分最高的候选字串,以便得到正确字的中文错别字自动订正方法及装置。
“错字”原指一中文字由于增减、改变笔画或偏旁误置所造成的讹字,“别字”则指不用某字而误用他字的情形,现今亦有人以“错字”一词涵盖“别字”的,以下统称为“错别字”。
错别字的多寡严重影响文书的质量,传统以人工一校再校的校稿订正,费时费力且常有漏校情形,如一般已经多校出版的报章杂志书藉,仍常见别字丛生。近年来由于电脑的普及,经输入电脑的文书虽免除了笔画错误造成的讹字,却也随之而产生由于输入过程造成的错误。所以利用电脑自动检测并订正错别字的需求实在非常迫切。
“检测错别字”指找出文书中错别字的所在,“订正错别字”则指找出该错别字的正确对应字。习知技术如已商品化的中文校稿系统仅有检测而没有订正的功能,本发明则同时具备检测和订正的功能。
电脑文书的错别字,不论来源于撰写创作过程或是输入编辑过程所产生的错误,均可分为以下四类或其中二类以上所共同造成:
(1)同音或近音字,其发音相同或相近,
例1:“行”跡可疑(形)
例2:按“步”就班(部)
(2)字形相近字,
例3:茶“壼”(壺)
例4:桿“茵”(菌)
(3)字义相近字,
例5:既往不“究”(咎)
例6:名不“符”實(副)
(4)输入操作错误,即由于输入码相近造成的错别字或由于编辑操作错误产生的缺字、赘字或前后字互调,
例7:“糸”統(系,倉頡碼各爲VIF,HVIF)
例8:“坷”“坎”(坎坷),習惯“惯”()(空括号表示多余的“惯”字应删除)
根据这些加以整理分析,把一般人易犯错的字形、字音、字义或与输入码相近字进行汇集,使之成为综合近似字集数据库,用以代换原文书中的文字,产生候选字串,构成本发明的基础。
至于中文语言模型综合评分,含基底语言模型评分和“非原字扣分”。
基底语言模型评分可以利用习知的统计评分,如字接续表、词接续表、词间字接续表、词性接续表或词群接续表、或以词库为基础的词长词频评分,以几率值或分数值表现。“非原字扣分”则是对非原文字的近似字以分级或不分级的扣分。
利用语言模型综合评分,找出评分最高的候选字串,再与原文书中的中文字对照比较,即可自动检测出文书中的错别字所在并提供对应的正确字,极有实用价值。
现有技术中的台湾专利申请81104438号“中文错字自动侦测法及侦测装置”提出的中文错字自动检测法,主要包括两个步骤:(1)假断词步骤,即参考一词库以找出无法形成复字词的和相邻字形成复字词的单字词,并将其取出;(2)判断步骤,即根据各取出的单字词的词频和前一字、后一字的接续强度来判断是否为正确字。该方法有两项缺点:(1)误判率太高,平均每四十个标示错误的字中只有一个真正的错字;(2)未能提供对应的正确字。
另有台湾专利申请80102492号“提高中文辨识率之错字更正法”和80107315号“文书辨识修正装置”,均为针对文字辨识装置产生的多候选字辨识结果做错字更正,与本发明无关。
又有美国专利如专利号为4,689,768(1987),4,783,758(1988),4,903,206(1988),4,829,472(1989),5,148,367(1992)的专利,均为针对如英文等西方语言的拼字检查订正,由于语言特性大不相同,因此是与本发明无关的技术。
与本发明有关的中文文书校稿系统,以往均借助断词后检测单字的词频和前后字接续强度的技术,故有误判率太高和未能提供对应的正确字等缺点和困难。本发明为克服这些缺点,提供了一种自动检测并订正中文错别字的方法及装置。
本发明的第一目的在于提供一种新颖的中文错字自动检测订正方法及装置。
本发明的第二目的在于提供检测出的错别字的正确对应字,以供订正。
本发明的再一目的在于降低错别字检测的误判率,提高自动校稿的效率。
为达到上述目的,本发明的中文错别字自动检测订正方法,是供电脑自动检测并订正中文文档中错别字的方法,该方法包括下列步骤:
综合近似字集代换步骤,将文档中的文字以字形、字音、字义或与输入码相近字的综合近似字集的各文字予以代换,组合成多个候选字串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/94109394.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗骨刺的药物组合物
- 下一篇:类环状流双相变换热器