[发明专利]中文文章侦错装置、中文文章侦错方法以及储存媒体有效
申请号: | 200810149253.X | 申请日: | 2008-09-22 |
公开(公告)号: | CN101685438A | 公开(公告)日: | 2010-03-31 |
发明(设计)人: | 谷圳;吴世弘;王文男;谢文泰;洪大弘 | 申请(专利权)人: | 财团法人资讯工业策进会 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 任默闻 |
地址: | 台湾省*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 文章 装置 方法 以及 储存 媒体 | ||
技术领域
本发明是有关于一种中文文章侦错装置,特别是一种关于双连字 (bi-gram)切割机制的中文文章侦错装置。
背景技术
有鉴于电脑的使用愈来愈普遍,人们大都依赖电脑来写作文章。由于中 文文字同一个音可能具有很多字,而同一个形也会有许多类似的同形字,因 此导致了中文文字的繁琐和复杂,使得写作者极容易于文章中使用错别字。
发明内容
基于以上的考虑,需要一种可侦错中文文章的系统和方法,以解决因中 文的繁琐而导致的错别字问题。
有鉴于此,本发明揭露一种中文文章侦错装置,适用于处理多个中文字 串,其中中文字串是根据标点符号从一中文文章所切割而成,且上述中文字 串包括一第一中文字串。该装置包括一文章切割模块、一数据库、一候选词 产生模块、一候选句产生与评分模块和一显示装置。文章切割模块切割第一 中文字串为多个第一字组,其中第一字组为第一中文字串中任两个连续和不 连续的字元所组成。数据库具有多个第一正确字串以及对应于第一正确字串 的多个第一索引,其中第一索引为第一正确字串中任两个连续和不连续的字 元所组成。候选词产生模块根据第一字组取得对应于第一字组的第一索引, 并根据所取得的第一索引取得对应的第一正确字串。候选句产生与评分模块 根据所取得的第一正确字串产生最佳候选句。显示装置显示中文字串以及上 述最佳候选句。
本发明另外提供一种中文文章侦错方法,适用于处理多个中文字串,其 中中文字串是根据标点符号从一中文文章所切割而成,且上述中文字串包括 一第一中文字串。该方法包括切割第一中文字串为多个第一字组,其中第一 字组为第一中文字串中任两个连续和不连续的字元所组成。提供一数据库, 其中数据库具有多个第一正确字串,以及对应于第一正确字串的多个第一索 引,其中第一索引为第一正确字串中任两个连续和不连续的字元所组成。根 据第一字组取得对应于第一字组的第一索引,并根据所取得的第一索引取得 对应的第一正确字串。根据所取得的第一正确字串产生最佳候选句。最后于 显示装置显示中文字串以及最佳候选句。
附图说明
图1显示根据本发眀所述的一中文文章侦错装置100的实施例;
图2显示根据本发眀所述的中文文章侦错装置100的动作流程图;
图3显示根据本发眀一实施例所述的中文字串Str的结构说眀图;
图4显示根据本发眀一实施例所述的多个候选句的产生机制;以及
图5显示根据本发眀一实施例所述的候选句评分机制的说眀图。
附图标号:
110~文章接收模块 120~文章切割模块
130~正确语言数据库 140~错误语言数据库
150~候选词产生模块 160~候选句产生与评分模块
170~相似字数据库 180~同音字数据库
190~语言模型数据库 200~文章标示模块
210~显示装置 Art~中文文章
Str~中文字串
具体实施方式
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施 例,并配合所附图式,作详细说明如下:
图1显示根据本发眀所述的一中文文章侦错装置100的实施例。中文文 章侦错装置100包括一文章接收模块110、一文章切割模块120、一正确语言 数据库130、一错误语言数据库140、一候选词产生模块150、一候选句产生 与评分模块160、一相似字数据库170、一同音字数据库180、一语言模型数 据库190、一文章标示模块200和一显示装置210。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人资讯工业策进会,未经财团法人资讯工业策进会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810149253.X/2.html,转载请声明来源钻瓜专利网。