[发明专利]一种出现错误文本输入时的自纠正方法有效
申请号: | 201810561235.6 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109062888B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 邵玉斌;高凌云志;张琪;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 出现 错误 文本 输入 纠正 方法 | ||
本发明涉及一种出现错误文本输入时的自纠正方法,属于文本分析技术领域。接收待检测的文本信息,记录到数据流中;进行文本进行单一化字符处理,将文本进行解析,处理为一个个单一的字符信息;创建双字符关联词库表,将每一个单一字符,此处命名为key字符,其后都建立一张关联表格,用以存放关联字符表;统计key字符之后的词库表中每个字符出现的条件概率为多少;再次从数据流中获取待纠错文本信息;运用字符表进行对比,当出现比预定阈值小的字符关联时,按照字符表中概率由高到低的顺序进行推送纠正。
技术领域
本发明涉及一种出现错误文本输入时的自纠正方法,属于文本分析技术领域。
背景技术
大量文本输入和编辑的时候,难免会出现输入错误的情况,主要的错误为音相似错误和形似错误方式。现有的纠错方式为,人工的方式,在文本成稿之后,通常是由人力的方式,通过全文阅读文章来进行错误文本的改正工作,这样的方式其效率非常低下,同时,在错误文本为形似错误的时候,通过人力的方式,以阅读的手段来解决问题,往往很难被发现出来。
发明内容
本发明要解决的技术问题是提供一种出现错误文本输入时的自纠正方法,用以解决上述问题。
本发明的技术方案是:一种出现错误文本输入时的自纠正方法,首先接收待纠正的文本信息,在获取到待纠错文本信息之后,将其存储于数据流中,以便多次使用待纠错文本信息,从数据流中获取文本信息,将其进行单一化处理,处理为单一化的文本字符信息。
将每一个字符后建立一张关联性字符表,其中被创建表的字符取名为key字符,其表格特点为,记录关联性字符出现的条件概率,即以全文本信息为范围,计算出当key字符出现后,下一可能字符出现的在全文范围内的条件概率。
再次从数据流中获取待纠错文本信息,与字符表中的文本信息进行对比,同时,结合预定阈值,对疑似错误输入部分进行甄别,当大于阈值时,判定关联性强,为正确关联输入,当小于阈值时,判定其为错误的文本关联性信息;从当前key字符表格中,筛选出大于阈值的关联字符,按照条件概率的大小排序推送出纠正选项。
具体为:
第一步:接收待纠正的文本信息;
第二步:储存待纠正文本信息于数据流中,待重复使用文本信息;
第三步:将数据流中的待纠错文本信息进行单一化字符处理,当前字符用key字符代指;将文本中的key字符后建立关联性词库表,用于存放key字符后出现的所有字符,并存放其出现的条件概率值为多少,其计算方式为;
第四步:再次读取数据流中的待纠错文本信息,与关联性词库进行比对,同时,与预定阈值进行比对,产生比对结果;
第五步:当大于阈值时,判定关联性强,为正确关联输入,当小于阈值时,判定其为错误的文本关联性信息;
第六步:从当前key字符表格中,筛选出大于阈值的关联字符,按照条件概率的大小排序推送出纠正选项。
本发明的有益效果是:用概率的方式,将全文本中的字符条件概率进行建立关联性表统计,使用全文本的数据量来对个别偶发错误输入文本进行甄别,大大的提高了纠错的效率,同时,提高了纠错的精准度,适合现在的实际使用要求。
附图说明
图1是本发明的流程图;
图2是本发明关键字概率关系矩阵图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种出现错误文本输入时的自纠正方法,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810561235.6/2.html,转载请声明来源钻瓜专利网。