[发明专利]一种文本查错方法及装置在审
申请号: | 202211031541.1 | 申请日: | 2022-08-26 |
公开(公告)号: | CN115358226A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 王文涛;沈玉琴;涂昌慧 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F40/237 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 查错 方法 装置 | ||
1.一种文本查错方法,其特征在于,所述方法包括:
获取待查错文本,所述待查错文本为包括错别字的文本;
对所述待查错文本进行分词,得到分词文本,所述分词文本包括至少一个分词;
判断所述分词文本中两个相邻分词的接续关系是否符合预设条件,所述预设条件用于表示接续关系正常;
将非接续分词标记为错别字,所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。
2.根据权利要求1所述的方法,其特征在于,所述对所述待查错文本进行分词,得到分词文本包括:
利用正向最大匹配算法,对所述待查错文本进行分词,得到分词文本。
3.根据权利要求1所述的方法,其特征在于,所述判断所述分词文本中两个相邻分词的接续关系是否符合预设条件,包括:
分析语料库,得到词语的出现概率信息,所述语料库包括出版读物的语料集合,所述词语包括语料库中的一元词和二元词,所述词语的出现概率信息包括所述词语单独出现的概率和所述词语相邻出现的概率;
利用所述词语的出现概率信息,设定所述预设条件;
判断所述分词文本中两个相邻分词的接续关系是否符合所述预设条件。
4.根据权利要求3所述的方法,其特征在于,所述利用所述词语的出现概率信息,设定所述预设条件,包括:
利用所述词语的出现概率信息,计算两个相邻词语之间的互信息;
设置接续词语的接续关系为预设条件,所述接续词语为所述互信息大于预设阈值的两个相邻词语。
5.根据权利要求1所述的方法,其特征在于,所述将非接续分词标记为错别字,包括:
在所述非接续分词前后分别增加固定符号,所述固定符号用于提示所述非接续分词为错别字。
6.一种文本查错装置,其特征在于,所述装置包括:
文本获取模块,用于获取待查错文本,所述待查错文本为包括错别字的文本;
分词模块,用于对所述待查错文本进行分词,得到分词文本,所述分词文本包括至少一个分词;
判断模块,用于判断所述分词文本中两个相邻分词的接续关系是否符合预设条件,所述预设条件用于表示接续关系正常;
标记模块,用于将非接续分词标记为错别字,所述非接续分词为所述分词文本中接续关系不符合预设条件的两个相邻分词。
7.根据权利要求6所述的装置,其特征在于,所述判断模块,包括:
分析单元,用于分析语料库,得到词语的出现概率信息,所述语料库包括出版读物的语料集合,所述词语包括语料库中的一元词和二元词,所述词语的出现概率信息包括所述词语单独出现的概率和所述词语相邻出现的概率;
预设条件设置单元,用于利用所述词语的出现概率信息,设定所述预设条件;
判断单元,用于判断所述分词文本中两个相邻分词的接续关系是否符合所述预设条件。
8.根据权利要求7所述的装置,其特征在于,所述预设条件设置单元,包括:
互信息计算子单元,用于利用所述词语的出现概率信息,计算两个相邻词语之间的互信息;
预设条件设置子单元,用于设置接续词语的接续关系为预设条件,所述接续词语为所述互信息大于预设阈值的两个相邻词语。
9.一种设备,其特征在于,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行如权利要求1至5任一项所述的文本查错方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现如权利要求1至5任一项所述文本查错方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211031541.1/1.html,转载请声明来源钻瓜专利网。