[发明专利]一种获取文字纠错信息的方法和装置在审
申请号: | 201910168419.0 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109901727A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 倪浩;郑永升;陶一凡;梁辉 | 申请(专利权)人: | 上海依智医疗技术有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 喻嵘;郭迎侠 |
地址: | 200000 上海市长宁*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同音词 文字信息 方法和装置 音节 纠错信息 数据集 关联 预设 关联关系 申请 文本 纠正 | ||
1.一种获取文字纠错信息的方法,其特征在于,包括:
获取第一文字信息;
将所述第一文字信息转变成采用字符音节表示的第一信息;
判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息;其中,所述预设同音词数据集,至少包括:第一同音词和与所述第一同音词相关联的字符音节表示的第二信息;
若是,则建立所述第一同音词与第四信息的第一关联关系;所述第四信息,是从所述第一文字信息中获取的与所述第三信息相关联的信息。
2.根据权利要求1所述的方法,其特征在于,在所述建立所述第一同音词与第四信息的第一关联关系前,还包括:
确定所述第四信息与所述第一同音词的相似度匹配结果符合预设通过条件。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一文字信息转变成采用字符音节表示的第一信息,包括:
根据预设字符音节规则将所述第一文字信息转变成采用字符音节表示的第一信息。
4.根据权利要求2所述的方法,其特征在于,在所述建立所述第一同音词与第四信息的第一关联关系后,还包括:
在所述第一文字信息中,获取所有与所述第四信息相关联信息的第一位置信息。
5.根据权利要求4所述的方法,其特征在于,在所述获取所述第四信息在所述第一文字信息中的至少一个第一位置信息后,还包括:
将所述第一同音词、所述第四信息、所述第一位置信息及所述第一关联关系保存在预设结果数据集中。
6.根据权利要求4所述的方法,其特征在于,在所述将所述第一同音词、所述第四信息及所述第一关联关系保存在预设结果数据集中后,还包括:
采用第一组合替换所述第一文字信息中所述第一位置信息处与所述第四信息相关联的信息;所述第一组合,是由所述第四信息长度相同的预设第一特定字符组成的字符串。
7.根据权利要求4所述的方法,其特征在于,在所述获取第一文字信息前,还包括:
获取第一初始文字信息;
采用第二组合替换所述第一初始文字信息中的无关信息,生成所述第一文字信息;所述第二组合,是由所述无关信息长度相同的预设第二特定字符组成的字符串;所述无关信息,包括:非汉字信息和汉字的程度副词。
8.根据权利要求7所述的方法,其特征在于,在所述获取所述第四信息在所述第一文字信息中的至少一个第一位置信息后,还包括:
利用所述第一同音词在所述第一初始文字信息中所述第一位置信息处替换与所述第四信息相关联的信息。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述字符音节,包括无声调字符音节和/或有声调字符音节。
10.一种获取文字纠错信息的装置,其特征在于,包括:
获取单元,用于获取第一文字信息;
转变单元,用于将所述第一文字信息转变成采用字符音节表示的第一信息;
判断单元,用于判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息;其中,所述预设同音词数据集,至少包括:第一同音词和与所述第一同音词相关联的字符音节表示的第二信息;
建立关系单元,用于若所述判断单元的输出结果为“是”,则建立所述第一同音词与第四信息的第一关联关系;所述第四信息,是从所述第一文字信息中获取的与所述第三信息相关联的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海依智医疗技术有限公司,未经上海依智医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910168419.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种候选词生成方法、装置及用于候选词生成的装置
- 下一篇:一种圆柱型鼠标