[发明专利]文本还原方法、装置及电子设备在审
申请号: | 202110158872.0 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112949261A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 佟禹 | 申请(专利权)人: | 维沃移动通信有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/279 |
代理公司: | 北京远志博慧知识产权代理事务所(普通合伙) 11680 | 代理人: | 李翠雅 |
地址: | 523863 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 还原 方法 装置 电子设备 | ||
1.一种文本还原方法,其特征在于,所述方法包括:
根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;
确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;
在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述确定第一困惑度和第二困惑度,包括:
对所述第一候选词和所述第二候选词分别执行以下步骤:
基于目标候选词中的每个字符在所述目标文本中出现的概率,确定目标参数,所述目标候选词为所述第一候选词或所述第二候选词;
根据所述目标参数,确定所述目标候选词对应的困惑度;
其中,所述目标参数包括:目标候选词的合法性值、目标词组的流畅度值和所述目标语句的流畅度值;所述目标词组包括所述目标候选词、第四字符组和第五字符组,所述第四字符组为所述目标文本中位于所述第一字符组之前的字符组,所述第五字符组为所述目标文本中位于所述第二字符组之后的字符组。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标参数,确定所述目标候选词对应的困惑度,包括:
根据所述目标候选词的合法性值与第一系数的乘积、所述目标词组的流畅度值与第二系数的乘积、所述目标语句的流畅度值与第三系数的乘积之和,得到所述目标候选词对应的困惑度;
其中,所述第一系数、第二系数和第三系数之和等于1。
4.根据权利要求2或3所述的方法,其特征在于,所述目标候选词的合法性值为所述目标文本中,所述目标候选词在所述目标文本中出现的概率;
所述目标词组的流畅度值为所述目标候选词、所述第四字符组和所述第五字符组组成的词组在所述目标文本中出现的概率;
所述目标语句的流畅度值为所述目标语句在所述目标文本中出现的概率。
5.根据权利要求4所述的方法,其特征在于,所述目标候选词的合法性值为目标候选词中的每个字符在所述目标文本中出现的概率之间的乘积;
其中,所述目标候选词中的第K个字符在所述目标文本中出现的概率是指:在所述目标文本中出现第六字符组的情况下出现第K个字符的概率,所述第六字符组由所述目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
6.一种文本还原装置,其特征在于,所述文本还原装置包括获取模块,确定模块和还原模块;
获取模块,用于根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;
确定模块,用于确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;
还原模块,用于在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司,未经维沃移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110158872.0/1.html,转载请声明来源钻瓜专利网。