[发明专利]基于用户反馈的纠错方法、装置及其设备在审
申请号: | 201711175300.3 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107977357A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 肖求根;詹金波;郑利群;邓卓彬;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 反馈 纠错 方法 装置 及其 设备 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于用户反馈的纠错方法、装置及其设备。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
目前,内容分发是移动互联网公司的重要战场,优质的内容往往能够带来用户停留时长和品牌美誉度的提升。其中,错别字作为内容的硬伤,可能以一定概率出现在任何一篇文章中。相关技术中,通过统计替换等方式进行文本纠错,导致准确性不高且效率低。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于用户反馈的纠错方法,用于解决现有技术中文本纠错准确性不高且效率低的问题。
本发明的第二个目的在于提出一种基于用户反馈的纠错装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于用户反馈的纠错方法,所述方法包括以下步骤:获取用户发送的纠错举报请求,其中,所述请求包括:举报信息所属的文本信息,以及所述举报信息在所述文本信息中的位置信息;对所述文本信息归一化处理后进行分词,根据所述位置信息确定与所述举报信息对应的一个或多个原始分词片段;提取所述一个或多个原始分词片段的第一特征信息,应用预设模型对所述第一特征信息进行计算获取所述原始分词片段的置信度,若判断获知所述置信度小于预设阈值,则根据预先建立的短语替换表获取与所述原始分词片段对应的一个或多个候选分词片段;根据所述原始分词片段和对应的候选分词片段提取第二特征信息,应用预设模型对所述第二特征信息进行计算获取所述候选分词片段的分值;应用预设的解码算法对所述候选分词片段的分值进行解码处理,若判断获知与解码结果对应的解码分词片段满足预设的干预条件,则将所述解码分词片段作为目标分词片段替换对应的原始分词片段。
本发明实施例的基于用户反馈的纠错方法,通过获取用户发送的纠错举报请求,其中,请求包括:举报信息所属的文本信息,以及举报信息在文本信息中的位置信息,并对文本信息归一化处理后进行分词,根据位置信息确定与举报信息对应的一个或多个原始分词片段,然后提取一个或多个原始分词片段的第一特征信息,并应用预设模型对第一特征信息进行计算获取原始分词片段的置信度,在判断获知所述置信度小于预设阈值时根据预先建立的短语替换表获取与原始分词片段对应的一个或多个候选分词片段,从而根据原始分词片段和对应的候选分词片段提取第二特征信息,以及应用预设模型对第二特征信息进行计算获取候选分词片段的分值,最后应用预设的解码算法对候选分词片段的分值进行解码处理,在判断获知与解码结果对应的解码分词片段满足预设的干预条件时将解码分词片段作为目标分词片段替换对应的原始分词片段。由此,通过用户反馈的方式进行纠错处理,提高了纠错的准确性,提高了纠错的处理效率,满足用户需求。
为达上述目的,本发明第二方面实施例提出了一种基于用户反馈的纠错装置,所述装置包括:获取模块,用于获取用户发送的纠错举报请求,其中,所述请求包括:举报信息所属的文本信息,以及所述举报信息在所述文本信息中的位置信息;第一确定模块,用于对所述文本信息归一化处理后进行分词,根据所述位置信息确定与所述举报信息对应的一个或多个原始分词片段;第一处理模块,用于提取所述一个或多个原始分词片段的第一特征信息,应用预设模型对所述第一特征信息进行计算获取所述原始分词片段的置信度,若判断获知所述置信度小于预设阈值,则根据预先建立的短语替换表获取与所述原始分词片段对应的一个或多个候选分词片段;提取计算模块,用于根据所述原始分词片段和对应的候选分词片段提取第二特征信息,应用预设模型对所述第二特征信息进行计算获取所述候选分词片段的分值;第二处理模块,用于应用预设的解码算法对所述候选分词片段的分值进行解码处理,若判断获知与解码结果对应的解码分词片段满足预设的干预条件,则将所述解码分词片段作为目标分词片段替换对应的原始分词片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711175300.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:识别文本纠错方法及装置
- 下一篇:语句识别方法及装置、计算机存储介质和终端