[发明专利]基于用户反馈的纠错方法、装置及其设备在审
申请号: | 201711175300.3 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107977357A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 肖求根;詹金波;郑利群;邓卓彬;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 反馈 纠错 方法 装置 及其 设备 | ||
1.一种基于用户反馈的纠错方法,其特征在于,包括以下步骤:
获取用户发送的纠错举报请求,其中,所述请求包括:举报信息所属的文本信息,以及所述举报信息在所述文本信息中的位置信息;
对所述文本信息归一化处理后进行分词,根据所述位置信息确定与所述举报信息对应的一个或多个原始分词片段;
提取所述一个或多个原始分词片段的第一特征信息,应用预设模型对所述第一特征信息进行计算获取所述原始分词片段的置信度,若判断获知所述置信度小于预设阈值,则根据预先建立的短语替换表获取与所述原始分词片段对应的一个或多个候选分词片段;
根据所述原始分词片段和对应的候选分词片段提取第二特征信息,应用预设模型对所述第二特征信息进行计算获取所述候选分词片段的分值;
应用预设的解码算法对所述候选分词片段的分值进行解码处理,若判断获知与解码结果对应的解码分词片段满足预设的干预条件,则将所述解码分词片段作为目标分词片段替换对应的原始分词片段。
2.如权利要求1所述的方法,其特征在于,所述原始分词片段的第一特征信息,包括:
所述原始分词片段及上下文在语料中的出现频次;和/或,
所述原始分词片段及上下文在搜索应用场景中的改动频次;和/或,
所述原始分词片段与上下文的语义相似度。
3.如权利要求1所述的方法,其特征在于,在所述根据预先建立的短语替换表获取与所述原始分词片段对应的一个或多个候选分词片段之前,还包括:
采集用户在搜索引擎中对搜索词的主动修改信息;
采集用户输入的搜索词与大搜标题之间的映射信息;
采集用户输入的搜索词与搜索引擎提供的纠错信息;
根据所述主动修改信息、所述映射信息和所述纠错信息建立所述短语替换表。
4.如权利要求1所述的方法,其特征在于,在对所述文本信息归一化处理后进行分词之后,还包括:
对所述文本信息进行注音,并将声母韵母映射到对应的分词片段位置;
在所述根据所述原始分词片段和对应的候选分词片段提取第二特征信息之前,还包括:
根据预先建立的拼音替换表获取与所述原始分词片段对应的一个或多个候选分词片段。
5.如权利要求1所述的方法,其特征在于,所述根据所述原始分词片段和对应的候选分词片段提取第二特征信息,包括:
所述候选分词片段的质量特征、所述原始分词片段的质量特征、所述原始分词片段和所述候选分词片段的组合特征、当前用户的历史行为特征中的一种或多种特征组合。
6.如权利要求1所述的方法,其特征在于,在所述应用预设的解码算法对所述候选分词片段的分值进行解码处理之后,还包括:
若判断获知与解码结果对应的解码分词片段不满足预设的干预条件,则通过人工定义目标分词片段替换对应的原始分词片段;
若判断获知与解码结果对应的解码分词片段满足预设的替换黑名单,则确定为无效举报,不进行纠错处理。
7.一种基于用户反馈的纠错装置,其特征在于,包括:
获取模块,用于获取用户发送的纠错举报请求,其中,所述请求包括:举报信息所属的文本信息,以及所述举报信息在所述文本信息中的位置信息;
第一确定模块,用于对所述文本信息归一化处理后进行分词,根据所述位置信息确定与所述举报信息对应的一个或多个原始分词片段;
第一处理模块,用于提取所述一个或多个原始分词片段的第一特征信息,应用预设模型对所述第一特征信息进行计算获取所述原始分词片段的置信度,若判断获知所述置信度小于预设阈值,则根据预先建立的短语替换表获取与所述原始分词片段对应的一个或多个候选分词片段;
提取计算模块,用于根据所述原始分词片段和对应的候选分词片段提取第二特征信息,应用预设模型对所述第二特征信息进行计算获取所述候选分词片段的分值;
第二处理模块,用于应用预设的解码算法对所述候选分词片段的分值进行解码处理,若判断获知与解码结果对应的解码分词片段满足预设的干预条件,则将所述解码分词片段作为目标分词片段替换对应的原始分词片段。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的基于用户反馈的纠错方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711175300.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:识别文本纠错方法及装置
- 下一篇:语句识别方法及装置、计算机存储介质和终端