[发明专利]文本审核方法、装置、电子设备、存储介质及程序产品有效
申请号: | 202011443455.2 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112597768B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 丁鑫哲;王倩倩;刘瑛;刘凯;李婷婷 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/216 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 审核 方法 装置 电子设备 存储 介质 程序 产品 | ||
1.一种文本审核方法,其中,所述方法包括:
获取待审核文本的待审核分句;
基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息;
基于所述多个候选信息的打分结果,获取与所述待审核分句最相关的候选信息;其中,所述打分结果为基于各候选信息对应的特征信息和预先训练的打分模型获得的;其中,所述各候选信息对应的特征信息,包括如下至少一种:基于各所述候选信息与所述待审核分句所获取的最长公共子序列相关的特征;召回的各所述候选信息与所述待审核分句的相似度;基于各所述候选信息与所述待审核分句的时间信息所获取的各所述候选信息的时效性分数;以及各所述候选信息中的候选语句与所述待审核分句的语义相似度;
将所述最相关的候选信息和所述待审核分句输入预先训练的审核模型中,由所述审核模型生成并输出审核结果,包括:将最相关的候选信息和待审核分句进行对比,以检测待审核分句是否正确,若待审核分句不正确,标识出错误的内容,以及,对待审核分句错误的内容进行分类,并标识错误类别,并输出纠正后的内容。
2.根据权利要求1所述的方法,其中,基于所述待审核分句,从数据库中召回所述待审核分句对应的多个候选信息,包括如下至少一种:
基于所述待审核分句,采用搜索的方式,从所述数据库中召回多个候选文档信息;
基于trie树结构,从所述数据库中召回所述待审核分句的多个候选语句信息;和
基于simhash算法,从所述数据库中召回所述待审核分句的多个候选文档信息。
3.根据权利要求2所述的方法,其中,基于所述待审核分句,采用搜索的方式,从所述数据库中召回多个候选文档信息,包括:
采用弹性搜索的方式,从所述数据库中召回所述待审核分句的多个备选文档信息;
采用预先训练的语义表示模型,基于相似度,从所述数据库中召回所述待审核分句的多个备选文档信息;
基于所述待审核分句和各所述备选文档信息,分别提取召回的各所述备选文档信息对应的至少一个相关特征信息;
基于各所述备选文档信息对应的所述至少一个相关特征信息,采用预先训练的相关度打分模型,获取各所述备选文档信息与所述待审核分句的相关度;
基于各所述备选文档信息与所述待审核分句的相关度、以及预设的相关度阈值,从召回的所有所述备选文档信息中筛选所述多个候选文档信息。
4.根据权利要求1-3任一所述的方法,其中,基于所述多个候选信息的打分结果,获取与所述待审核分句最相关的候选信息,包括:
对所述多个候选信息中各所述候选信息进行打分;
基于各所述候选信息的打分结果,从所述多个候选信息中获取与所述待审核分句最相关的候选信息。
5.根据权利要求4所述的方法,其中,对所述多个候选信息中各所述候选信息进行打分,包括:
基于各所述候选信息和所述待审核分句,获取各所述候选信息对应的特征信息;
基于各所述候选信息对应的所述特征信息和预先训练的打分模型,对各所述候选信息进行打分。
6.根据权利要求5所述的方法,其中,基于各所述候选信息和所述待审核分句,获取各所述候选信息对应的特征信息,包括如下至少一种:
基于各所述候选信息与所述待审核分句,获取最长公共子序列相关的特征;
获取召回的各所述候选信息与所述待审核分句的相似度;
基于各所述候选信息与所述待审核分句的时间信息,获取各所述候选信息的时效性分数;以及
获取各所述候选信息中的候选语句与所述待审核分句的语义相似度。
7.根据权利要求6所述的方法,其中,基于各所述候选信息与所述待审核分句,获取最长公共子序列相关的特征,包括:
基于各所述候选信息与所述待审核分句,获取最长公共子序列;
对于各所述候选信息,获取对应的所述最长公共子序列生成过程中的跳字个数与对应的所述最长公共子序列的比例、对应的所述最长公共子序列与所述待审核分句的长度的比例以及对应的所述最长公共子序列生成过程中的跳字个数与所述待审核分句的长度的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011443455.2/1.html,转载请声明来源钻瓜专利网。