[发明专利]文本侵权检测方法、装置和电子设备有效
申请号: | 202111222905.X | 申请日: | 2021-10-20 |
公开(公告)号: | CN113673216B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 黄凯明;李泽昌;徐军;张伟;张晓博;杨磊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/279 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 李威 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 侵权 检测 方法 装置 电子设备 | ||
1.一种文本侵权检测方法,所述方法包括:
从待检测的目标文本中提取关键句子,并将所述关键句子输入句子相似检测模型;所述句子相似检测模型包括作为特征提取层的语言模型对,以及分类层;所述分类层用于确定所述语言模型对中的语言模型输出的句子向量是否相似;所述语言模型对中的语言模型之间共享模型参数;所述句子相似检测模型基于被标注了相似标签的句子对样本训练得到;
获取所述语言模型对中的任一语言模型输出的与所述关键句子对应的关键句子向量;
计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。
2.根据权利要求1所述的方法,所述从待检测的目标文本中提取关键句子,包括:
对待检测的目标文本进行分句处理,得到与所述目标文本对应的目标句子;
对所述目标句子分进行打分处理,得到与所述目标句子对应的句子评分;
从所述目标句子中提取出所述句子评分最高的预设的第一数量的目标句子,作为关键句子;或者,从所述目标句子中提取出所述句子评分大于预设的第一阈值的目标句子,作为关键句子。
3.根据权利要求2所述的方法,所述对所述目标句子分进行打分处理,包括:
基于TextRank算法对所述目标句子进行打分处理;和/或,
基于所述目标句子在所述目标文本中的位置,对所述目标句子进行打分处理;其中,对所述目标句子的评分的数值大小,与所述目标句子和所述目标文本的头部或尾部之间的距离成反比。
4.根据权利要求1所述的方法,所述语言模型中的编码器的数量小于标准数量。
5.根据权利要求1所述的方法,所述句子相似检测模型还包括池化层;所述池化层用于对所述语言模型输出的句子向量进行池化处理,并将池化后的句子向量输入所述分类层。
6.根据权利要求5所述的方法,所述句子相似检测模型还包括多层感知器;所述多层感知器用于对池化后的句子向量进行降维处理,并将降维后的句子向量输入所述分类层。
7.根据权利要求1所述的方法,所述方法还包括:
从预设的原创文本中提取原创句子;
将所述原创句子输入所述句子相似检测模型,并获取所述语言模型对中的任一语言模型输出的与所述原创句子对应的句子向量,作为所述原创句子向量。
8.根据权利要求1所述的方法,所述向量相似度以向量之间的余弦相似度,或者向量之间的欧几里得距离表征。
9.根据权利要求1所述的方法,所述基于所述向量相似度,确定与所述关键句子相似的候选句子,包括:
确定和所述关键句子向量之间的所述向量相似度最高的预设的第二数量的原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与所述关键句子相似的候选句子;或者,
确定和所述关键句子向量之间的所述向量相似度大于预设的第二阈值的原创句子向量,并将与确定出的原创句子向量对应的原创句子确定为与所述关键句子相似的候选句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111222905.X/1.html,转载请声明来源钻瓜专利网。