[发明专利]文本侵权检测方法、装置和电子设备有效
申请号: | 202111222905.X | 申请日: | 2021-10-20 |
公开(公告)号: | CN113673216B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 黄凯明;李泽昌;徐军;张伟;张晓博;杨磊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/279 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 李威 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 侵权 检测 方法 装置 电子设备 | ||
一种文本侵权检测方法、装置和电子设备,该方法包括:从目标文本中提取关键句子,并对关键句子进行向量化处理,得到与关键句子对应的关键句子向量;计算关键句子向量和原创句子向量之间的向量相似度,并基于向量相似度,确定与关键句子相似的候选句子;原创句子向量包括对原创文本中的原创句子进行向量化处理,得到的与原创句子对应的句子向量;基于关键句子向量和与候选句子对应的原创句子向量之间的向量相似度,计算目标文本和候选句子所属的候选文本之间的文本相似度,并基于文本相似度,确定目标文本是否为候选文本的侵权文本,以在目标文本为候选文本的侵权文本时,将候选句子作为目标文本针对候选文本的侵权细节,发布至区块链进行存证。
技术领域
本说明书一个或多个实施例涉及计算机应用技术领域,尤其涉及一种文本侵权检测方法、装置和电子设备。
背景技术
随着互联网的普及,信息传播的速度逐渐加快,网络新闻、网络小说、自媒体等的原创作者不断创作出更多、更新的信息内容,例如:新闻稿、小说、科普文章等,这些原创的信息内容通常以文本的形式在互联网上进行传播。但与此同时,针对原创文本的抄袭现象,以及由此带来的文本侵权问题也层出不穷。在这种情况下,为了保障原创作者的权益,如何进行文本侵权检测,并提高文本侵权检测的准确度,也就成为了亟待解决的问题。
发明内容
本说明书提出一种文本侵权检测方法,所述方法包括:
从待检测的目标文本中提取关键句子,并对所述关键句子进行向量化处理,得到与所述关键句子对应的关键句子向量;
计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。
本说明书还提出一种文本侵权检测装置,所述装置包括:
提取模块,从待检测的目标文本中提取关键句子,并对所述关键句子进行向量化处理,得到与所述关键句子对应的关键句子向量;
第一计算模块,计算所述关键句子向量和原创句子向量之间的向量相似度,并基于所述向量相似度,确定与所述关键句子相似的候选句子;其中,所述原创句子向量包括对预设的原创文本中的原创句子进行向量化处理,得到的与所述原创句子对应的句子向量;
第二计算模块,基于所述关键句子向量和与所述候选句子对应的原创句子向量之间的向量相似度,进一步计算所述目标文本和所述候选句子所属的候选文本之间的文本相似度,并基于所述文本相似度,确定所述目标文本是否为所述候选文本的侵权文本,以在所述目标文本为所述候选文本的侵权文本时,将所述候选句子作为所述目标文本针对所述候选文本的侵权细节,发布至区块链进行存证。
本说明书还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述方法的步骤。
本说明书还提出一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111222905.X/2.html,转载请声明来源钻瓜专利网。