[发明专利]基于语义的文档查重方法及装置在审
申请号: | 202210182346.2 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114564935A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李靖;郑邦东;林明;单晟 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 郝博;沈珍珠 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义的文档查重方法及装置,可应用于人工智能技术领域,该方法包括:生成文档集的语义向量集,所述文档集包括待查重文档和多个历史文档;对语义向量集进行向量量化,获得压缩后的向量集;基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,将所述与待查重文档距离最近的历史文档,确定为相似文档;对待查重文档句子分割,获得第一句子集合,对相似文档进行句子分割,获得第二句子集合;对第一句子集合和第二句子集合中的句子进行两两组合,获得多组句子对;从多组句子对中,筛选出相似句子对。本发明可以实现对文档进行查重,效率高。 | ||
搜索关键词: | 基于 语义 文档 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202210182346.2/,转载请声明来源钻瓜专利网。
- 上一篇:目标对象文本段落划分方法
- 下一篇:一种动力总成冷却系统、冷却控制方法及汽车