[发明专利]一种有选择特性的集合间契合程度的度量方法、系统以及存储介质有效
申请号: | 202010496882.0 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111652312B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 项涛;刘智勇;杨旭;曾少锋;姚志煜 | 申请(专利权)人: | 上海维外科技有限公司 |
主分类号: | G06V10/74 | 分类号: | G06V10/74 |
代理公司: | 上海天翔知识产权代理有限公司 31224 | 代理人: | 刘常宝 |
地址: | 200023 上海市黄浦区蒙自路20*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 选择 特性 集合 契合 程度 度量 方法 系统 以及 存储 介质 | ||
本发明公开了一种有选择特性的集合间契合程度的度量方法、系统,以及存储介质,本方案首先构建待度量集合的推送向量与选择向量,这里的待度集合可以为规模为1的集合;接着,获取共同获得待度量集合中样本推送的选择主体集合;接着,凝练选择主体,寻找其中点击过待度量集合中样本的用户集合;接着,基于凝练得到的用户集合节选待度量集合的推送向量与点击向量。本方案可实现集合与集合、样本与集合、样本与样本契合程度计算方式的统一且可大幅度提高计算效率。
技术领域
本发明涉及互联网、人工智能领域中数据样本处理技术,具体涉及样本间契合程度的度量技术。
背景技术
在互联网与人工智能应用中,很多数据样本具有选择特性或者投票特性,比如网页链接的点击数据可视为对网页的选择或者投票、商品的购买数据可视为对商品的选择或者投票,文章资讯的阅读也可视为对相关资料的选择或者投票。
在实际系统中,常需要计算具有选择特性的样本间的契合程度,比如利用该契合程度表示网页间、商品间、或者文章资讯间的同质程度或者说相似程度。现有的通用计算方法包括皮尔逊相似性度量、余弦相似性度量、杰卡德相似性度量等,尤其是杰卡德相似性度量在具有选择特性的离散样本时有较好的应用效果。
随着大数据时代互联网与人工智能应用需求的升级与多样化,在样本间契合程度的基础上,进一步需要获取具有选择特性的样本集合之间的契合程度,比如一组文章资讯与另一组文章资讯间的契合程度。度量这样的集合间契合程度的一种直接方法是利用上文介绍的传统方法(皮尔逊相似性度量、余弦相似性度量、杰卡德相似性度量等)分别两两计算不同集合中样本相似度作为样本间契合程度,然后在利用平均等统计手段获得集合间的契合程度度量。
如此度量方法最典型的缺陷是过高的计算复杂度,因为它需要两两计算相似度,随着集合数目与集合中样本数目的提高,涉及的计算量快速提高。此外,该方法计算集合间契合程度完全是在样本层面进行的,忽略了集合本身的属性,缺失统一性。
发明内容
针对现有具有选择特性的样本集合间契合程度的度量技术存在计算效率低以及缺失统一性的问题,需要一种新的具有选择特性的样本集合间契合程度的度量方案。
为此,本发明的目的在于提供一种有选择特性的集合间契合程度的度量方法,其可对有选择特性的样本或集合间(如样本与样本、样本与集合、或集合与集合)契合程度进行度量且计算高效,内涵统一;据此,本发明还进一步提供一种度量系统,以及存储介质。
为了达到上述目的,本发明提供的有选择特性的集合间契合程度的度量方法,包括:
构建待度量集合的推送向量与选择向量,所述待度集合可以为规模为1的集合;
获取共同获得待度量集合中样本推送的选择主体集合;
凝练选择主体,寻找其中点击过待度量集合中样本的用户集合;
基于凝练得到的用户集合节选待度量集合的推送向量与选择向量;
计算待度量集合间契合度。
进一步地,所述集合的推送向量由该集合中每个样本推送指示向量相加获得。
进一步地,所述集合的选择向量可通过该集合中每个样本选择指示向量相加获得。
进一步地,所述度量方法在求取选择主体集合时,对于每个集合的推送向量,筛选出共同主体。
进一步地,所所述度量方法在凝练选择主体时,通过选择主体对两个集合的选择操作以进行凝练。
进一步地,所述方法中基于凝练得到的用户集合,通过向量点乘的方式节选待度量集合的推送向量与选择向量。
为了达到上述目的,本发明提供的有选择特性的集合间契合程度的度量系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海维外科技有限公司,未经上海维外科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010496882.0/2.html,转载请声明来源钻瓜专利网。