[发明专利]一种影视类属性数据源间的周期性实体匹配方法及系统在审
申请号: | 202111339282.4 | 申请日: | 2021-11-12 |
公开(公告)号: | CN113901264A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 赵春光;李凯东;林桢杰;陈珊珊;李孟禹;赵亦喆 | 申请(专利权)人: | 央视频融媒体发展有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/735;G06F16/71;G06F16/33;G06N3/04;G06K9/62 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘芳 |
地址: | 100026 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 影视 属性 数据源 周期性 实体 匹配 方法 系统 | ||
1.一种影视类属性数据源间的周期性实体匹配方法,其特征在于,所述方法包括:
获取第一数据源;
向所述第一数据源中添加多条第一记录,并将每条所述第一记录的实体匹配状态字典初始化成未匹配;每条所述第一记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;
获取第二数据源的第一索引和第二索引;所述第一索引是对第二数据源的标题属性构建的索引;所述第二索引是对第二数据源的别名属性构建的索引;所述第二数据源包括多条第二记录;每条所述第二记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;
依次取一条所述第一记录,在所述第一索引中搜索所述第一记录的标题,并在所述第二索引中搜索所述第一记录的别名,得到搜索结果;所述搜索结果包括一条或多条所述第二记录的标识码;
根据所述搜索结果得到一个或多个候选记录对;所述候选记录对包括一个第一记录和所述搜索结果中的一个第二记录的标识码;
根据所述候选记录对中所述第二记录的标识码获取所述第二数据源中对应的第二记录,得到所述候选记录对中所述第一记录对应的第二记录;
依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录在各维度的相似度,得到各维度相似度;所述各维度相似度包括上映时间相似度、导演相似度、主演相似度和简介相似度;
将所述各维度相似度输入相似度融合模型,得到所述候选记录对中所述第一记录和所述第一记录对应的第二记录的综合相似度;所述相似度融合模型包括多层感知器模型和逻辑回归模型;
判断所述综合相似度是否大于设定阈值;
若所述综合相似度大于所述设定阈值,则确定所述候选记录对中所述第一记录与所述第一记录对应的第二记录匹配成功,更新所述候选记录对中的所述第一记录的实体匹配状态字典为匹配,并保存匹配成功的所述候选记录对。
2.根据权利要求1所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述获取第一数据源,之前还包括:
构建第一数据源;所述第一数据源包括影视剧的标题属性、别名属性、上映时间属性、导演属性、主演属性和简介属性。
3.根据权利要求1所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的各维度相似度,具体包括:
依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度;
依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度;
依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的主演相似度;
依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的简介相似度。
4.根据权利要求3所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度,具体包括:
获取上映时间的年权重、月权重和日权重;所述年权重、所述月权重和所述日权重之和为1;
比较所述第一记录中上映时间的年和所述第一记录对应的第二记录中上映时间的年是否相同;
若年相同,则确定年相似度为1;
若年不相同,则确定年相似度为0;
比较所述第一记录中上映时间的月和所述第一记录对应的第二记录中上映时间的月是否相同;
若月相同,则确定月相似度为1;
若月不相同,则确定月相似度为0;
比较所述第一记录中上映时间的日和所述第一记录对应的第二记录中上映时间的日是否相同;
若日相同,则确定日相似度为1;
若日不相同,则确定日相似度为0;
将所述年相似度与所述年权重的乘积、所述月相似度与所述月权重的乘积以及所述日相似度与所述日权重的乘积进行求和操作,得到上映时间相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于央视频融媒体发展有限公司,未经央视频融媒体发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111339282.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能分体式棋牌
- 下一篇:一种可精准投放洗涤剂的洗碗机及其控制方法