[发明专利]基于语义结构特征分析的异构标签融合系统有效

专利信息
申请号: 201711469839.X 申请日: 2017-12-29
公开(公告)号: CN108021715B 公开(公告)日: 2020-07-28
发明(设计)人: 王平辉;李娜;陶敬;韩婷;郝传洲;张姗;许诺;孙飞扬;张晓明;林杰 申请(专利权)人: 西安交通大学
主分类号: G06F16/955 分类号: G06F16/955
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 结构 特征 分析 标签 融合 系统
【说明书】:

一种基于语义结构特征分析的异构标签融合系统,着眼于各个行业网站不同标签体系的整理和融合,提出基于语义结构特征分析的异构标签融合系统,用于构建细粒度、结构化的标签体系。由于不同来源标签体系结构不同,本发明提出利用标签网页信息来融合标签体系,通过识别两个标签体系的映射关系:等同关系和上下位关系,将异构标签体系进行合并。由于选取主流网站的标签体系,保证标签体系来源的真实性并具有说服力,使得到的标签体系更精炼、准确,为用户行为画像提供基础。

技术领域

本发明属于大数据应用技术领域,特别涉及一种基于语义结构特征分析的异构标签融合系统,通过构建标签体系,为用户行为画像奠定基础。

背景技术

随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生,奠定了大数据时代的基石,并为企业提供了足够的信息基础。目前,用户画像技术已经广泛应用于广告营销和客户流失分析等领域,比如推荐系统、购买预测等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征,还能反映资源语义特征,这一系列的刻画用户行为的标签构成了标签体系。

标签体系的结构、粒度从一定程度上决定了用户画像的准确性,利用不准确的标签词语描述用户行为,将会造成用户画像不准确。所以标签体系的构建是很重要的,目前构建标签体系的方法主要包括协同标签系统、本体结构构建、主题模型提取等,这些方法最主要的问题是忽略标签的结构,并且可能存在标签重复。对于协同标签系统构建的标签体系,没有明显的层次结构,并且存在重复的标签;对于本体方法构建的标签体系,主要是本体构建的方法本身并不成熟,需要大量人工的参与;对于主题模型提取方法构建的标签体系,相对层次结构不明显,并且存在粗粒度的问题,即标签太宽泛,无法准确描述用户行为特性。

为了更好的描述用户行为,需要建立更全面、结构化、细粒度的标签体系。

发明内容

为了克服上述现有技术的缺点,本发明着眼于各个行业网站不同标签体系的整理和融合,提供了一种基于语义结构特征分析的异构标签融合系统,旨在构建细粒度、结构化的标签体系。从用户的行为数据中抽取描述用户行为的标签需要花费大量的人力物力,但是实际上已经存在比较完备的标签体系可供使用——网站的导航标签,它是专家给出的,并且结合众多网民的用户体验进行优化调整,很大程度上反映了用户的行为偏好。为了使标签更具有说服力和代表性,本发明主要分析了各个行业主流网站的导航标签体系,通过融合不同网站标签体系来构建标签体系,最终获得具有大众性、准确性、精炼简洁的标签体系。

为了实现上述目的,本发明采用的技术方案是:

一种基于语义结构特征分析的异构标签融合系统,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。

所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接URL对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。

所述原始标签体系中,将标签树分组,分组条件有两个:

第一、两个标签树的根标签完全相同;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711469839.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top