[发明专利]超链的语义化方法、装置、设备及计算机可读存储介质有效
申请号: | 201810720405.0 | 申请日: | 2018-07-03 |
公开(公告)号: | CN110737851B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 马宇峰;王晓元;沈璠;余韬 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06Q30/06 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明提供一种超链的语义化方法、装置、设备及计算机可读存储介质,方法包括:获取用户访问记录日志;根据所述用户访问记录日志确定用户访问记录的统一资源定位符URL;根据所述URL在预设的站点知识库中确定与用户访问记录相对应的商品实体和/或业务流程。本发明的超链的语义化方法、装置、设备及计算机可读存储介质,通过获取用户访问记录的URL,利用站点知识库中对URL进行分析处理,即可确定URL在描述的商品实体,和/或,用户访问行为已经到的业务流程步骤,保证了对URL进行语义化处理的精确程度,从而解决了现有技术中存在的只能提供该页面的关键词和语义化的精确程度较低的问题,提高了该方法的实用性。
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种超链的语义化方法、装置、设备及计算机可读存储介质。
背景技术
随着大数据概念的兴起和数据的爆炸性增长,曾经被忽视的各式各样的非结构化数据如今正逐渐受到人们的重视,而存储能力和运算能力的增长又加速了这一趋势。超链URL作为网络数据的一部分,也存在着大量的非结构化信息。由于非结构化数据本身并不具有实际意义,因而从各种纷繁复杂的非结构化数据中提取有价值的信息就成为了一项日益重要的任务。如何将这些含有非结构化信息的超链,转化为人们可以直观理解的结构化信息,进而使得我们能够发现之前所不能发现的数据价值并将其转化为商业价值,成为当前的一个新的研究方向。
目前业界对于超链的语义化方法,还停留在只识别文章标题与内容、提取文本内关键词和摘要的方法;而这种方法存在以下缺陷:
(1)需要依赖大规模的页面内容抓取,且不足以提供足够结构化的信息,没有能够按照实体与业务的逻辑对站内超链进行组织,而只能提供该页面的关键词;(2)此外过多的文本处理使得超链语义化容易发生语义偏转,从而降低了语义化的精确程度。
发明内容
本发明提供一种超链的语义化方法、装置、设备及计算机可读存储介质,用以解决现有技术中存在的没有能够按照实体与业务的逻辑对站内超链进行组织,而只能提供该页面的关键词,语义化的精确程度较低的问题。
本发明的一个方面是提供了一种超链的语义化方法,包括:
获取用户访问记录日志;
根据所述用户访问记录日志确定用户访问记录的统一资源定位符URL;
根据所述URL在预设的站点知识库中确定与用户访问记录相对应的商品实体和/或业务流程。
本发明的另一个方面是提供了一种超链的语义化装置,包括:
获取模块,用于获取用户访问记录日志;
处理模块,用于根据所述用户访问记录日志确定用户访问记录的统一资源定位符URL;
确定模块,用于根据所述URL在预设的站点知识库中确定与用户访问记录相对应的商品实体和/或业务流程。
本发明的另一个方面是提供了一种超链的语义化设备,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现如上述所述的超链的语义化方法。
本发明的另一个方面是提供了一种计算机可读存储介质,存储有计算机程序,
所述计算机程序被处理器执行时实现上述所述的超链的语义化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810720405.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图表生成方法及装置
- 下一篇:信息处理方法、装置、电子设备及介质