[发明专利]一种对影视网页的结构化摘要生成方法与系统在审
申请号: | 201410806620.4 | 申请日: | 2014-12-22 |
公开(公告)号: | CN105786836A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 董毅;张前川;陈营营;张川;魏文华 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 影视 网页 结构 摘要 生成 方法 系统 | ||
1.一种对影视网页的结构化摘要生成方法,该方法包括:
获取影视网页的链接地址;
基于所述链接地址提取所述影视网页的超文本文档;
解析所述超文本文档中是否存在第三方自定义的一个或多个头 部标签字段;
如果存在,提取所述一个或多个头部标签字段中的影视数据项, 获取对应的视频资源地址;
基于所述影视数据项生成所述影视网页的结构化摘要,并在结构 化摘要中嵌入视频资源地址入口元素。
2.根据权利要求1所述的方法,所述步骤解析所述超文本文档中 是否存在第三方自定义的一个或多个头部标签字段之前,还包括:通 过第三方在超文本文档源代码的头部部分添加以预定辅助标签标识 的一个或多个字段数据。
3.根据权利要求1或2所述的方法,所述步骤基于所述影视数据 项生成所述影视网页的结构化摘要,进一步包括:
根据字段标识信息从第三方自定义的一个或多个头部标签字段 中识别影视宣传海报URL字段、影视配图URL字段、影视标题字段、 视频简介字段、视频长度字段、电视剧最新一集的集数字段和/或电 视剧总集数字段;
根据识别的各个字段在搜索结果列表中生成影视网页的结构化 摘要。
4.根据权利要求1-3任一项所述的方法,所述步骤基于所述影视 数据项生成所述影视网页的结构化摘要,进一步包括:
根据字段标识信息将所述各个字段的内容嵌入在与所述字段标 识信息对应的预设区域,生成影视网页的结构化摘要。
5.根据权利要求1-4任一项所述的方法,所述步骤通过第三方在 超文本文档源代码的头部部分添加以预定辅助标签标识的一个或多 个字段数据,进一步包括:对在第三方自定义的一个或多个头部标签 字段中的每个字段确定重要度;
根据重要度利用一个或多个头部标签字段中的影视数据项在搜 索结果列表中生成影视网页的结构化摘要。
6.根据权利要求1-5任一项所述的方法,该方法还包括:根据第 三方自定义的一个或多个头部标签字段中的影视数据项在搜索结果 列表中的预定区域内显示影视网页的结构化摘要。
7.根据权利要求1-6任一项所述的方法,所属步骤根据第三方自 定义的一个或多个头部标签字段中的影视数据项在搜索结果列表中 的预定区域内显示影视网页的结构化摘要,进一步包括:在所述预定 区域的左侧显示图片。
8.根据权利要求1-7任一项所述的方法,所述第三方为网站管理 者或者网页提供者。
9.一种对影视网页的结构化摘要生成系统,该系统包括:
链接地址获取单元,用于获取影视网页的链接地址;
超文本文档提取单元,用于基于所述链接地址提取所述影视网页 的超文本文档;
头部标签字段解析单元,用于解析所述超文本文档中是否存在第 三方自定义的一个或多个头部标签字段;
影视数据项提取单元,用于提取所述一个或多个头部标签字段中 的影视数据项,获取对应的视频资源地址;
结构化摘要生成嵌入单元,用于基于所述影视数据项生成所述影 视网页的结构化摘要,并在结构化摘要中嵌入视频资源地址入口元 素。
10.根据权利要求9所述的系统,该系统还包括:字段数据添加 单元,用于通过第三方在超文本文档源代码的头部部分添加以预定辅 助标签标识的一个或多个字段数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410806620.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音乐类网页的结构化摘要的显示方法和系统
- 下一篇:数据分析系统及方法