[发明专利]基于文本结构分析的Web文档摘要的生成方法有效

申请号：	201410090200.0	申请日：	2014-03-12
公开（公告）号：	CN103853834B	公开（公告）日：	2017-02-08
发明（设计）人：	沈怡涛;顾君忠;林晨	申请（专利权）人：	华东师范大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	上海蓝迪专利商标事务所(普通合伙)31215	代理人：	徐筱梅,张翔
地址：	200241 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	的生成方法申请(专利)号CN201410090200.0
搜索关键词：	基于文本结构分析 web 文档摘要生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于文本结构分析的Web文档摘要的生成方法，其特征在于：该方法包括以下步骤：1)输入待摘要网页的URL；2)从待摘要网页基于视觉分析提取网页正文，具体包括；2.1)采用浏览器核心对Web文档进行解析和渲染；2.2)采用视觉树算法对网页进行分块，得到各区块的位置、面积；2.3)对各区块进行分词；2.4)对各区块分析文本特征；2.5)对各区块是否包含正文进行打分，使用以下公式计算打分的分值：V(S)=S2*P(x1,y1,x2,y2)N+1]]>其中S表示陈述句数量，N表示非陈述句数量，P是根据区块大小和位置计算得到的一个值,x1，y1表示区块左上角的坐标，x2，y2表示区块右下角的坐标；2.6)将得分高于某一阈值的文本按顺序连接起来；2.7)输出Web文档正文；3)对提取的正文进行基于文本结构分析的自动摘要，具体包括：3.1)由步骤2)得到网页正文；3.2)对正文进行分词和词性标注；3.3)进行文本预处理：识别正文中的基本结构，即识别文章标题，完成句子、段落切分；3.4)对正文进行语义段切分，通过文本结构分析识别语义发生转换的位置，作为语义段切分的标志；3.5)对每个语义段，利用TFIDF的推广方法，对每个句子在所在语义段中的重要性进行度量，然后根据文摘字数要求，提取出若干句最能代表该语义段主题的句子；3.6)将各句子按顺序连接起来，输出文摘。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华东师范大学，未经华东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410090200.0/，转载请声明来源钻瓜专利网。

上一篇：一种表征组合路况作用下车辆结构疲劳损伤的网状图法
下一篇：接收装置和方法、程序、以及信息处理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于文本结构分析的Web文档摘要的生成方法有效

专利文献下载