[发明专利]一种互联网网页和文本信息的自动摘要方法在审
申请号: | 201910737556.1 | 申请日: | 2019-08-10 |
公开(公告)号: | CN110489542A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 刘莎 | 申请(专利权)人: | 刘莎 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F16/9538 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400041 重庆市九*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 在互联网信息组织双十定律基础上,本发明提供的网页和文本信息自动摘要方法在现有方法之外加入了分类信息要素匹配,并用匹配成功的各类信息要素组织结构词直接抽取摘要信息的内容关键词和相关上下文,并在此基础上进一步提供了以标题信息为基础的摘要信息要素补缺方法、多结构标题信息摘要组织结构词叠加匹配方法,从而全面系统地提供了网页及文本信息的自动摘要新方法,可大幅度改善网页及文本信息的自动摘要质量。 | ||
搜索关键词: | 文本信息 摘要信息 组织结构 网页 匹配 互联网信息 内容关键词 标题信息 分类信息 结构标题 匹配成功 信息要素 叠加 抽取 并用 | ||
【主权项】:
1.一种互联网网页和文本信息的自动摘要方法,其特征在于,包括以下步骤:/n获得预设的网页信息及文本信息要素的顶层高频组织结构词表以及已经获得信息要素顶层高频组织结构词标记的可供抽取摘要的网页或文本源信息;/n判断源信息是否已经获得所述的基于信息要素顶层高频信息组织结构词分类的信息分类;如果已经获得,则进入下一步骤,如果没有,则对源信息进行自动分类;/n判断源信息中是否已经标示出本发明所述的网页或文本信息的主题关键词;如果已经获得标示,则进入下一步骤;如果未获得明确标示,则采用相关方法获得该条源信息的主题关键词;/n用获得的源信息分类、该分类下匹配成功的信息要素组织结构词以及主题关键词抽取摘要信息的内容关键词及上下文;/n用摘要质量指数判断摘要信息的质量,并根据质量判断结果对摘要信息进行质量计分;/n根据上一步骤判断结果的依据,判断是否返回主流程,如果是,返回主流程中的某个步骤,用调整过的信息摘要方法,对该条源信息再次进行摘要信息抽取及再次进行摘要质量计分;如果“否”,进入下一步骤;/n将执行上述所有步骤后获得的摘要信息,储存于自动摘要结果存储数据库;/n其中,/n所述的网页信息和文本信息是现有的已知常识性语义;/n网页信息与文本信息的区别在于,前者通常包括网页信息的一些应用属性标注,而文本信息通常缺少应有属性标注;/n所述的预设的信息要素顶层高频组织结构词表,是指指示网页和文本信息内容关键词的功能和效用范围的、不可再归纳的顶层高频组织结构词的分类集合;/n所述的内容关键词,是指某条源信息中表达文件内容的关键词;/n所述的已经获得顶层高频组织结构词标记的源信息,是指已经获得信息要素顶层高频组织结构词标记的某网页或文本信息的全部内容关键词的集合;/n所述的可供抽取摘要的源信息,是指已经经过自动切词、过滤介词、虚词,并加入了词性标记等加工处理的原文信息,其中所述的词性是指名词、动词、形容词、介词等常规的应用属性;/n其中,/n所述的主题关键词是指表达该条网页或文本信息的内容主题的关键词。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘莎,未经刘莎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910737556.1/,转载请声明来源钻瓜专利网。