[发明专利]一种互联网网页和文本信息的自动摘要方法在审
申请号: | 201910737556.1 | 申请日: | 2019-08-10 |
公开(公告)号: | CN110489542A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 刘莎 | 申请(专利权)人: | 刘莎 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F16/9538 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400041 重庆市九*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本信息 摘要信息 组织结构 网页 匹配 互联网信息 内容关键词 标题信息 分类信息 结构标题 匹配成功 信息要素 叠加 抽取 并用 | ||
在互联网信息组织双十定律基础上,本发明提供的网页和文本信息自动摘要方法在现有方法之外加入了分类信息要素匹配,并用匹配成功的各类信息要素组织结构词直接抽取摘要信息的内容关键词和相关上下文,并在此基础上进一步提供了以标题信息为基础的摘要信息要素补缺方法、多结构标题信息摘要组织结构词叠加匹配方法,从而全面系统地提供了网页及文本信息的自动摘要新方法,可大幅度改善网页及文本信息的自动摘要质量。
技术领域
本发明涉及计算机及通信领域,特别是涉及互联网网页信息和文本信息的自动摘要方法。
背景技术
海量信息的应用效率首先取决于信息摘要效率。互联网信息的自动摘要质量与互联网信息的组织和应用效率息息相关。因此,半个多世纪以来,有大量学者和相关工作者,一代接一代地投入到研究文本和网页信息的自动摘要方法中来。比如,作为互联网网页信息的唯一通用组织方式,已经流行二十余年的互联网网页信息全文关键词搜索,就是通过全文关键词搜索抽取网页信息摘要,可见自动摘要技术在互联网领域的重大应用价值。但是,很遗憾,从至今能见到的互联网网页信息全文关键词搜索摘要来看,其摘要质量始终没有取得重大突破。因此,人们还是不得不一次次进入搜索结果链接的相关网页浏览,才能辨别是否有自己需要的信息。
根据我们的研究,导致自动摘要质量低下的关键原因在于,构成网页和文本信息摘要的信息要素并不只有主题关键词。例如,一条有质量的新闻类信息摘要包括时间、地点、主体、行为、结果……等信息要素。一条有质量的产品类信息摘要包括产品名、生产商、产品说明、生产日期、销售价格……等信息要素。如果原文中的信息要素不全,则不可能生成高质量摘要。
另一个重要问题还在于:在多数情况下,即使原文中有摘要要素信息,但却不会出现摘要要素的组织结构词。例如,一条新闻信息“5月18日在圣安东尼奥主场的NBA比赛结果90:87,马刺胜大黄蜂”,其中包括了新闻信息要素中的时间、地点、主体、行为、结果五要素,但在原文中并未出现这些信息要素的组织结构词“时间、地点、主体、行为、结果”。由于无法判断哪些关键词属于要素信息,直接导致了自动摘要难以抽取到要素信息。因此,解决摘要信息质量的核心问题在于,如何抽取到原文中的摘要信息要素。
为了抽取到原文中的摘要信息要素,我们对网页信息全文关键字检索结果进行了要素成分系统分析,发现了一个互联网信息组织结构的重要规律:双十定律。
参见附图1,互联网信息组织双十定律——
在全文关键字输入框内输入任意关键字(例如:国家发改委、苹果公司、智能手机、云计算、普京、世界杯、战狼),其相关信息的顶层高频分类均包括以下10类:新闻/消息、告示、知识、产品、服务、人际交往、论坛、点播/下载、微博/微信、大黄页(有两类信息合并为一类的,是因为它们的内容组织结构有相似性,但功能区别明显);
并且,每个分类下的顶层高频组织结构词也在10项左右。例如:招聘、应聘、征婚、交友的顶层高频组织结构词均包括:交往目的、年龄、性别、学历、职业、性格、爱好……因此,均属于“人际交往”类信息。
科学技术发展的历史进程告诉我们,新发现的科学原理、客观规律,是推动技术创新的第一生产力。而“双十定律”在告诉我们,看起来浩瀚无边、无组织无纪律的互联网信息,实际上存在简约通用的内容要素及组织结构。因此,我们可以以双十定律为基础,提供一种网页及文本信息自动摘要方法,从而根本改善互联网网页信息自动摘要的质量和效率。
发明内容
为了根本改善互联网信息和网页信息自动摘要的质量和效率,本发明提供一种网页和文本信息的自动摘要方法,其主流程如下:
主流程
为了根本改善互联网信息和网页信息自动摘要的质量和效率,本发明提供一种网页和文本信息的自动摘要方法,其主流程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘莎,未经刘莎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910737556.1/2.html,转载请声明来源钻瓜专利网。