[发明专利]一种文档摘要自动生成的方法在审
申请号: | 201510348595.4 | 申请日: | 2015-06-23 |
公开(公告)号: | CN105183710A | 公开(公告)日: | 2015-12-23 |
发明(设计)人: | 江潮;马强 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 张定花 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 摘要 自动 生成 方法 | ||
技术领域
本发明属于电子文档管理技术领域,尤其涉及一种文档摘要自动生成的方法。
背景技术
学校和企业单位在日常中会面临查找大量的论文及文档资料的工作,如果单纯依靠人去审阅需要耗费大量的人力物力。
文档摘要在文献管理中是必不可少的部分,是对文档的简短陈述。具有不读原文就知全文的特点,传统做法由人为处理然后录入,但是这样做不仅容易出错,而且对于海量文档数据需要大量专职人员来处理。这样无疑增加了人工成本和时间成本。
发明内容
本发明的目的之一是提供一种文档摘要自动生成的方法,以解决现有技术中的文档管理人工成本、时间成本高的问题。
在一些说明性实施例中,所述文档摘要自动生成的方法,包括:将文档按照其内的章节进行分片化处理,获取所述文档中各个章节文本;从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段;将找出的所述文本片段进行合并,生成文档摘要。
与现有技术相比,本发明的说明性实施例包括以下优点:
本发明自动生成文档摘要,可以降低人工阅读的成本,确定文档的关键内容,帮助管理人员和管理系统提高管理效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图;
图2是按照本发明的说明性实施例的流程图;
图3是按照本发明的说明性实施例的TextRank算法的示意图;
图4是按照本发明的说明性实施例的流程图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
为了解决人工成本和时间成本高,效率低的问题,本发明专门针对这些问题,彻底解放人为设置,只要根据所需预先设定目录文档标识出每个目录章节所归纳的关键字信息,之后程序会自动根据关键字信息去根据文档库中每个文档的所有段落进行相关性匹配,将相关性最高的段落合并后,再根据TextRank算法生成摘要信息,这时该章节和摘要信息就得到了关联。
下面对本发明的说明性实施例进行详细说明:如图1所示,公开了一种文档摘要自动生成的方法,包括:
S11、将文档按照其内的章节进行分片化处理,获取所述文档中各个章节文本;
其中,该章节文本可以是文档内容中的大标题划分的章节,或者是根据用户定义的章节;
S12、从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段;
其中,文本片段可以是由一个或多个句子组成的文本。
S13、将找出的所述文本片段进行合并,生成文档摘要。
本发明自动生成文档摘要,可以降低人工阅读的成本,确定文档的关键内容,帮助管理人员和管理系统提高管理效率。
如图2所示,在一些说明性实施例中,所述从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段,具体包括:
S21、对每个所述章节文本进行分段处理,去除其中的停用词,获取该章节文本中各个文本片段;
其中,所述停用词是指不具备实际含义的功能词,例如英语中的“the、a、an、that、和those”,将其删除不会影响原文含义的词。
S22、将该章节文本中的各个文本片段与该章节文本所对应的关键词进行相似度分析;
S23、将结果大于预先设定的阈值的文本片段作为该关键词所关联的文本片段。
在一些说明性实施例中,所述将找出的所述文本片段进行合并,生成文档摘要,具体包括:将找出的所述文本片段进行多种组合,得到至少两个候选摘要;分别分析出每个所述候选摘要的权重值,将权重值最高的所述候选摘要作为所述文档摘要;其中,所述权重值用于表示候选摘要的句式、语义的合理程度。
在一些说明性实施例中,所述分别分析出每个所述候选摘要的权重值,将权重值最高的所述候选摘要作为所述文档摘要的过程中,包括:利用TextRank算法计算出每个所述候选摘要的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510348595.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子教鞭
- 下一篇:实现PCIe接口转CF卡接口的FPGA芯片及方法