[发明专利]一种基于模式识别的公文摘要抽取方法及系统在审

申请号：	202011091166.0	申请日：	2020-10-13
公开（公告）号：	CN112183077A	公开（公告）日：	2021-01-05
发明（设计）人：	蓝建敏;池沐霖	申请（专利权）人：	京华信息科技股份有限公司
主分类号：	G06F40/258	分类号：	G06F40/258;G06F40/289
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	颜希文;郝传鑫
地址：	510520 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模式识别公文摘要抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于模式识别的公文摘要抽取方法及系统，方法包括：获取待抽取目标内容的公文文本；根据行文模式判断所述公文文本是否包含目标内容，获得判断结果；若所述判读结果为是，则从所述公文文本中抽取目标内容。本发明根据行文模式来抽取目标内容，准确度高，针对性强，实用性高。减少了阅读海量公文的时间，提升了工作效率。

技术领域

本发明涉及文本抽取技术领域，特别是涉及一种基于模式识别的公文摘要抽取方法及系统。

背景技术

通常意义上，文本摘要技术主要是利用计算机快速处理并自动总结出文本的核心内容。自动摘要技术的任务是从文本篇章中抽取具有对文章高度概括性的词、短语、句子，使用户可以根据自动概括出的核心内容来判断文本价值，从而提高用户准确获取信息的速度。摘要抽取技术综合运用了多种技术，包括自然语言分词，统计学，领域本体，文本关系图，关联模型等。

文本摘要从生成方式可以分为抽取式和生成式方法。从处理文档类型不同可以分为单文档摘要和多文档摘要。其中抽取式模型中基于图的算法是目前常用的方法，通过切词后以句子为维度构建一篇文章中词句的关联图谱关系，根据图节点特性抽取其中重要的节点形成摘要，代表算法为textrank。基于深度学习实现摘要生成是生成式模型中的比较有代表性的一种，具体为准备大量的文本和对应的摘要形成训练集进行有监督训练，代表算法为seq2seq+attention。

公文是法定机关与组织在公务活动中，按照特定的体式、经过一定的处理程序形成和使用的书面材料。与媒体报道文本对比，公文更具有内容篇幅长、抽象层度高特点。如果采用现有的数学算法，从长篇幅文本中抽取词、短句再生成一段摘要往往体现不出整体内容。我们分析现有公文数据，发现公文拟稿人已经把摘要内容写在公文里面了。因此，解决公文摘要方向转向从公文中找到一段或几句能体现公文摘要的文本内容。

发明内容

本发明的目的是提供一种基于模式识别的公文摘要抽取方法及系统，以快速准确的抽取公文行文目的、行文依据，以此作为公文摘要内容。

为实现上述目的，本发明提供了如下方案：

一种基于模式识别的公文摘要抽取方法，包括：

获取待抽取目标内容的公文文本；

根据行文模式判断所述公文文本是否包含目标内容，获得判断结果；

若所述判读结果为是，则从所述公文文本中抽取目标内容。

可选地，所述行文模式是根据历史公文结构与段落获取的不同类别的行文句式规则。

可选地，所述行文模式包括行文目的、行文依据和行文内容。

可选地，所述从所述公文文本中抽取目标内容，具体为：根据抽取规则从所述公文文本中抽取目标内容。

可选地，若所述判断结果为否，则不进行抽取。

一种基于模式识别的公文摘要抽取系统，包括：