[发明专利]一种基于扩充语料库神经网络的政策文件信息提取方法有效
申请号: | 202011033636.8 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112257442B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 李军锋;廖敏;张磊;冯梅;向彦任;李济;万勤;陈乔松;曹宏剑;胡高浩 | 申请(专利权)人: | 重庆生产力促进中心;重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06N3/045;G06N3/0442;G06N3/08 |
代理公司: | 重庆西南华渝专利代理有限公司 50270 | 代理人: | 郭桂林 |
地址: | 401120*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 扩充 语料库 神经网络 政策 文件 信息 提取 方法 | ||
本发明提供了一种基于扩充语料库神经网络的政策文件信息提取方法,包括:构建政策文件语料库;基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型;利用政策文件信息提取模型对目标政策文件进行提取。本发明的方法能够在政策文件含有大量特定的表达方式、用词措辞和专业性词汇等情况下,有效的识别实体,更精准的提取文件信息。
技术领域
本发明属于自然语言处理技术领域,更具体地讲,涉及一种基于扩充语料库神经网络的政策文件信息提取方法。
背景技术
政策文件是指国家党政机关等部门或组织,以正式标准化的语言文字,对在一定时期内需要达到的目标、完成的任务、遵循的原则、采取的步骤以及实施的方式等进行规定的文字材料,例如通知、规划、实施方案等。党政机关的相关职能部门需要对收到的政策文件进行研究解读,对文件核心内容进行通知转发,或进一步提出符合本地实际情况的实施细则并督促落实。
目前,利用自然语言处理技术提取文件信息得到了广泛的应用,让计算机代替人力去完成文件信息提取、文件分类、信息存档及转发等重复且繁琐的工作,大幅提升了工作效率。政策文件属于文件中的一种,同样可以利用自然语言处理技术对政策文件信息进行提取。
在当前的现有技术中,对政策文件信息提取主要包括以下两个方面的不足。一方面,现有语料库包含的政策文件语料不专业,含有大量与政策文件相关性较低的语料;另一方面,使用现有开源语料库训练出来的模型,对政策文件进行信息提取的时候效果并不理想,主要的问题表现在无法正确划分实体。例如,在对同一机构或部门不同的名称(全称、简称、一个机构多块牌子等)无法识别为统一实体;名称特殊或名称较长的专项计划被识别为两个或多个实体并出现歧义;部分部门领导同志的姓名识别有误并出现歧义等等。这些歧义或错误信息会对下一步的文件分类、转发等工作造成困难。具体来说,例如,中华人民共和国工业和信息化部是该部门的全称,但是政策文件中的其他称谓,如工业和信息化部、工信部、国家航天局、国家原子能机构等名称都指该部门。在现有的信息提取技术中,当文件中出现全称、简称共用,或在不同文件中对涉及到该部门的不同职责领域时使用别名时,会将他们识别为不同实体,降低了文件信息提取和分类的准确性,加大了文件转发的工作量,降低了工作效率。
发明内容
针对现有技术中存在的不足,本发明的目的之一在于解决上述现有技术中存在的一个或多个问题。例如,本发明的目的之一在于提供一种关键字抽取效率以及准确率均较高的基于扩充语料库神经网络的政策文件信息提取方法。
本发明提供了一种基于扩充语料库神经网络的政策文件信息提取方法,包括以下步骤:构建政策文件语料库;基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型;利用政策文件信息提取模型对目标政策文件进行提取,其中,构建政策文件语料库包括:对现有开源语料库进行筛选,保留与政策文件相关性大于80%的语料,并将现有开源语料库中的其它语料删除;收集现有政策文件,整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集,并对现有政策文件中出现的一机构对应多名称的语料进行标注;对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中,得到初始政策文件语料库;对包含政策文件的网页进行爬取,人工阅读后提取政策文件信息并将其加入初始政策文件语料库,得到扩充后政策文件语料库;对扩充后政策文件语料库进行标注,完成政策文件语料库的构建。
与现有技术相比,本发明的有益效果至少包含以下中的至少一项:
(1)本发明的提取方法能够在政策文件含有大量特定的表达方式、用词措辞、专业性词汇、复杂实体名等情况下,有效的识别实体,更精准的提取文件框架及文件信息,能够将人从解读文件内容的工作中解脱出来,从而把人力更多地投入到对文件内容的研究和落实等工作中去;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆生产力促进中心;重庆邮电大学,未经重庆生产力促进中心;重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011033636.8/2.html,转载请声明来源钻瓜专利网。