[发明专利]一种基于规则的自适应文本信息提取方法及软件存储器在审
申请号: | 201910223558.9 | 申请日: | 2019-03-22 |
公开(公告)号: | CN109992761A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 李晓林;李道庆;张彦铎;田英明;刘玮;姚峰;范佳莹 | 申请(专利权)人: | 武汉工程大学;上海华川环保科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F16/33 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模版 文本信息提取 软件存储器 四层结构 文本对象 自适应 构建 文本 目标文本信息 定位目标 匹配结果 顺序分级 文本内容 文本匹配 文本提取 信息提取 专业领域 统计分析 层级 预设 过滤 输出 | ||
1.一种基于规则的自适应文本信息提取方法,其特征在于,该方法包括以下步骤:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
2.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中当选取关键词与文本对象的段落级别进行匹配,则提取出文本段落对应的信息,包括如下规则:
选取关键词与文本的段落级别进行匹配,得到关键词对应的文本段落内容信息;
将两个以上文本段落内容信息进行关键词过滤,得到精确文本段落位置信息。
3.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中进行文本匹配时,从预设的各相关词与无关词中选取与文本段落对应的段、行、句、词匹配的文本信息,包括如下规则:
获取文本段落对应段、行、句、词的多个相关词、无关词;
根据获取的段、行、句、词,构建多级规则模版;
将文本对象与模版进行匹配对比,提取出文本对象中包含相关词,但不包含无关词的部分;
将选取出的文本内容信息与位置信息确定为对应文本对象在规则模版中的关注点。
4.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中根据文本对象将的文本划分为段、行、句、词四个级别,包括如下规则:
从文本对象中的确定出不同文本类型对应的关键词,包括相关词、无关词;
将收集到的关键词按照段、行、句、词的四个级别进行模版建构。
5.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中进行文本信息匹配时,还包括进行模板选择的过程,其具体方法为:
根据文本对象类型从预设的模板库中筛选出与文本对象类型匹配的两个以上模板;
根据各个文本段落对应的段落主题从两个以上模板中选取出与段落主题匹配度最高的模板,作为用于汇总各文本信息的规则模板。
6.一种存储有所述的基于规则的自适应文本信息提取方法的软件存储器,其特征在于,该软件存储器中的软件执行以下程序:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学;上海华川环保科技有限公司,未经武汉工程大学;上海华川环保科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910223558.9/1.html,转载请声明来源钻瓜专利网。