首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于规则的自适应文本信息提取方法及软件存储器在审

申请号：	201910223558.9	申请日：	2019-03-22
公开（公告）号：	CN109992761A	公开（公告）日：	2019-07-09
发明（设计）人：	李晓林;李道庆;张彦铎;田英明;刘玮;姚峰;范佳莹	申请（专利权）人：	武汉工程大学;上海华川环保科技有限公司
主分类号：	G06F17/24	分类号：	G06F17/24;G06F16/33
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	唐万荣
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模版文本信息提取软件存储器四层结构文本对象自适应构建文本目标文本信息定位目标匹配结果顺序分级文本内容文本匹配文本提取信息提取专业领域统计分析层级预设过滤输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于规则的自适应文本信息提取方法，其特征在于，该方法包括以下步骤：

对专业领域的文本对象进行统计对比、分析总结，构建文本信息提取的规则；

针对规则，按树状顺序分级处理，构成一个自适应的文本模版，模板根据专业领域的不同分为多种类别，不同类别的模板对应不同类别的文本对象，模板均为四层结构，包括段、行、句、词；

对待提取的文本对象进行统计分析，预设具有代表性的关键词，关键词由相关词与无关词构成；

使用构建的模版对待提取的文本进行信息提取，按照模版四层结构顺序，通过关键词进行文本匹配；

对于模版里的每个层级，当出现多个匹配结果时，用关键词进行过滤，精确定位目标信息；

输出包含关键词的文本提取结果。

2.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中当选取关键词与文本对象的段落级别进行匹配，则提取出文本段落对应的信息，包括如下规则：

选取关键词与文本的段落级别进行匹配，得到关键词对应的文本段落内容信息；

将两个以上文本段落内容信息进行关键词过滤，得到精确文本段落位置信息。

3.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中进行文本匹配时，从预设的各相关词与无关词中选取与文本段落对应的段、行、句、词匹配的文本信息，包括如下规则：

获取文本段落对应段、行、句、词的多个相关词、无关词；

根据获取的段、行、句、词，构建多级规则模版；

将文本对象与模版进行匹配对比，提取出文本对象中包含相关词，但不包含无关词的部分；

将选取出的文本内容信息与位置信息确定为对应文本对象在规则模版中的关注点。

4.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中根据文本对象将的文本划分为段、行、句、词四个级别，包括如下规则：

从文本对象中的确定出不同文本类型对应的关键词，包括相关词、无关词；

将收集到的关键词按照段、行、句、词的四个级别进行模版建构。

5.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中进行文本信息匹配时，还包括进行模板选择的过程，其具体方法为：

根据文本对象类型从预设的模板库中筛选出与文本对象类型匹配的两个以上模板；

根据各个文本段落对应的段落主题从两个以上模板中选取出与段落主题匹配度最高的模板，作为用于汇总各文本信息的规则模板。

6.一种存储有所述的基于规则的自适应文本信息提取方法的软件存储器，其特征在于，该软件存储器中的软件执行以下程序：

对专业领域的文本对象进行统计对比、分析总结，构建文本信息提取的规则；

针对规则，按树状顺序分级处理，构成一个自适应的文本模版，模板根据专业领域的不同分为多种类别，不同类别的模板对应不同类别的文本对象，模板均为四层结构，包括段、行、句、词；

对待提取的文本对象进行统计分析，预设具有代表性的关键词，关键词由相关词与无关词构成；

使用构建的模版对待提取的文本进行信息提取，按照模版四层结构顺序，通过关键词进行文本匹配；

对于模版里的每个层级，当出现多个匹配结果时，用关键词进行过滤，精确定位目标信息；

输出包含关键词的文本提取结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉工程大学;上海华川环保科技有限公司，未经武汉工程大学;上海华川环保科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910223558.9/1.html，转载请声明来源钻瓜专利网。

上一篇：测试报告生成方法及装置
下一篇：基于变电站一、二次设备的点表自动生成方法及系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top