[发明专利]一种基于规则的自适应文本信息提取方法及软件存储器在审

申请号：	201910223558.9	申请日：	2019-03-22
公开（公告）号：	CN109992761A	公开（公告）日：	2019-07-09
发明（设计）人：	李晓林;李道庆;张彦铎;田英明;刘玮;姚峰;范佳莹	申请（专利权）人：	武汉工程大学;上海华川环保科技有限公司
主分类号：	G06F17/24	分类号：	G06F17/24;G06F16/33
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	唐万荣
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于规则的自适应文本信息提取方法及软件存储器，该方法包括以下步骤：对专业领域的文本对象构建文本信息提取的规则，并将规则总结在模版中。模版规则按树状顺序分级处理，构成文本模版，模板均为四层结构，包括段、行、句、词；对待提取的文本对象进行统计分析，预设具有代表性的关键词，关键词由相关词与无关词构成；使用构建的模版对待提取的文本进行信息提取，按照模版四层结构顺序，通过关键词进行文本匹配；对于模版里的每个层级，当出现多个匹配结果时，用关键词进行过滤，精确定位目标信息；输出包含关键词的文本提取结果。本发明能够自动适应文本内容、结构的变化，高效准确的提取目标文本信息。
搜索关键词：	模版文本信息提取软件存储器四层结构文本对象自适应构建文本目标文本信息定位目标匹配结果顺序分级文本内容文本匹配文本提取信息提取专业领域统计分析层级预设过滤输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于规则的自适应文本信息提取方法，其特征在于，该方法包括以下步骤：对专业领域的文本对象进行统计对比、分析总结，构建文本信息提取的规则；针对规则，按树状顺序分级处理，构成一个自适应的文本模版，模板根据专业领域的不同分为多种类别，不同类别的模板对应不同类别的文本对象，模板均为四层结构，包括段、行、句、词；对待提取的文本对象进行统计分析，预设具有代表性的关键词，关键词由相关词与无关词构成；使用构建的模版对待提取的文本进行信息提取，按照模版四层结构顺序，通过关键词进行文本匹配；对于模版里的每个层级，当出现多个匹配结果时，用关键词进行过滤，精确定位目标信息；输出包含关键词的文本提取结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉工程大学;上海华川环保科技有限公司，未经武汉工程大学;上海华川环保科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910223558.9/，转载请声明来源钻瓜专利网。

上一篇：测试报告生成方法及装置
下一篇：基于变电站一、二次设备的点表自动生成方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于规则的自适应文本信息提取方法及软件存储器在审

专利文献下载