[发明专利]一种基于规则的自适应文本信息提取方法及软件存储器在审
申请号: | 201910223558.9 | 申请日: | 2019-03-22 |
公开(公告)号: | CN109992761A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 李晓林;李道庆;张彦铎;田英明;刘玮;姚峰;范佳莹 | 申请(专利权)人: | 武汉工程大学;上海华川环保科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F16/33 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于规则的自适应文本信息提取方法及软件存储器,该方法包括以下步骤:对专业领域的文本对象构建文本信息提取的规则,并将规则总结在模版中。模版规则按树状顺序分级处理,构成文本模版,模板均为四层结构,包括段、行、句、词;对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;输出包含关键词的文本提取结果。本发明能够自动适应文本内容、结构的变化,高效准确的提取目标文本信息。 | ||
搜索关键词: | 模版 文本信息提取 软件存储器 四层结构 文本对象 自适应 构建 文本 目标文本信息 定位目标 匹配结果 顺序分级 文本内容 文本匹配 文本提取 信息提取 专业领域 统计分析 层级 预设 过滤 输出 | ||
【主权项】:
1.一种基于规则的自适应文本信息提取方法,其特征在于,该方法包括以下步骤:对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;输出包含关键词的文本提取结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学;上海华川环保科技有限公司,未经武汉工程大学;上海华川环保科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910223558.9/,转载请声明来源钻瓜专利网。