[发明专利]一种非结构信息处理与资源管理系统有效
申请号: | 201811290541.7 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109492100B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 李刚;石淮 | 申请(专利权)人: | 武汉雨滴科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/30;G06F40/289 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 杨本官 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 信息处理 资源管理 系统 | ||
1.一种非结构信息处理与资源管理系统,其特征在于,由信息管理模块、信息处理模块以及数据采集模块构成;
信息管理模块,包括用于实现词库管理操作以实现词库的快速更新,包括修改、增删、检索词语的词库控件;用于实现数据源的增删查找的数据源控件;用于设置不同分类规则以对信息进行分类,包括增删、修改和查找规则的规则控件;用于配置文本分析功能,根据分词策略形成或者修改信息处理的策略模式的策略控件;用于根据数据源以及策略配置,建立新的任务,并调用相应的数据源以及策略模型,对数据源进行相应的策略处理,并输出相应的数据结果的任务控件;
信息处理模块,包括用于对信息进行自动分词,并完成关键信息提取的提取控件;用于完成文本转换、聚类以及对比的处理控件;提取控件采用规则匹配以及模型匹配对文本信息进行自动分词处理,并对词语进行词性标注,同时提取文本的关键字词和关键句作为摘要以便于快速阅览;
处理控件还用于根据用户输入的路径录入信息文件,并根据操作历史形成日志文件;日志文件用于支持文件的持续更新读取;
在具体实施过程中,处理控件表现为可编辑的下拉窗口或者链接至相应数据库的超文本编辑栏;
分词处理还包括将信息数据中的文本进行分割处理,以将其划分为一个或者多个具有完整语义的字词单元,同时根据自定义或者用户输入或者调取频率进行优先级提取,以便于优先获取高频的关键词,快速形成关键词摘要;以及,基于规则处理以及统计方法相结合,从非结构信息中获取特定的地名、人名、号码实体数据;
数据采集模块,包括用于从数据源中采集数据,调用文本分析服务器相应的服务对数据进行自动处理,并将数据处理结果进行存储的数据采集控件;以及,用于利用规范性数据文件对数据信息进行修正和补充,或者进行定义数据的录入和修正;以实现对已采集数据进行定义的数据定义控件。
2.根据权利要求1所述一种非结构信息处理与资源管理系统,其特征在于,任务包括对同一个数据源进行多个策略处理的组合,包含有多个批量或者连续性的文件操作内容,即某一项或者多项任务会与该任务相应的数据源进行绑定,对数据源进行单一或者多路策略处理;在任务管理过程中,任务控制器控制页面与业务的交互内容,执行策略处理的具体内容并返回结果。
3.根据权利要求1所述一种非结构信息处理与资源管理系统,其特征在于,词库控件还用于根据用户的需求和设置添加新的空白词库,并对词库内字词进行编辑;还用于根据用户指定目录利用规范文件录入或生成已有词库数据;还用于对已生成的词库进行打包编辑以导出生成规范的词库文件;还用于控制词库数据的启用和停用,以控制词库的可用状态;在具体实施过程中,信息模块中各控件表现为可编辑的框体或者按钮;具体而言,词库控件根据用户需求进行分压查询以及查询结果的显示,之后通过用户的输入调用文本控制器分别生成新的词库和录入;在生成过程中调用函数查询词库存在状态,当词库存在时,采用默认循环追加后缀或者主动命名的方式生成新词库的名称,再对词库进行操作之前也会对相应的词库进行检索以确认状态。
4.根据权利要求1所述一种非结构信息处理与资源管理系统,其特征在于,所述规范性数据文件是指含有基础数据信息以及词性、词频信息;用于后序对非结构性数据进行分析处理的补充数据。
5.根据权利要求1所述一种非结构信息处理与资源管理系统,其特征在于,词库控件表现为可编辑的表格或者窗口,表格栏或者窗口区中可直接调用文本编辑器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉雨滴科技有限公司,未经武汉雨滴科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811290541.7/1.html,转载请声明来源钻瓜专利网。