[发明专利]一种基于多级共现关系词图的可视化文本信息发现方法及系统在审

专利信息
申请号: 201810112596.2 申请日: 2018-02-05
公开(公告)号: CN108415900A 公开(公告)日: 2018-08-17
发明(设计)人: 李鹏;王斌;郭莉;梅钰 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 余功勋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 关系词 文本信息 可视化 文本片段 文档 文本内容 关键词提取模块 可视化信息 文档预处理 倒排索引 发现模块 发现系统 构建模块 关系构建 类别标签 文档索引 标记词 图构建 构建 抽取 检索 发现
【权利要求书】:

1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:

抽取文档的文本内容,对文本内容进行切分,得到文本片段;

对文本片段进行切分,提取关键词,并标记词类别标签;

根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;

对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;

通过共现关系词图获取可视化文本信息。

2.根据权利要求1所述的方法,其特征在于,在抽取文档的文本内容之前,先将文档进行格式解析。

3.根据权利要求1所述的方法,其特征在于,对文本内容和文本片段使用符号或固定窗口进行切分,该符号包括标点符号,该固定窗口为从文本开头向结尾移动。

4.根据权利要求1所述的方法,其特征在于,词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。

5.根据权利要求4所述的方法,其特征在于,实体词标签包括复合实体词。

6.根据权利要求4所述的方法,其特征在于,对于文档核心词标签,找到文档核心词的方法包括使用TF-IDF或者TextRank计算词权重,基于词权重对关键词进行排序,取排名最高的Topk个关键词作为文档核心词。

7.根据权利要求1所述的方法,其特征在于,关键词的共现关系包括同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。

8.根据权利要求7所述的方法,其特征在于,对于一对关键词,其只能存在于共现关系最近的单个共现关系词图中,共现关系按照由近及远的顺序为同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。

9.根据权利要求1所述的方法,其特征在于,通过共现关系词图获取可视化文本信息的方法,包括:全局图与局部图的在线浏览、局部图的选择浏览及扩展浏览、共现关系的切换展示及并列展示、词图浏览历史记录、词节点标记以及文档标记。

10.一种基于多级共现关系词图的可视化文本信息发现系统,包括:

文档预处理模块,用于对文档进行格式解析,抽取文本内容并进行切分,得到文本片段的有序列表;

关键词提取模块,用于为每个文本片段进行编号,并对文本片段进行进一步的切分,获得<词,词类别>集合;

多级词图构建模块,用于根据关键词在文本片段中的共现关系,构建多级共现关系词图;

词-文档索引构建模块,用于构建词-文档倒排索引,检索包含关键词的文档;

可视化信息发现模块,用于实现基于共现关系词图的文档浏览、标记、状态保存功能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810112596.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top