[发明专利]一种基于多级共现关系词图的可视化文本信息发现方法及系统在审
申请号: | 201810112596.2 | 申请日: | 2018-02-05 |
公开(公告)号: | CN108415900A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 李鹏;王斌;郭莉;梅钰 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系词 文本信息 可视化 文本片段 文档 文本内容 关键词提取模块 可视化信息 文档预处理 倒排索引 发现模块 发现系统 构建模块 关系构建 类别标签 文档索引 标记词 图构建 构建 抽取 检索 发现 | ||
1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:
抽取文档的文本内容,对文本内容进行切分,得到文本片段;
对文本片段进行切分,提取关键词,并标记词类别标签;
根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;
对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;
通过共现关系词图获取可视化文本信息。
2.根据权利要求1所述的方法,其特征在于,在抽取文档的文本内容之前,先将文档进行格式解析。
3.根据权利要求1所述的方法,其特征在于,对文本内容和文本片段使用符号或固定窗口进行切分,该符号包括标点符号,该固定窗口为从文本开头向结尾移动。
4.根据权利要求1所述的方法,其特征在于,词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。
5.根据权利要求4所述的方法,其特征在于,实体词标签包括复合实体词。
6.根据权利要求4所述的方法,其特征在于,对于文档核心词标签,找到文档核心词的方法包括使用TF-IDF或者TextRank计算词权重,基于词权重对关键词进行排序,取排名最高的Topk个关键词作为文档核心词。
7.根据权利要求1所述的方法,其特征在于,关键词的共现关系包括同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。
8.根据权利要求7所述的方法,其特征在于,对于一对关键词,其只能存在于共现关系最近的单个共现关系词图中,共现关系按照由近及远的顺序为同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。
9.根据权利要求1所述的方法,其特征在于,通过共现关系词图获取可视化文本信息的方法,包括:全局图与局部图的在线浏览、局部图的选择浏览及扩展浏览、共现关系的切换展示及并列展示、词图浏览历史记录、词节点标记以及文档标记。
10.一种基于多级共现关系词图的可视化文本信息发现系统,包括:
文档预处理模块,用于对文档进行格式解析,抽取文本内容并进行切分,得到文本片段的有序列表;
关键词提取模块,用于为每个文本片段进行编号,并对文本片段进行进一步的切分,获得<词,词类别>集合;
多级词图构建模块,用于根据关键词在文本片段中的共现关系,构建多级共现关系词图;
词-文档索引构建模块,用于构建词-文档倒排索引,检索包含关键词的文档;
可视化信息发现模块,用于实现基于共现关系词图的文档浏览、标记、状态保存功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810112596.2/1.html,转载请声明来源钻瓜专利网。