[发明专利]一种基于多级共现关系词图的可视化文本信息发现方法及系统在审
申请号: | 201810112596.2 | 申请日: | 2018-02-05 |
公开(公告)号: | CN108415900A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 李鹏;王斌;郭莉;梅钰 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系词 文本信息 可视化 文本片段 文档 文本内容 关键词提取模块 可视化信息 文档预处理 倒排索引 发现模块 发现系统 构建模块 关系构建 类别标签 文档索引 标记词 图构建 构建 抽取 检索 发现 | ||
本发明提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词‑文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。本发明还提供一种基于多级共现关系词图的可视化文本信息发现系统,包括文档预处理模块、关键词提取模块、多级词图构建模块、词‑文档索引构建模块及可视化信息发现模块。
技术领域
本发明属于文本挖掘、自然语言处理领域,涉及一种基于多级共现关系词图的可视化文本信息发现方法及系统。
背景技术
随着互联网、办公电子化的发展,文本信息呈爆炸式增长趋势,生成的文本数量超越了以往任何时代。一方面文本包含大量有价值的信息,另一方面海量文本显著增加了有效信息的发现代价。对于绝大多数应用(如出版、行研、监管),用户已经不可能对收集的文档集中的每一篇文档进行阅读来发现有效信息,如何利用计算机从海量文本中辅助挖掘有价值的信息(文本挖掘)成为亟待解决的重要问题。
文本挖掘根据目标信息的特点可以分为2类:第一类是有效信息可以清晰定义的文本挖掘,比如分类或者有明确目标的搜索,现有计算机通过匹配计算基本可以满足日常需要;第二种是有效信息难以清晰定义的文本挖掘,比如搜索需求模糊的场景,现有办法一般通过“探索式”的方式进行信息发现。“探索式”信息发现底层利用搜索功能:用户输入查询词,人工查看搜索结果,形成下一次的查询词继续搜索,该过程不断重复直到找到结果为止。对于“探索式”信息发现,随着用户对结果的理解,最后使用的查询很可能与最初的查询完全不同。
目前“探索式”信息发现方法存在3个问题:一是对搜索结果进行人工排查效率低,人工浏览文档(搜索结果)是一个非常消耗时间的过程,不能快速定位目标信息;二是整个过程缺乏对目标文档集合的全局把控,导致用户在发现过程中往往陷入不知道“从哪里来、到哪里去”的问题,信息检查的状态无法在下一次检查中进行恢复以及有效利用;三是无法对已检查的文档进行过滤,难以避免重复检查。
发明内容
为了克服上述信息发现的不足,本发明提出一种基于多级共现关系词图的可视化文本信息发现方法及系统。
为解决上述技术问题,本发明采用如下技术方案:
一种基于多级共现关系词图的可视化文本信息发现方法,如图1所示,其步骤包括:
抽取文档的文本内容,对文本内容进行切分,得到文本片段;
对文本片段进行切分,提取关键词,并标记词类别标签;
对文本片段进行分析,根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;
对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;
通过共现关系词图获取可视化文本信息。
进一步地,在抽取文档的文本内容之前,先将文档进行格式解析。
进一步地,使用符号进行切分,该符号包括标点符号;或者使用固定窗口进行切分,设定窗口的大小和移动步长,从文本开头向结尾移动,窗口圈定的每个文本片段作为输出。
进一步地,词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。
进一步地,实体词标签包括复合实体词。
进一步地,对于文档核心词标签,找到文档核心词的方法包括使用TF-IDF或者TextRank 计算词权重,基于词权重对关键词进行排序,取排名最高的Topk个关键词作为文档核心词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810112596.2/2.html,转载请声明来源钻瓜专利网。