[发明专利]一种基于多级共现关系词图的可视化文本信息发现方法及系统在审
申请号: | 201810112596.2 | 申请日: | 2018-02-05 |
公开(公告)号: | CN108415900A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 李鹏;王斌;郭莉;梅钰 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词‑文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。本发明还提供一种基于多级共现关系词图的可视化文本信息发现系统,包括文档预处理模块、关键词提取模块、多级词图构建模块、词‑文档索引构建模块及可视化信息发现模块。 | ||
搜索关键词: | 关系词 文本信息 可视化 文本片段 文档 文本内容 关键词提取模块 可视化信息 文档预处理 倒排索引 发现模块 发现系统 构建模块 关系构建 类别标签 文档索引 标记词 图构建 构建 抽取 检索 发现 | ||
【主权项】:
1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词‑文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810112596.2/,转载请声明来源钻瓜专利网。