[发明专利]一种文本特征提取方法、装置、设备及可读存储介质在审
申请号: | 201810053301.9 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108228546A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 李界鹏;王能 | 申请(专利权)人: | 北京中关村科金技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 100025 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本特征提取方法,该方法包括:设置与目标领域相对应的目标关键词集合,获取与目标关键词集合对应的原始文章集合,对原始文章集合中的文章进行预处理,获得目标文章集合,对目标文章集合中的每一篇文章进行分词处理,获得词汇集合,计算词汇集合中的每一个词汇对应的信息增益值,以确定文本特征集合。本方法可以获得专业性较强的文本特征,便于理解和可视化数据,同时还降低了计算和存储能力等。本发明还公开了一种文本特征提取装置、设备及可读存储介质,具有相应的技术效果。 | ||
搜索关键词: | 文本特征提取 目标关键词集合 可读存储介质 集合 词汇集合 文本特征 文章集合 原始文章 预处理 可视化数据 存储能力 分词处理 技术效果 目标领域 信息增益 词汇 | ||
【主权项】:
1.一种文本特征提取方法,其特征在于,包括:设置与目标领域相对应的目标关键词集合;获取与所述目标关键词集合对应的原始文章集合;对所述原始文章集合中的文章进行预处理,获得目标文章集合;对所述目标文章集合中的每一篇文章进行分词处理,获得词汇集合;计算所述词汇集合中的每一个词汇对应的信息增益值,以确定文本特征集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司,未经北京中关村科金技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810053301.9/,转载请声明来源钻瓜专利网。