[发明专利]一种文本信息提取方法、装置、服务器及存储介质在审

申请号：	201811317522.9	申请日：	2018-11-07
公开（公告）号：	CN109408826A	公开（公告）日：	2019-03-01
发明（设计）人：	谢永恒;段小文;万月亮	申请（专利权）人：	北京锐安科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100044 北京市海淀区西小口***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供的一种文本信息提取方法、装置、服务器及存储介质。该方法包括：通过Word2Vec模型确定文本中候选词的词向量，并确定不同词向量之间的相似度值；将词向量作为节点，并根据词向量之间的相似度值构建节点之间的边，得到候选词图集；通过TextRank算法，根据所述候选词图集，确定候选词权重；根据候选词权重，确定文本的关键词。通过采用Word2Vec模型将候选词转换为词向量，能够使候选词通过低维的向量进行表示，提高处理效率，通过相似度值计算，并构建图集，能够形象地反映出候选词之间的关联关系，最后通过TextRank算法计算候选词的权重值，从而更加准确全面地确定文本的关键词。
搜索关键词：	候选词词向量相似度权重文本信息提取存储介质文本构建服务器候选词转换处理效率关联关系模型确定算法计算低维算法向量
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本信息提取方法，其特征在于，所述方法包括：通过Word2Vec模型确定文本中候选词的词向量，并确定不同词向量之间的相似度值；将词向量作为节点，并根据词向量之间的相似度值构建节点之间的边，得到候选词图集；通过TextRank算法，根据所述候选词图集，确定候选词权重；根据候选词权重，确定文本的关键词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司，未经北京锐安科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811317522.9/，转载请声明来源钻瓜专利网。

上一篇：一种基于命名实体识别的中标数据提取方法
下一篇：一种基于机器学习的软件实体识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本信息提取方法、装置、服务器及存储介质在审

专利文献下载