[发明专利]一种改进词向量模型的文本聚类多文档自动摘要方法及系统有效
申请号: | 201910291940.3 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110413986B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 陈刚 | 申请(专利权)人: | 上海晏鼠计算机技术股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/289;G06F40/30;G06F40/216;G06N3/0464;G06N3/048;G06N3/09 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种改进词向量模型的文本聚类多文档自动摘要方法及系统,Hierarchical Softmax的CBOW属于大规模模型训练,基于此本文通过将TesorFlow深度学习框架引入词向量模型训练中,通过流式处理计算解决对于大规模训练集的时间效率问题,进行句向量表示时先引入了TF‑IDF,再计算待抽取语义单元的语义相似度,设定了加权参数来综合考虑,生成了“语义加权”的句向量;有益效果:综合考虑了语义、深度学习、机器学习的优劣性,应用了密度聚类和卷积神经网络算法,智能化程度较高,可以快速地抽取与中心内容相关度高的语句作为文本的摘要,在自动文本摘要中应用各类机器学习算法以达到更佳的摘要效果,可能将是该领域以后的主要研究方向。 | ||
搜索关键词: | 一种 改进 向量 模型 文本 聚类多 文档 自动 摘要 方法 系统 | ||
【主权项】:
1.一种改进词向量模型的文本聚类多文档自动摘要方法,其特征在于,文本预处理步骤:将原始文档的内容按句子进行分词,去除停用词,去其他无意义词;改进词向量模型步骤:基于HierarchicalSoftmax的CBOW模型属于大规模模型训练,先建立深度学习框架TensorFlow,再运行算法;本发明将深度学习技术引入该模型训练中能够高效快速的得到词向量模型;句向量表示与聚类步骤:句向量基于维度平均值,并引入参数加权的TF‑IDF算法得到句子的加权向量;根据句子的加权向量之间的语义相似度进行密度聚类得到若干子主题聚类文本,该子主题聚类文本中的句子同属于一类语义主题;文章摘要句抽取,生成摘要步骤:当获取到子主题聚类文本后,采用的是卷积神经网络的机器学习算法从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要;进一步的,改进词向量模型步骤,建立深度学习框架TensorFlow;其次基于HierarchicalSoftmax的CBOW模型算法的流程,主要步骤如下:输入:基于CBOW的预料训练样本,词向量的维度大小M,CBOW的上下文大小2c,步长为η投影:将输入的2c个向量做求和累加,即输出:霍夫曼树的内部节点模型参数θ,所有的词向量ω①基于语料训练样本建立霍夫曼树,从输入层到隐藏层(投影层),这一步比较简单,就是对ω周围的2c个词向量求和取平均即可,即:②随机初始化模型参数θ,所有的词向量ω③进行梯度上升迭代过程,对于训练集中的每一个样本(context(ω),ω)作如下处理:e=0,计算forj=2to,计算:对于(context(ω),ω)中的每一个词向量xj(共2c个)进行更新:xi=xi+e如果梯度收敛,则结束梯度迭代,否则回到步骤3继续迭代。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晏鼠计算机技术股份有限公司,未经上海晏鼠计算机技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910291940.3/,转载请声明来源钻瓜专利网。