[发明专利]一种改进词向量模型的文本聚类多文档自动摘要方法及系统有效
申请号: | 201910291940.3 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110413986B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 陈刚 | 申请(专利权)人: | 上海晏鼠计算机技术股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/289;G06F40/30;G06F40/216;G06N3/0464;G06N3/048;G06N3/09 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200082 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 向量 模型 文本 聚类多 文档 自动 摘要 方法 系统 | ||
本发明公开了一种改进词向量模型的文本聚类多文档自动摘要方法及系统,Hierarchical Softmax的CBOW属于大规模模型训练,基于此本文通过将TesorFlow深度学习框架引入词向量模型训练中,通过流式处理计算解决对于大规模训练集的时间效率问题,进行句向量表示时先引入了TF‑IDF,再计算待抽取语义单元的语义相似度,设定了加权参数来综合考虑,生成了“语义加权”的句向量;有益效果:综合考虑了语义、深度学习、机器学习的优劣性,应用了密度聚类和卷积神经网络算法,智能化程度较高,可以快速地抽取与中心内容相关度高的语句作为文本的摘要,在自动文本摘要中应用各类机器学习算法以达到更佳的摘要效果,可能将是该领域以后的主要研究方向。
技术领域
本发明涉及自然语言处理领域,具体来说,涉及一种改进词向量模型的文本聚类多文档自动摘要方法及系统。
背景技术
互联网属于传媒领域。又称国际网络,互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。通常internet泛指互联网,而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”,在这基础上发展出覆盖全世界的全球性互联网络称互联网,即是互相连接一起的网络结构。互联网并不等同万维网,万维网只是一建基于超文本相互链接而成的全球性系统,且是互联网所能提供的服务其中之一。
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文档数据内容也呈现出指数级增长的趋势。互联网上的文档数据中包含了丰富的信息,如何有效的阅读和筛选对我们有用的信息已经成为我们关注的重点。自动文档摘要技术对文档信息进行压缩表示,帮助用户更好的浏览和吸收互联网上的海量信息。
但目前句子融合、句子压缩和语言生成的相关技术还不够成熟,导致生成的摘要存在语法错误、逻辑不连贯或上下文衔接生硬等问题。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种改进词向量模型的文本聚类多文档自动摘要方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种改进词向量模型的文本聚类多文档自动摘要方法及系统,文本预处理步骤:将原始文档的内容按句子进行分词,去除停用词,去其他无意义词;
改进词向量模型步骤:基于HierarchicalSoftmax的CBOW模型属于大规模模型训练,先建立深度学习框架TensorFlow,再运行算法;本发明将深度学习技术引入该模型训练中能够高效快速的得到词向量模型;
句向量表示与聚类步骤:句向量基于维度平均值,并引入参数加权的TF-IDF算法得到句子的加权向量;根据句子的加权向量之间的语义相似度进行密度聚类得到若干子主题聚类文本,该子主题聚类文本中的句子同属于一类语义主题;
文章摘要句抽取,生成摘要步骤:当获取到子主题聚类文本后,采用的是卷积神经网络的机器学习算法从各个集合中抽取摘要句,排序,最后进行格式化的输出摘要;
进一步的,改进词向量模型步骤,建立深度学习框架TensorFlow;
其次基于HierarchicalSoftmax的CBOW模型算法的流程,主要步骤如下:
输入:基于CBOW的预料训练样本,词向量的维度大小M,CBOW的上下文大小2c,步长为η
投影:将输入的2c个向量做求和累加,即
输出:霍夫曼树的内部节点模型参数θ,所有的词向量ω
①基于语料训练样本建立霍夫曼树,从输入层到隐藏层(投影层),这一步比较简单,就是对ω周围的2c个词向量求和取平均即可,即:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晏鼠计算机技术股份有限公司,未经上海晏鼠计算机技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910291940.3/2.html,转载请声明来源钻瓜专利网。