[发明专利]一种热点提取方法、存储介质及服务器在审
申请号: | 202010950134.5 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112131463A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 江永渡;邵陈杰;赵志武;程德生;厉屹;林镇杰;钱刚;朱文;章冬红 | 申请(专利权)人: | 杭州中软安人网络通信股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/30;G06K9/62 |
代理公司: | 北京兰亭信通知识产权代理有限公司 11667 | 代理人: | 赵永刚 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点 提取 方法 存储 介质 服务器 | ||
本发明提供了一种热点提取方法、存储介质及服务器,该热点提取方法包括:获取待提取热点的语料数据;根据语料数据对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;根据专业领域的roberta模型,提取多条文本中每条文本的特征向量;根据多条文本中每条文本的特征向量,构造孪生网络的训练样本;根据训练样本,通过孪生网络的方式调节专业领域的roberta模型的参数,得到目标的roberta模型;根据目标的roberta模型,提取多条文本中每条文本的特征向量;利用聚类算法对语料数据的多条文本进行聚类,得到多个类别;根据目标的roberta模型及多个类别提取语料数据的热点。更好地捕捉到语料数据中的独有信息;减少语料数据中字的unk(unknown)的情况;提高聚类及提取热点准确性。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种热点提取方法、存储介质及服务器。
背景技术
当今时代,随着网络信息技术的发展,文本数据飞速增长,使用计算机自动处理信息,及时准确的从这些信息中挖掘出热点话题,对于了解最新的舆论热点、研究突发性的热点,掌握未来热门话题动向有着重大意义。当前的热点自动提取的方法一般采用聚类算法获取相应的类别,然后对每个类别提取关键词的方式,作为最后的热点结果。受限于聚类效果,返回的topn热点常常存在含义上相同的类别,热点问题提取的效果不理想。
发明内容
本发明提供了一种热点提取方法、存储介质及服务器,用以提高热点提取的准确性。
第一方面,本发明提供了一种热点提取方法,该热点提取方法包括:
获取待提取热点的语料数据,其中,语料数据包含多条文本;
根据语料数据对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;
根据专业领域的roberta模型,提取多条文本中每条文本的特征向量;
根据多条文本中每条文本的特征向量,构造孪生网络的训练样本;
根据训练样本,通过孪生网络的方式调节专业领域的roberta模型的参数,得到目标的roberta模型;
根据目标的roberta模型,提取多条文本中每条文本的特征向量;
利用聚类算法对语料数据的多条文本进行聚类,得到多个类别;
根据目标的roberta模型及多个类别提取语料数据的热点。
在上述的方案中,通过利用待提取热点的语料数据对通用领域的roberta模型进行预训练后,可以使roberta模型更好地捕捉到待提取热点的语料数据中的独有信息。并且进行预训练可以减少待提取热点的语料数据中字的unk(unknown)的情况,为后续更准确的提取语料数据的热点打下基础。另外,通过孪生网络的方式调节roberta模型的参数,能够直接优化相似度距离,使得相似的文本在距离上更加紧凑,不相似的文本在距离上更加分散,从而提高后续聚类的准确率,提高后续提取语料数据中的热点的准确性。
在一个具体的实施方式中,根据专业领域的roberta模型,提取多条文本中每条文本的特征向量具体为:取专业领域的roberta模型的最后设定个数层,对设定个数层中每一层的每个字的特征向量求平均值;相加设定个数层的特征向量,取其平均值,得到每条文本的特征向量。通过融合最后几层的特征向量,能够提升获取文本的特征表示,使文本的特征向量具有完整的语义信息,提升后续聚类的效果及提取热点的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州中软安人网络通信股份有限公司,未经杭州中软安人网络通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010950134.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关节轴承内圈油孔捅毛刺装置
- 下一篇:一种重力输送送料设备