[发明专利]基于动态权重的文本生成方法、设备及存储介质有效
申请号: | 202110614527.3 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113360646B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 蔡华 | 申请(专利权)人: | 华院计算技术(上海)股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06F18/23213;G06F18/2415 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;林嵩 |
地址: | 200436 上海市静*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 权重 文本 生成 方法 设备 存储 介质 | ||
1.一种基于动态权重的文本生成方法,其特征在于,所述文本生成方法包括:
构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;热词词库中的每个关键词权重按一定周期保持衰减;
接收输入的任一文本;
从所述任一文本中提取多个主题词;
匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;
根据包含热搜权重的主题词生成更新后的文本;
从所述文本中提取多个主题词的步骤之后,所述文本生成方法还包括:
基于相似度算法获取所述主题词的扩展词,并基于所述主题词和所述扩展词生成关键词库;
基于聚类算法对所述关键词库中的关键词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;
匹配所述聚类关键词与所述热词词库,得到每个聚类关键词的热搜权重;
所述根据包含热搜权重的主题词生成更新后的文本的步骤具体包括:
根据包含热搜权重的主题词、聚类关键词和所述聚类主题信息生成所述更新后的文本。
2.如权利要求1所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:
构建语料库,所述语料库存储有多个标准词;
基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF值;
选取TF值大于预设阈值的分词作为热搜词;
以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF值;
所述频率参数包括所述TF值和所述IDF值。
3.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下公式计算得到所述热搜权重,具体包括:
Wi=TFi*IDFi*[a×exp(-λ×ti)]
其中,Wi为第i个热搜词的热搜权重;TFi为第i个热搜词的TF值;IDFi为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1λ0;ti为第i个热搜词被确定为热搜词的时间与当前时间的时间差。
4.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述构建语料库的步骤具体包括:
爬取预设第二时间段内的所有网络文本;
基于不同的词长对所述网络文本进行切词,并统计每个词的频率;
对每个词长,将频率大于与所述每个词长对应的预设频率的词作为所述标准词。
5.如权利要求4所述的基于动态权重的文本生成方法,其特征在于,所述根据包含热搜权重的主题词、聚类关键词和所述聚类主题信息生成所述更新后的文本的步骤具体包括:
将所述包含热搜权重的关键词及对应的任一文本中的位置信息输入双向长短记忆网络进行词编码,得到每个关键词的词向量表示及每个关键词的位置编码;
基于注意力机制根据所述词向量表示和所述位置编码得到每个关键词的注意力权重系数;
根据所述每个关键词的注意力权重系数对所述任一文本中每个句子进行句子编码,得到每个句子的句子向量表示;
基于注意力机制根据所述句子向量表示和每个聚类关键词的注意力权重系数进行文档编码,得到文档向量表示;
将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征,并将所述多尺度特征输入文本生成模型,输出所述更新后的文本;
其中,所述文本生成模型是利用训练样本及其对应的文本模板对神经网络模型进行训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华院计算技术(上海)股份有限公司,未经华院计算技术(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110614527.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种市政工程用警示装置
- 下一篇:检查井监测设备布设装置