[发明专利]基于相似度的标题生成模型的训练方法及计算设备在审
申请号: | 201911159176.0 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110968666A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 柳燕煌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/258 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似 标题 生成 模型 训练 方法 计算 设备 | ||
1.一种基于相似度的标题生成模型的训练方法,包括:
从文章集合中提取各个文章内容对应的标题;
针对所述文章集合中的每个文章内容,对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取,得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量;
计算所述第一特征向量与各个第二特征向量之间的相似度;
根据所述第一特征向量与各个第二特征向量之间的相似度,从所述第二特征向量对应的各个组成语句中提取词语,构建所述文章内容对应的词语样本集合;
根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题,训练得到标题生成模型。
2.根据权利要求1所述的方法,所述针对所述文章集合中的每个文章内容,对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取,得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量进一步包括:
对所述文章内容的全文以及所述文章内容的各个组成语句进行主题分析,得到所述文章内容的全文的第一主题向量作为第一特征向量,得到各个组成语句对应的第二主题向量作为第二特征向量;
或者,对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取,得到所述文章内容的全文的第一embedding向量作为第一特征向量,得到各个组成语句对应的第二embedding向量作为第二特征向量。
3.根据权利要求1所述的方法,所述根据所述第一特征向量与各个第二特征向量之间的相似度,从所述第二特征向量对应的各个组成语句中提取词语,构建所述文章内容对应的词语样本集合进一步包括:
对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列,得到各个第二特征向量对应的各个组成语句的排列结果;
对排列结果中排列靠前的n个组成语句进行分词处理,得到n个组成语句的词语作为词语样本,构建所述文章内容对应的词语样本集合。
4.根据权利要求3所述的方法,所述对排列结果中排列靠前的n个组成语句进行分词处理,得到n个组成语句的词语作为词语样本,构建所述文章内容对应的词语样本集合进一步包括:
统计n个组成语句的词语的总数量;
判断所述词语的总数量是否超过预设数量阈值;
若是,则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语,将所选取的词语作为词语样本添加至所述文章内容对应的词语样本集合中;若否,则将n个组成语句的词语作为词语样本添加至所述文章内容对应的词语样本集合中。
5.根据权利要求3或4所述的方法,所述对排列结果中排列靠前的n个组成语句进行分词处理,得到n个组成语句的词语作为词语样本,构建所述文章内容对应的词语样本集合进一步包括:
获取排列结果中排列靠前的n个组成语句在所述文章内容中的出现顺序;
对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列,得到排列后的n个组成语句;
对排列后的n个组成语句进行分词处理,得到排列后的n个组成语句的有序词语作为词语样本,构建所述文章内容对应的词语样本集合。
6.一种基于相似度的标题生成方法,包括:
获取待处理文章内容以及所述待处理文章内容的各个组成语句;
对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取,得到所述待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量;
计算所述第一特征向量与各个第二特征向量之间的相似度;
根据所述第一特征向量与各个第二特征向量之间的相似度,从所述第二特征向量对应的各个组成语句中提取词语,构建所述待处理文章内容对应的词语集合;
将所述词语集合中的词语输入至经过训练的标题生成模型中,将所述标题生成模型的输出结果作为待处理文章的标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911159176.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通信方法、装置、系统、电子设备及可读存储介质
- 下一篇:一种人体姿态估计方法