[发明专利]基于端到端深度学习模型的文章标题生成方法在审
申请号: | 202011451526.3 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112560458A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 刘畅;罗学优 | 申请(专利权)人: | 杭州艾耕科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/289;G06F16/34;G06F16/35 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 何碧珩;卓彩霞 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 端到端 深度 学习 模型 文章 标题 生成 方法 | ||
1.基于端到端深度学习模型的文章标题生成方法,其特征是,包括以下步骤:
(1)将文章正文输入文章品类分类模型,得到文章品类;将文章分割成小段,利用意图分类模型,预测文章意图;根据文章品类和文章意图,从该文章品类下的热门的标题意图组合中,优先选取由文章意图组成的标题意图组合;
(2)对文章正文进行分词,选取摘要,得到正文摘要;
(3)将正文摘要、文章品类、标题意图组合拼接后得到输入数据,将其输入到端到端标题生成模型,得到文章标题。
2.根据权利要求1所述的基于端到端深度学习模型的文章标题生成方法,其特征是,所述端到端标题生成模型的构建包括数据集建立与模型训练,所述数据集建立与模型训练包括以下步骤:
(1.1)搜集垂直领域的文章语料;
(1.2)由垂直领域专家对步骤(1.1)得到的文章语料中的文章进行归类,得到文章品类;选取一定量的文章,得到文章数据集{A1,A2,A3……Ai……An},n为文章数量,Ai表示第i篇文章,1≤i≤n;对文章进行分类标注得到文章品类数据集{C1,C2,C3……Ci……Cn},其中Ci是Ai的文章品类,训练bert模型得到文章品类分类模型;
(1.3)对文章标题按照标点符号分割成小段,得到小段标题数据集{T1,T2,T3……Tt……Tm},Tt表示第t小段标题,m为小段标题数量,1≤t≤m,对每个小段进行意图分类,标注得到标题意图数据集{M1,M2,M3……Mt……Mm},其中,Mt={I1,I2,I3……It……Ikt}为第t个小段标题对应的意图,其中,kt为第t个小段标题的意图数量,kt为非0的自然数,训练bert模型得到意图分类模型;
(1.4)处理全量文章语料:利用步骤(1.2)和(1.3)得到的模型预测文章品类和标题意图组合;对文章正文和文章标题进行分词,选取正文摘要,将文章品类、标题意图组合和正文摘要拼接后作为输入,将分词后的标题作为预测目标,训练transformer模型得到端到端标题生成模型。
3.根据权利要求2所述的基于端到端深度学习模型的文章标题生成方法,其特征是,根据步骤(1.4)中得到的文章品类和标题意图组合,将标题意图组合按照文章品类归类,并根据文章在网络上的阅读量进行排序,得到每个文章品类下热门的标题意图组合。
4.根据权利要求3所述的基于端到端深度学习模型的文章标题生成方法,其特征是,步骤(1)具体为:将文章正文输入所述步骤(1.2)中的文章品类分类模型,对文章正文预测得到文章品类,将文章正文按照标点符号分割成小段,利用所述步骤(1.3)中的意图分类模型,预测文章意图,根据文章品类和文章意图,从对应文章品类下的热门的标题意图组合,优先选取由文章意图组成的标题意图组合;也就是说:计算热门的标题意图组合属于文章意图的意图比例,然后选择意图比例高的意图组合作为标题意图组合。
5.根据权利要求1所述的基于端到端深度学习模型的文章标题生成方法,其特征是,步骤(2)具体为:使用sentencepiece分词工具对文章正文进行分词,计算文章单词总数,如果不超过500,将整篇正文作为摘要,如果超过500,则选取文章开头400个单词和结尾的100个单词组成正文摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州艾耕科技有限公司,未经杭州艾耕科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011451526.3/1.html,转载请声明来源钻瓜专利网。