[发明专利]标题生成方法、装置和电子设备有效
申请号: | 201711384836.6 | 申请日: | 2017-12-20 |
公开(公告)号: | CN107977363B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 陈笑;何径舟;周古月;付志宏;袁德璋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/279;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标题 生成 方法 装置 电子设备 | ||
1.一种标题生成方法,其特征在于,包括:
获取待生成标题的文本,并将所述文本切分为多个分句;
获取所述多个分句的特征信息,所述特征信息包括长度信息、位置信息、重要性信息以及相似度信息中的至少一种;
将所述特征信息输入至标题支撑句模型,以抽取出至少一个标题支撑句;
将所述至少一个标题支撑句输入至标题生成模型,以生成对应的标题;
基于标题打分模型对生成的标题进行打分,并根据标题的得分确定所述文本对应的标题;包括:训练所述标题打分模型,所述训练所述标题打分模型,还包括:获取标题样本与所述标题样本对应的点击数据;根据所述标题样本和所述点击数据训练所述标题打分模型;所述基于标题打分模型对生成的标题进行打分包括:计算标题对应的点击率,将所述点击率和所述标题输入至标题打分模型。
2.如权利要求1所述的方法,其特征在于,所述文本切分为多个分句,包括:
基于整句粒度或子句粒度,将所述文本切分为多个分句。
3.如权利要求1所述的方法,其特征在于,所述标题支撑句模型包括决策树GBDT模型。
4.如权利要求1所述的方法,其特征在于,所述标题打分模型包括深度神经网络DNN模型。
5.如权利要求1所述的方法,其特征在于,还包括:
训练所述标题生成模型。
6.如权利要求5所述的方法,其特征在于,所述标题生成模型为seq2seq模型。
7.如权利要求1所述的方法,其特征在于,根据标题的得分确定所述文本对应的标题,包括:
过滤得分低于预设分数的标题;
对过滤后的标题进行排序,并根据排序结果确定所述文本对应的标题。
8.一种标题生成装置,其特征在于,包括:
切分模块,用于获取待生成标题的文本,并将所述文本切分为多个分句;
获取模块,用于获取所述多个分句的特征信息,所述特征信息包括长度信息、位置信息、重要性信息以及相似度信息中的至少一种;
抽取模块,用于将所述特征信息输入至标题支撑句模型,以抽取出至少一个标题支撑句;
生成模块,用于将所述至少一个标题支撑句输入至标题生成模型,以生成对应的标题;
确定模块,用于基于标题打分模型对生成的标题进行打分,并根据标题的得分确定所述文本对应的标题;还包括:
第一训练模块,用于训练所述标题打分模型;所述第一训练模块,用于:获取标题样本与所述标题样本对应的点击数据;根据所述标题样本和所述点击数据训练所述标题打分模型;所述基于标题打分模型对生成的标题进行打分包括:计算标题对应的点击率,将所述点击率和所述标题输入至标题打分模型。
9.如权利要求8所述的装置,其特征在于,所述切分模块,用于:
基于整句粒度或子句粒度,将所述文本切分为多个分句。
10.如权利要求8所述的装置,其特征在于,所述标题支撑句模型包括决策树GBDT模型。
11.如权利要求8所述的装置,其特征在于,所述标题打分模型包括深度神经网络DNN模型。
12.如权利要求8所述的装置,其特征在于,还包括:
第二训练模块,用于训练所述标题生成模型。
13.如权利要求12所述的装置,其特征在于,所述标题生成模型为seq2seq模型。
14.如权利要求8所述的装置,其特征在于,所述确定模块,用于:
过滤得分低于预设分数的标题;
对过滤后的标题进行排序,并根据排序结果确定所述文本对应的标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711384836.6/1.html,转载请声明来源钻瓜专利网。