[发明专利]一种基于用户偏好的个性化新闻标题生成方法有效
申请号: | 202310485640.5 | 申请日: | 2023-05-04 |
公开(公告)号: | CN116186420B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 张莹;于胜龙;郭文雅;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/253;G06F40/258;G06F40/284;G06N3/04;G06N3/08;G06F16/35 |
代理公司: | 天津展誉专利代理有限公司 12221 | 代理人: | 任海波 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 偏好 个性化 新闻标题 生成 方法 | ||
1.一种基于用户偏好的个性化新闻标题生成方法,其特征在于,包括如下步骤:
S100:采集用户的浏览记录,抽取所述浏览记录中的实体信息;
S200:抽取所述浏览记录中包括用户偏好的文字特征信息;
S300:将所述实体信息和所述文字特征信息融合并引入所需生成标题的新闻内容建模,获得生成模型,通过所述生成模型生成原始标题;
S400:强化学习所述生成模型,通过强化学习后的生成模型生成个性化标题。
2.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S100包括:
S111:采集用户浏览记录;
S112:通过自然语言处理技术在所述浏览记录中分离实体词汇,生成实体信号;
S113:计算所有所述实体信号的嵌入平均值,生成实体级别用户表征;
S114:计算所述浏览记录中所述实体级别用户表征的平均值,生成实体信息。
3.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,所述文字特征信息包括语法信息,抽取所述语法信息的步骤如下:
S211:分离所述浏览记录中的语法结构,生成语法信号;
S212:识别所述语法信号中各单词间的依赖关系,生成语法信息。
4.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,所述文字特征信息包括语言风格信息,抽取所述语言风格信息的步骤如下:
S221:分离所述浏览记录中的语言风格词汇;
S222:基于语料库预训练语言风格分类模型,通过所述语言风格分类模型训练所述语言风格词汇,生成语言风格信号;
S223:计算所述语言风格信号在用户阅读历史中占比平均值,生成语言风格信息。
5.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S300中通过所述生成模型生成原始标题时还包括,使用非确定性的实体标签替换所述原始标题中的实体词汇。
6.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S300中通过基于指针的生成式网络,将所述实体信息和所述文字特征信息融合。
7.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S400中强化学习所述生成模型包括:
S411:对所述原始标题进行质量评估,获得与所述原始标题对应的第一质量评估指标;
S412:融合所述第一质量评估指标、实体信息和所述文字特征信息,获得第二质量评估指标;
S413:通过所述第二质量评估指标对所述生成模型生成的中间文本进行监督,通过监督反馈的信号,调整所述生成模型的参数,以获得所述生成模型最大化期望的总回报。
8.根据权利要求7所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S413中,任一所述中间文本生成后,所述中间文本的个性化奖励表示如下:
其中,为中间文本的个性化奖励,为通过实体信息和中间文本实体级别的相似度计算得到的奖励,为通过语法信息和中间文本语法结构的相似度计算得到的奖励,为通过语言风格信息和中间文本语言风格结构的相似度计算得到的奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310485640.5/1.html,转载请声明来源钻瓜专利网。