[发明专利]基于动态权重的文本生成方法、设备及存储介质有效

专利信息
申请号: 202110614527.3 申请日: 2021-06-02
公开(公告)号: CN113360646B 公开(公告)日: 2023-09-19
发明(设计)人: 蔡华 申请(专利权)人: 华院计算技术(上海)股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/289;G06F18/23213;G06F18/2415
代理公司: 上海弼兴律师事务所 31283 代理人: 杨东明;林嵩
地址: 200436 上海市静*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 动态 权重 文本 生成 方法 设备 存储 介质
【说明书】:

发明公开了一种基于动态权重的文本生成方法、设备及存储介质,所述文本生成方法包括:构建热词词库,热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,每个热搜词的热搜权重根据每个热搜词的频率参数和每个热搜词的构建时间生成;接收输入的任一文本;从任一文本中提取多个主题词;匹配主题词与热词词库,得到每个主题词的热搜权重;根据包含热搜权重的主题词生成更新后的文本。本申请实现动态加权的新闻事件多主题自动生成方法,根据增量自动搜索构建的热词,结合词的频次信息和热搜时间信息动态地赋予热词相应权重,用以处理更新快的实时性网络新闻数据。

技术领域

本发明属于自然语言处理领域,特别涉及一种基于动态权重的文本生成方法、设备及存储介质。

背景技术

随着互联网的普及,网络逐渐成为社会中各种信息的载体,越来越多的人通过网络获取实时新闻及其相关信息,网页文本已成为获取信息的重要来源,每天都有大量的新闻热点产生,如何利用文本自动生成技术从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。同时,文本自动生成是自然语言处理领域的一项重要的具有挑战性的研究任务,旨在让计算机学会像人类一样写出高质量的自然语言文本,广泛应用于机器翻译、文本摘要、搜索推荐、问答和对话系统等方面。

新闻报道是事件的载体,一篇新闻报道中可能出现多个原子事件,然而这些原子事件往往是对关键事件不同方面的补充,通常人们对于一篇新闻报道更加注重的是这篇新闻报道的关键事件,目前从单篇新闻报道中抽取新闻要点的事件抽取研究,国内外学者都做了大量研究,并取得了一定效果,这些研究主要针对新闻事件的原子事件和主题事件这两个方面的信息抽取,但是原子事件级别的事件抽取粒度过细,实用性不足,主题级别的事件抽取粒度较粗,精确提取事件信息的效率较差。

随着深度学习技术的发展,众多基于深度神经网络模型的文本生成方法被提出来,尽管,生成在一定程度上解决了连贯性的问题,但是,深度学习在文本自动生成方面仍存在主题单一、主题分布缺乏多样性,主题词覆盖不全等问题。另外,新闻具有实时性的显著特点,而大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户,很难对新闻按照内容进行组织归类,造成主题分布分散,同时,由于人们对于新闻的兴趣也会随着时间的推移发生变化,所以,如何才能更好地实时性的突出新闻的重点,仍然是当下文本生成存在的难点。

发明内容

本发明要解决的技术问题是为了克服现有技术中文本自动生成存在主题单一、主题分布缺乏多样性,主题词覆盖不全、无法实时突出新闻热点等问题的缺陷,提供一种基于动态权重的文本生成方法、设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题:

一种基于动态权重的文本生成方法,所述文本生成方法包括:

构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;

接收输入的任一文本;

从所述任一文本中提取多个主题词;

匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;

根据包含热搜权重的主题词生成更新后的文本。

较佳地,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:

构建语料库,所述语料库存储有多个标准词;

基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF(词频)值;

选取TF值大于预设阈值的分词作为热搜词;

以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF(逆向文件频率)值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华院计算技术(上海)股份有限公司,未经华院计算技术(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110614527.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top