[发明专利]使用神经网络系统识别短文本时效性的方法在审

专利信息
申请号: 201911061720.8 申请日: 2019-11-01
公开(公告)号: CN110826315A 公开(公告)日: 2020-02-21
发明(设计)人: 徐英杰;周源 申请(专利权)人: 智者四海(北京)技术有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F16/35;G06N3/04;G06N3/08
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 谢玲
地址: 100000 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 神经网络 系统 识别 文本 时效性 方法
【说明书】:

发明实施例提供一种使用神经网络系统识别短文本时效性的方法,涉及互联网技术领域,用以解决现有技术中出现的识别文本时效性不准确的问题。该方法包括:获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;将待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;以及输出待识别文本对应的各时效类型的概率。

技术领域

本发明涉及互联网技术领域,具体地,涉及一种使用神经网络系统识别短文本时效性的方法。

背景技术

随着互联网的发展和信息的不断暴增,在很多网络社区中如知乎、悟空问答、今日头条以及新闻社区,网络社区的问题路由每日分发量巨大,包括很多热点、时效性不同的问题。其中,时效性分为短时效性如一周、长时效性如一个月和无时效性。短时效的内容如果不能得到及时曝光也不能快速地消失,就会给用户很强地迟滞感,而长时效的有价值的问题如果太快地被埋没了也比较可惜,为了能更精准地路由进而提高问题的回答率、优化社区讨论氛围,问题路由需要进一步根据问题的时效设置时效性标签,传统的文本时效性识别分类方法,一般采用人工运营经验判断,或者通过规则抓取文本中的粗细粒度的时间词语进行分类,传统文本识别的方法没有针对性、耗时较长且泛化能力较差往往效果不理想,从而导致文本的时效性不准确。

发明内容

本发明的实施例提供一种使用神经网络系统识别短文本时效性的方法,用以解决现有技术中出现的识别文本时效性不准确的问题。

为达到上述目的,本发明的实施例采用如下技术方案:

本发明实施例的第一方面,提供一种用于神经网络系统的训练方法,所述神经网络系统用于确定短文本的时效性并且包括深层网络和浅层网络,所述训练方法包括:从短文本中获取训练集,所述训练集包括:短文本的文本特征、与所述短文本关联的时效性特征以及所述短文本所属的话题特征;将所述短文本的文本特征、与所述短文本关联的时效性特征输入至深层网络训练深层网络的参数,将短文本所属的话题特征输入至浅层网络训练浅层网络的参数;以及当验证集中的损失值和调和均值满足设定条件时,停止训练,确定所述深层网络的参数和所述浅层网络的参数。

在一个实施例中,所述方法还包括:获取M个短文本;以及通过关键词替换将所述M个短文本扩展至N个短文本;所述N>M,且M和N为正整数。

在一个实施例中,所述短文本包括第一问题文本,所述方法还包括:判断所述第一问题文本中的词语是否存在于时效性相关的词语列表中;以及若存在,则在所述词语的位置处插入至少一个所述词语,得到第二问题文本;所述从短文本中获取训练集,包括:对所述第二问题文本进行分词,得到所述第二问题文本的文本特征和时效性特征。

在一个实施例中,所述短文本所属的话题特征是由问题发布者所标记的特征。

本发明实施例的第二方面,提供一种神经网络系统,所述神经网络系统由计算机实现,包括:特征构建层,用于获取短文本的文本特征、与所述短文本关联的时效性特征以及所述短文本所属的话题特征;学习层,所述学习层包括深层网络和浅层网络,所述深层网络用于接收所述短文本的文本特征、与所述短文本关联的时效性特征和用于产生深层特征,所述浅层网络用于接收所述短文本所属的话题特征和用于产生浅层特征;以及分类层,用于根据所述深层特征和所述浅层特征得到各类时效性的概率。

在一个实施例中,所述深层网络包括嵌入模型和双层transformer模型,所述浅层网络包括独热编码和线性模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911061720.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top