[发明专利]新闻事件的识别方法、装置、设备及可读存储介质在审
申请号: | 201811509289.4 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109800413A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 潘禄;陈玉光;彭卫华;罗雨;陈亮;陈文浩;周辉;郑宇宏;陈伟娜;韩翠云 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 吴会英;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻事件 新闻资讯 特征学习 文本 可读存储介质 用户搜索行为 句子上下文 事件主体 优化 学习 关键特征 获取目标 模型提取 模型训练 准确率 融入 申请 | ||
1.一种新闻事件的识别方法,其特征在于,包括:
采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征;
获取所述目标新闻资讯文本的事件主体特征及用户搜索行为特征;
根据所述句子上下文特征,所述事件主体特征及所述用户搜索行为特征采用所述优化的深度学习模型对所述目标新闻资讯文本进行是否为新闻事件的识别。
2.根据权利要求1所述的方法,其特征在于,所述优化的深度学习模型为优化的卷积神经网络模型,所述优化的卷积神经网络模型包括:输入层和卷积层;所述句子上下文特征为句子上下文向量;
所述采用优化的深度学习模型提取目标新闻资讯文本的句子上下文特征,具体包括:
所述输入层将所述目标新闻资讯文本进行分词处理,以获取所述目标新闻资讯文本的每个词语;
所述输入层对每个词语进行向量化处理,获得每个词语的总向量,所述总向量由词向量,位置向量及词性向量拼接而成;
所述卷积层对每个词语的总向量进行卷积处理,以提取每个词语的局部特征向量;
所述卷积层对每个词语的局部特征向量进行池化处理,以获得每个词语的最优特征值;
所述卷积层对所有词语的最优特征值进行非线性变换,获得所述句子上下文向量。
3.根据权利要求2所述的方法,其特征在于,所述输入层对每个词语进行向量化处理,获得每个词语的总向量,具体包括:
所述输入层对每个词语进行词向量化处理,以获得每个词语的词向量;
所述输入层对每个词语进行位置向量化处理,以获得每个词语的位置向量;
所述输入层对每个词语进行词性向量化处理,以获得每个词语的词性向量。
4.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行词向量化处理,以获得每个词语的词向量,具体为:
所述输入层中的词向量模型对每个词语进行词向量识别,输出每个词语的词向量;
其中,所述词向量模型是通过新闻资讯文本中的语料训练获得的。
5.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行位置向量化处理,以获得每个词语的位置向量,具体包括:
所述输入层识别所述目标新闻资讯文本中的第一预设个数的实体和第二预设个数的动词;
所述输入层计算每个词语与所述实体和所述动词的相对位置;
所述输入层将所述相对位置映射到正态分布向量上,形成每个词语的位置向量。
6.根据权利要求3所述的方法,其特征在于,所述输入层对每个词语进行词性向量化处理,以获得每个词语的词性向量,具体包括:
所述输入层确定每个词语的词性;
所述输入层将每个词语的词性映射为对应的词性向量。
7.根据权利要求2所述的方法,其特征在于,所述卷积层对所有词语的最优特征值进行非线性变换,获得所述句子上下文向量,具体为:
所述卷积层对所有词语的最优特征值进行双曲正切变换,获得所述句子上下文向量。
8.根据权利要求1所述的方法,其特征在于,所述事件主体特征为名词动词对向量,所述获取所述目标新闻资讯文本的事件主体特征,具体包括:
采用依存分析工具获取所述目标新闻资讯文本中各词语的依存关系;
选取第三预设个数的有依存关系的名词和动词形成名词动词对;
将名词动词对中的名词和动词进行词向量化处理,获得名词动词对向量。
9.根据权利要求1所述的方法,其特征在于,所述用户搜索行为特征为资讯访问量向量,所述获取所述目标新闻资讯文本的用户搜索行为特征,具体包括:
计算所述目标新闻资讯文本与预设范围内新闻资讯文本的相似度;
获取所述目标新闻资讯文本和相似度大于预设相似阈值的新闻资讯文本的链接点击次数;
将所述链接点击次数对应的向量确定为资讯访问量向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811509289.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中文分词和大数据信息检索方法及装置
- 下一篇:语病修正推荐方法及系统