[发明专利]融合依存句法信息和卷积神经网络的越南语新闻事件检测方法在审

专利信息
申请号: 201910635489.2 申请日: 2019-07-15
公开(公告)号: CN110377738A 公开(公告)日: 2019-10-25
发明(设计)人: 余正涛;刘畅;高盛祥;张亚飞;王吉地;王振晗;郭军军 申请(专利权)人: 昆明理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F17/27
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 李晓亚
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新闻事件检测 句法信息 融合 卷积神经网络 越南语 卷积编码 自然语言处理技术 编码过程 词性信息 句子级别 命名实体 设置事件 事件编码 事件检测 新闻事件 新闻文本 训练数据 词义 非连续 标注 检测
【权利要求书】:

1.融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:

所述检测方法的具体步骤如下:

Step1、语料收集:收集用于越南语事件检测新闻文本,对新闻文本进行去重与筛选;

Step2、构建语料库:通过越南语事件检测的标注体系,根据越南语的语言特点以及事件检测的需求对越南文新闻文本进行标记,将标记好的越南语新闻语料分为训练语料、测试语料和验证集;

Step3、文本向量化:训练越南语词向量,融合句中词序列的词向量、位置向量、词性向量和实体类型向量作为模型输入;

Step4、构建事件类别检测模型:在步骤Step3的基础上,采用卷积神经网络和融合依存句法信息的卷积神经网络,获取新闻事件句编码,训练事件检测分类模型,实现汉越双语新闻事件类型检测;

Step5、事件类型检测:对需要识别汉越双语新闻事件句进行编码,然后将提取新闻事件句的特征向量作为分类模型的输入向量,通过分类模型得到最终的分类结果。

2.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step1中,使用Scrapy作为爬取工具,模仿用户操作,为越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取如新闻标题、新闻时间、新闻正文。

3.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step2中,新闻事件文本由触发词和参数组成,触发词能清楚的表达一类事件发生,触发事件的主要词通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;标注体系采用了XML的可扩展标记语言组织文本,分别对触发词、参数、事件类别进行标记,将收集到的越南语新闻文本进行标记,建立越南语新闻事件检测数据集。

4.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step3中,采用skip-gram语言模型的方法训练越南语词向量,分别构建位置嵌入表、词性嵌入表、实体类型嵌入表将位置信息、词性信息、实体类型信息嵌入到向量中。

5.根据权利要求1所述的融合依存句法信息和卷积神经网络的越南语新闻事件检测方法,其特征在于:所述步骤Step4中,采用传统的多核卷积编码句中连续词之间的语义信息,同时采用融合依存句法信息的卷积编码句中非连续词之间的语义信息,融合两部分的语义信息作为当前句子的语义信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910635489.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top