[发明专利]社交媒体数据处理方法、模型训练方法及相关装置有效
申请号: | 201910629775.8 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110472063B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 王李鹏 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06Q50/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 吴迪 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交 媒体 数据处理 方法 模型 训练 相关 装置 | ||
本发明实施例涉及自然语言处理技术领域,提供一种社交媒体数据处理方法、模型训练方法及相关装置,先将获取到的社交媒体数据预处理为多个待识别序列;再将每一待识别序列输入训练后的实体识别模型,先利用嵌入层得到待识别序列的嵌入序列,之后将嵌入序列输入动态神经网络层进行多轮特征提取及序列预测,得到动态神经网络层输出的所有实体序列,再根据所有实体序列得到待识别序列中的所有基本实体和嵌套实体;最后依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。与现有技术相比,本发明实施例能够得到社交媒体数据中的所有基本实体和嵌套实体,进而帮助人们快速知晓当前社会的最新动态及热点事件。
技术领域
本发明实施例涉及自然语言处理技术领域,具体而言,涉及一种社交媒体数据处理方法、模型训练方法及相关装置。
背景技术
随着信息时代的到来,各种社交媒体大量涌现,例如,社交网站、微博、微信、博客、论坛、百科等。人们越来越习惯于通过各种社交媒体即时获取和分享信息,社交媒体每天都会产生海量数据,涉及政治、经济、军事、娱乐、生活等各个领域。对这些数据进行分析,可以帮助人们快速感知社会热点。
命名实体识别(Named Entity Recognition)是指从文本中识别出人名、地名、组织机构名等专有名称以及有意义的时间、日期等数量短语。命名实体识别是对社交媒体数据进行分析的基础,其能够帮助人们快速知晓当前社会的最新动态及热点事件。
通常,社交媒体数据中除了基本实体,还会包含大量嵌套实体,嵌套实体会包含两层甚至多层基本实体,例如,“黔南布依族苗族自治州”是一个嵌套实体,其中“黔南”和“布依族苗族自治州”是基本实体。现有的方法可以较好地识别出基本实体,但是很难同时识别出完整的嵌套实体,导致识别的准确度不足。
发明内容
本发明实施例的目的在于提供一种社交媒体数据处理方法、模型训练方法及相关装置,用以提高社交媒体数据的实体识别准确度。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种社交媒体数据处理方法,所述方法包括:获取社交媒体数据,并对所述社交媒体数据进行预处理,得到多个待识别序列;将每一待识别序列输入训练后的实体识别模型,所述实体识别模型包括嵌入层及动态神经网络层;利用所述嵌入层得到所述待识别序列的嵌入序列,所述嵌入序列包括所述待识别序列中每个词的嵌入向量;将所述嵌入序列作为输入序列输入所述动态神经网络层进行特征提取及序列预测,输出实体序列,其中,所述实体序列包括多个实体信息;在当前输出的实体序列中所有的实体信息未全部表征非实体时,依据当前输出的实体序列重新确定输入序列,并重复执行将所述输入序列输入所述动态神经网络层进行特征提取及序列预测的步骤,直至当前输出的实体序列中所有的实体信息均表征非实体,得到所述动态神经网络层输出的所有实体序列;依据所有实体序列,生成所述待识别序列对应的实体结果,其中,所述实体结果包括所述待识别序列中的所有基本实体和嵌套实体;依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。
第二方面,本发明实施例还提供了一种模型训练方法,所述方法包括:获取训练样本及所述训练样本对应的多个标注结果,所述训练样本是从社交媒体中获得的文本数据;将所述训练样本输入预先建立的实体识别模型,所述实体识别模型包括嵌入层及动态神经网络层;利用所述嵌入层得到所述训练样本的嵌入序列,所述嵌入序列包括所述训练样本中每个词的嵌入向量;将所述嵌入序列作为输入序列输入所述动态神经网络层进行特征提取及序列预测,输出预测结果;在当前输出的预测结果不满足预设条件时,依据当前输出的预测结果重新确定输入序列,并重复执行将所述输入序列输入所述动态神经网络层进行特征提取及序列预测的步骤,直至当前输出的预测结果满足预设条件,得到所述动态神经网络层输出的所有预测结果,所有预测结果和多个标注结果一一对应;依据所述所有预测结果和所述多个标注结果,对所述实体识别模型进行参数更新,得到训练后的实体识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629775.8/2.html,转载请声明来源钻瓜专利网。