[发明专利]社交媒体数据处理方法、模型训练方法及相关装置有效
申请号: | 201910629775.8 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110472063B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 王李鹏 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06Q50/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 吴迪 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例涉及自然语言处理技术领域,提供一种社交媒体数据处理方法、模型训练方法及相关装置,先将获取到的社交媒体数据预处理为多个待识别序列;再将每一待识别序列输入训练后的实体识别模型,先利用嵌入层得到待识别序列的嵌入序列,之后将嵌入序列输入动态神经网络层进行多轮特征提取及序列预测,得到动态神经网络层输出的所有实体序列,再根据所有实体序列得到待识别序列中的所有基本实体和嵌套实体;最后依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。与现有技术相比,本发明实施例能够得到社交媒体数据中的所有基本实体和嵌套实体,进而帮助人们快速知晓当前社会的最新动态及热点事件。 | ||
搜索关键词: | 社交 媒体 数据处理 方法 模型 训练 相关 装置 | ||
【主权项】:
1.一种社交媒体数据处理方法,其特征在于,所述方法包括:/n获取社交媒体数据,并对所述社交媒体数据进行预处理,得到多个待识别序列;/n将每一待识别序列输入训练后的实体识别模型,所述实体识别模型包括嵌入层及动态神经网络层;/n利用所述嵌入层得到所述待识别序列的嵌入序列,所述嵌入序列包括所述待识别序列中每个词的嵌入向量;/n将所述嵌入序列作为输入序列输入所述动态神经网络层进行特征提取及序列预测,输出实体序列,其中,所述实体序列包括多个实体信息;/n在当前输出的实体序列中所有的实体信息未全部表征非实体时,依据当前输出的实体序列重新确定输入序列,并重复执行将所述输入序列输入所述动态神经网络层进行特征提取及序列预测的步骤,直至当前输出的实体序列中所有的实体信息均表征非实体,得到所述动态神经网络层输出的所有实体序列;/n依据所有实体序列,生成所述待识别序列对应的实体结果,其中,所述实体结果包括所述待识别序列中的所有基本实体和嵌套实体;/n依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910629775.8/,转载请声明来源钻瓜专利网。