[发明专利]基于分布式平台的行业文本实体提取方法有效
申请号: | 201710902720.0 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107908642B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 武克杰;周书勇 | 申请(专利权)人: | 江苏华通晟云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴;丁浩秋 |
地址: | 215000 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布式平台的行业文本实体提取方法,包括:采用深度学习神经网络训练文本数据集得到关系特征模型;将提取的关系特征生成多个弹性分布式关系特征数据集RDD;将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;判断相应语境文的本数量是否超过设定阈值,若超过阈值时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。可以处理不同语境下的文本特征实体,有效提高了实体提取的效率以及提取实体准确率。 | ||
搜索关键词: | 基于 分布式 平台 行业 文本 实体 提取 方法 | ||
【主权项】:
一种基于分布式平台的行业文本实体提取方法,其特征在于,包括以下步骤:S01:采用深度学习神经网络训练文本数据集得到关系特征模型,并通过关系特征模型提取目标文本中的关系特征;S02:将提取的关系特征生成多个弹性分布式关系特征数据集RDD;S03:将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;S04:根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;S05:判断相应语境文的本数量是否超过设定阈值T,若超过阈值T时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华通晟云科技有限公司,未经江苏华通晟云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710902720.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于LCD液晶显示屏的FPC板
- 下一篇:一种柔性印刷电路板