[发明专利]一种模型训练方法及命名实体识别方法有效
申请号: | 201810685795.2 | 申请日: | 2018-06-28 |
公开(公告)号: | CN110728147B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 王宗宇;王涛;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/28;G06Q30/0601 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 命名 实体 识别 | ||
本申请实施例公开了一种模型训练方法及命名实体识别方法。所述模型训练方法包括:利用多个第一历史产品描述信息与所述第一历史产品描述信息对应的品类信息之间的对应关系训练得到第一深度学习模型组件,所述品类信息被设置为利用机器学习模型组件预测得到;基于所述第一深度学习模型组件,利用人工标注的样本数据训练得到第二深度学习模型组件;分别利用第一深度学习模型组件和第二深度学习模型组件生成多个训练数据,并利用所述多个训练数据训练生成第三深度学习模型组件,所述第三深度学习模型组件用于识别产品描述信息中的品类信息。利用本申请的技术方案,可以在低成本的基础上,训练得到能够准确识别产品描述信息中品类信息的模型组件。
技术领域
本申请涉及数据处理技术领域,特别涉及一种模型训练方法及命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理(NaturalLanguage Processing,NLP)里的一项基础任务,目的是从文本中识别出命名性对象,为关系抽取等任务做铺垫。狭义上,命名实体识别是指识别出人名、地名和组织机构名这三类命名实体(时间、货币名称等构成规律明显的实体类型可以用正则等方式识别)。当然,在特定领域中,会相应地定义领域内的各种实体类型。典型的,例如在电商领域中,标题和搜索词中的实体识别是重要的基础工作。在搜索业务场景中,通过准确的识别标题中的产品词、品牌词等实体词可以提高搜索的质量。在翻译业务场景中,对实体的识别并针对性地翻译可以提升翻译的效果。在推荐业务场景中,通过对用户的搜索词进行实体识别,可以有效地推荐商品。因此,NER作为NLP基础技术中的重要模块,是电商技术的基础。
现有技术中,目前主要有三种命名实体的识别方法,分别是基于规则和词表的方法、基于统计机器学习的方法和基于神经网络的方法。
基于规则和词表的方法
基于规则的方法多采用语言学专家手工构造规则,利用手工编写的规则,将文本与规则进行匹配来识别出命名实体。例如,对于中文来说,“说”、“老师”等词语可作为人名的下文,“大学”、“医院”等词语可作为组织机构名的结尾,还可以利用到词性、句法信息。
基于统计机器学习的方法
基于统计机器学习的方法主要包括隐马尔可夫模型(HMM)、最大熵(ME)、支持向量机(SVM)、条件随机场(CRF)等。基于统计机器学习的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的多种特征,并将这些特征加入到特征模板中。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。
基于神经网络的方法
近年来,随着硬件能力的发展以及词的分布式表示,如词嵌入(word embedding)的出现,神经网络成为可以有效处理许多NLP任务的模型。这类方法对于序列标注任务(如CWS、POS、NER)的处理方式是类似的,将标记从离散独热码表示映射到低维空间中成为稠密的词嵌入,随后将句子的词嵌入序列输入到循环神经网络(RNN)中,用神经网络自动提取特征,逻辑回归函数来预测每个标记的标签。这种方法使得模型的训练成为一个端到端的整体过程,不依赖于特征工程,是一种数据驱动的方法。
综上所述,现有技术中命名实体识别的几类方式均存在各自的技术问题,包括但不限于:
一、基于规则和词表的方法在构建规则的过程中往往需要大量的语言学知识,不同语言的识别规则不尽相同,而且需要谨慎处理规则之间的冲突问题;此外,构建规则的过程费时费力、可移植性不好;
二、基于统计机器学习的方法对特征选取的要求较高,若不能挖掘出有效的特征,则不能获取较好的学习效果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810685795.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:舆情发现方法、装置、终端设备以及存储介质
- 下一篇:实体关系抽取方法和装置