[发明专利]数据处理方法、装置和设备有效

申请号：	201910164814.1	申请日：	2019-03-05
公开（公告）号：	CN111666766B	公开（公告）日：	2023-06-20
发明（设计）人：	包祖贻;李辰;刘恒友;徐光伟;李林琳	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F16/35
代理公司：	北京太合九思知识产权代理有限公司 11610	代理人：	孙明子
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种数据处理方法、装置和设备，该方法包括：接收属于第一领域的语句；根据已训练好的语言模型获取语句对应的语义表示向量序列；将该语义表示向量序列输入到已训练好的序列标注模型，以得到语句中包含的命名实体；根据命名实体对语句进行相应处理；其中，语言模型是根据第一领域对应的第一样本集和第二领域对应的第二样本集进行无监督训练得到的，序列标注模型是根据第二领域对应的第三样本集进行有监督训练得到的。由于基于语言模型提取到的语句中各个词语的语义表示具有跨领域消歧的能力，以该语言模型作为桥梁，将属于第二领域的海量语料样本迁移到第一领域中以训练序列标注模型，可以提高命名实体识别结果的准确性。

技术领域

本发明涉及互联网技术领域，尤其涉及一种数据处理方法、装置和设备。

背景技术

命名实体识别是自然语言处理领域中的一个基本的问题，属于序列标注问题的范畴。简单来说命名实体识别问题就是将一段文本序列中包含的我们感兴趣的命名实体识别出来并加以归类，例如人名，地名和机构名等。命名实体识别技术是关键词抽取，信息检索，机器翻译，问答系统等多种自然语言处理应用场景必不可少的组成部分。

由于命名实体识别属于序列标识问题的范畴，因此，可以通过训练序列标注模型，以该序列标注模型对输入的语句进行命名实体标注从而实现识别该语句中包含的命名实体的目的。目前，一般会针对特定的某个应用领域训练用于该应用领域的序列标注模型，而且，序列标注模型的训练多采用有监督训练的方式进行。在有监督训练方式下，需要人工预先进行大量语料样本的标注，即获取属于某个应用领域的若干语料样本，根据设定的命名实体标签集合对每个语料样本中包含的词语进行标注，以标记其中的某个词语是否对应于某个命名实体标签。

实际应用中，针对某些应用领域，能够获得的语料样本数量可能较少，而样本数量不充分会导致训练得到的序列标注模型的准确性较差，从而最终影响命名实体识别结果的准确性。

发明内容

本发明实施例提供一种数据处理方法、装置和设备，用以提高命名实体识别结果的准确性。

第一方面，本发明实施例提供一种数据处理方法，该方法包括：

接收属于第一领域的语句；

根据语言模型获取所述语句对应的语义表示向量序列；

将所述语句对应的语义表示向量序列输入到序列标注模型，以得到所述语句中包含的命名实体；

根据所述命名实体对所述语句进行相应处理；

其中，所述语言模型是根据所述第一领域对应的第一样本集和第二领域对应的第二样本集进行训练得到的，所述序列标注模型是根据所述第二领域对应的第三样本集进行训练得到的。

第二方面，本发明实施例提供一种数据处理装置，该装置包括：

接收模块，用于接收属于第一领域的语句；

识别模块，用于根据语言模型获取所述语句对应的语义表示向量序列；将所述语句对应的语义表示向量序列输入到序列标注模型，以得到所述语句中包含的命名实体；