[发明专利]一种多频道联合处理方法和装置在审
申请号: | 202010047500.6 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111274392A | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 宋彦;田元贺;王咏刚 | 申请(专利权)人: | 创新工场(广州)人工智能研究有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/253 |
代理公司: | 北京启坤知识产权代理有限公司 11655 | 代理人: | 李琛 |
地址: | 510700 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 频道 联合 处理 方法 装置 | ||
本申请实施例的目的是提供一种用于分词和词性标注系统的多频道联合处理方法和装置。申请实施例提供的方法包括以下步骤:获取输入序列中包含的字序列和字序列对应的长度信息;根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;通过在各个频道中,分别针对不同长度的字序列集合对于联合标签的贡献大小分别建模并进行加权计算,得到各个频道对应的针对特定长度的加权字序列向量;通过将各个频道对应的长度加权向量进行加权串联,得到输入序列对应的加权字序列向量,其中,所述加权字序列向量用于反映输入序列包含的不同长度的不同字序列集合对于联合标签的贡献。
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于分词和词性标注系统的多频道联合处理方法。
背景技术
中文分词和词性标注的联合任务(Joint Chinese Word Segmentation andPart-of-speech Tagging),指把分词和词性标注视为一个联合任务,即对输入的中文字序列,同时进行分词和词性标注,而不是先分词,再对分词的结果进行词性标注。
现有技术的方案中,面向中文分词和词性标注的联合任务的技术可以分为基于特征的传统方法和深度学习方法。
基于特征的方法指,通过人工设计、选取特征的方法,对输入文本进行特征提取,基于这些特征对当前字的联合标签进行判断。常用的特征包括当前字、前字、后字等。然而,这种方法的效果高度依赖于人工设计、提取的特征的质量,而设计高质量的特征提取方法非常困难。此外,特征提取的方法,对于因句意不同而造成的歧义,并没有相应的解决办法。
近年来,深度学习方法被逐渐应用在中文分词中。该方法能够依据具体任务的特点,自动实现对文本特征的提取,免去了人工设计、提取特征的巨大成本。深度学习的识别效果远远超过了单纯的传统方法。一般来讲,基于深度学习的联合任务的系统均以基本的序列标注模式为基础,具体包括以下三个模块输入嵌入层、上下文信息编码层和解码输出层。
其中,输入嵌入层把输入的文本中的每个字,以及与这个字相关的n-gram(即长度为n的字序列),分别映射到高维连续空间的字向量,以及n-gram向量,并把字向量与n-gram向量直接串联(concatenate),得到一个新的字向量,并用这个新的字向量代表这个字的特征。上下文信息编码层在字向量的基础之上,提取每个字的上下文的信息,计算其它字的字向量对其的影响。该层的输入为嵌入层的输出(即一句话中的不同字的字向量),输出为经过上下文编码的不同字向量。解码输出层对经过上下文信息提取后的每一个字向量解码,输出预测的联合标签。
然而,基于现有技术的方案在把n-gram向量与字向量串联时,没有考虑不同n-gram对该字的联合标签的贡献的差异,这会使得那些贡献小的n-gram误导模型去预测错误的联合标签。例如,对于以下语句:
(1)教育部分析数据-教育部_NN/分析_VV/数据_NN
(2)教育部分学生-教育_VV/部分_CD/学生_NN
其中,n-gram“教育部”在(1)中对联合标签的作用更大,而其在(2)中的作用则较小。如果不区分“教育部”在不同上下文下的贡献的话,那么,这个n-gram将会误导模型做出错误的联合标签预测。
发明内容
本申请实施例的目的是提供一种用于分词和词性标注系统的多频道联合处理方法和装置。
本申请实施例提供的一种用于分词和词性标注系统的多频道联合处理方法,其中,所述方法包括以下步骤:
获取输入序列中包含的字序列和字序列对应的长度信息;
根据所述长度信息将各个字序列对应于多个频道,使得相同长度的字序列集合对应于一个频道;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010047500.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机通讯设备抗干扰装置
- 下一篇:一种计算机网络身份验证系统