[发明专利]一种基于卷积网络在中文分词任务上的领域迁移有效
申请号: | 201910487638.5 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110196980B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 李思;李明正;孙忆南;徐雅静;陈光;王蓬辉;周欣雅 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 网络 中文 分词 任务 领域 迁移 | ||
本发明提供了一种基于卷积网络在中文分词任务上的领域迁移方法,在用于中文分词任务的卷积神经网络的基础上,通过在传统的用于计算不同领域分布差异的最大化平均差异Maximum Mean Discrepancy方法中,引入注意力机制attention mechanism,使得在训练神经网络的过程中,注意力机制能够获得对于领域迁移任务更具有帮助的语句信息,将最大化平均差异方法更好的引入到序列标注任务中;同时,在计算最大化平均差异的过程中,为能够正向迁移的语句添加较大的权重,而为没有帮助的语句或是反而产生负面影响的语句添加很小的权重,实现更高效的领域迁移,减少人工语料的标注,缓解自然语言处理NLP研究时由于标注语料工作带来的人工和时间的压力。
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于卷积网络在中文分词任务上的领域迁移。
背景技术
随着计算机技术发展,计算机算力逐渐加强,机器学习、深度学习技术进一步得到发展,自然语言处理逐渐应用到各个场景,例如利用文本分类技术在电影评论、购物的商品评论中挖掘用户偏好、利用摘要生成技术对新闻等文章进行归纳总结,或是通过机器翻译技术,实现同步翻译等。大量的应用场景需要技术,同时随着国内互联网用户的增加,其产生的信息也越来越多。对于海量数据,自动化处理文本信息更凸显其重要意义。因此,由于自然语言处理技术的不可代替及其对于文本处理的超高效率,受到社会广泛关注。对于国内而言,中文的处理与我们息息相关。中文自动分词技术,作为自然语言处理的基础任务,其发展对于其他自然语言处理更为关键。
中文分词任务即将中文句子或段落,按照词语进行分割,从而使得在更高层的自然语言处理任务中,对于中文的处理能够通过词语带来的更多信息提升性能。之所以要中文分词,是因为现代汉语中,一个含有具体意义的词语通常由两个或两个以上字符表示,而不能通过简单的中文字符来理解。在中文中经常出现同一个字符在不同词语中的意义不同的情况。因此,在进行其他自然语言处理任务的时候,需要且有必要先对中文进行分词处理。特别对于词性标注、命名实体识别等偏低层的自然语言处理任务,其对于分词处理的依赖更大。中文分词的准确性将直接影响到这些任务性能的优劣。
中文分词任务即通过某种算法,使计算机自动地对汉语文本进行处理,将词与词分割。用于中文分词的传统方法包括正向最大匹配、反向最大匹配算法、加入概率消歧的分词算法、条件随机场、结构化感知器及最大熵模型等。近年来发展的深度学习方法中前馈神经网络、长短期记忆神经网络、卷积神经网络都被应用到中文分词任务上并在几个大型的语料库上获得了较高的准确率。
神经网络方法需要利用大规模标注的数据。然而现有的大规模语料数据只包含了新闻领域方面,而在专利、文学以及医学领域的大规模语料几乎没有,这也导致了现有的神经网络技术难以在这些领域上取得较高的准确率。因此,近年来领域迁移的方法被应用到中文分词任务上,旨在通过利用现有大规模标注语料来帮助提升没有标注语料或是只有少量标注语料领域的中文分词准确率。在领域迁移中,具有大规模标注的语料被称为源领域数据,没有标注或只有少量标注的语料被称为目标领域数据。同时,利用无标注的目标领域数据的领域迁移被称为无监督领域迁移,利用少量标注的目标领域数据的领域迁移被称为半监督领域迁移。
现有用于中文分词的领域迁移技术,一部分方法是基于词典,利用训练好的词向量和字向量实现领域迁移;另一部分方法则是通过改变模型直接对可迁移信息进行建模,通过提取大规模标注语料中可迁移特征信息,实现领域迁移。
如图1所示,现有技术之一的“Learning Transferable Features with DeepAdaptation Networks”文章中,提到用深度自适应网络(Deep Adaptation Networks)解决在图片分类的领域迁移问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910487638.5/2.html,转载请声明来源钻瓜专利网。