[发明专利]基于自编码器的变体词识别方法及系统在审
申请号: | 201810252275.2 | 申请日: | 2018-03-26 |
公开(公告)号: | CN110362807A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 沙灜;游绩榕;梁棋;李锐;邱泳钦;王斌 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/06;G06N3/08 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码器 神经元 神经网络 编码单元 数据集中 向量化 识别系统 负样本 候选词 数据集 正样本 分词 文档 语料 样本 关联 监督 | ||
本发明提供一种基于自编码器的变体词识别方法,其步骤包括:将与变体词有关的语料作为数据集,进行分词和向量化;从数据集中生成批量样本,输入到自编码器的各自编码单元中进行非监督的预训练,得到各自编码单元神经网络的神经元参数;从数据集中生成批量正样本和负样本,输入到基于上述各自编码单元神经网络的神经元参数的自编码器中进行监督训练,得到整个神经网络的各神经元参数;将文档中包含的某已知变体词及其上下文向量化,再输入到基于上述整个神经网络的各神经元参数的自编码器中,识别出与该已知变体词关联的候选词。本发明还提供一种基于自编码器的变体词识别系统。
技术领域
本发明涉及人工智能文本分析领域,具体涉及一种基于自编码器的变体词识别方法及系统。
背景技术
变体词就是网络语言作为一种不规范语言的显著特色,人们往往出于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变体词(Morph)。变体词和其对应的原来的词(目标实体词)会分别在非规范文本和规范文本中共存,甚至变体词会渗透到规范文本中。变体词使行文更加生动活泼,相关事件、消息也传播得更加广泛。但是因为变体词通常是某种隐喻,已不再是其表面字词的意义了,从而使网络上文体与正式文本(如新闻)具有巨大的差异。由此,如何识别出这些变体词以及其所对应的目标实体词的问题,对于下游的自然语言处理技术具有重要的意义。
深度学习(deep learning)是机器学习的一个分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征,因此被广泛应用于各个人工智能领域。
当前对变体词进行识别的方法主要有两种:
1、基于规则的识别和规范化方法,即使用精确匹配、分类器等方法构造规则来识别变体词。主要手段包括将某特殊字符转化成形状相似的字母,然后再进行检测;对关键词进行同音字替换或拼音替换、对关键词进行拆分;从语音相似和字形相似等角度来计算不良文本变体的相似度;以标准汉语语料库为基础建立了汉字的语音映射模型,对信源/信道模型进行扩展(eXtended Source Channel Model,XSCM),然后基于汉字语音之间的相似度进行替换等等。
2、基于统计和规则的识别和规范化方法,即对首先提取统计特征和基于规则的特征,通过分类实现中文非规范词的规范化。主要的技术方案包括通过分类实现中文非规范词的规范化、基于隐马尔可夫模型的文本规范化方法、通过构建规范化词典用于文本规范化任务等等。规则驱动提取的特征包括:两者拼音之间的Levenshtein距离、两者拼音之间不同字符数、非规范词是否是规范词的拼音缩写等。
上述的基于规则的识别和规范化方法受限于人工定义的规则,效率较低,适用面较窄。上述的基于统计和规则的识别和规范化方法虽然使用统计学习的方法,但是仍然依赖大量的人工工作进行特征工程,效率有限,灵活性较低。具体来说,基于规则的识别和规范化方法由于变体词本身就是“反规则”“反语言”的,规则变化的速度远超过人工分析。此外,有大量根据目标词深层语义变形的变体词,我们很难用规则和统计处理变体词规范化任务。基于统计和规则的识别和规范化方法本质上仍然是规则驱动的,需要提取人工进行大量特征工程,效率有限,灵活性较低,鲁棒性较差,长期来说,维护升级的工作量巨大。
发明内容
本发明的目的是提出一种基于自编码器的变体词识别方法及系统,本方法采用自编码器先进行无监督预训练、后进行监督训练,可以在很少的人工干预下自动地从大量语料中提取所需的特征,然后进行判别,解决了语料较少导致的问题,使得神经网络能够使用在变体词识别任务上。
为达到上述目的,本发明采用如下技术方案:
一种基于自编码器的变体词识别方法,其步骤包括:
将与变体词有关的语料作为数据集,进行分词得到词项,对词项进行向量化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810252275.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于大数据的个性化作业布置系统
- 下一篇:文本分析方法及装置