[发明专利]一种文本处理方法、装置以及计算设备有效
申请号: | 201811375414.7 | 申请日: | 2018-11-19 |
公开(公告)号: | CN111274793B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 包祖贻;徐光伟;李辰;刘恒友;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06N3/08;G06F16/332 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 刘静 |
地址: | 开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 以及 计算 设备 | ||
1.一种文本处理方法,包括:
基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;
将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率,
其中,所述单字为汉字,相应地,基于词语中汉字的笔画信息,生成笔画向量矩阵,包括:
对词语中包括的各汉字进行笔画分解;
分别将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵其中,
其中,所述分别将各汉字的各笔画转换为笔画向量,包括:
将汉字的各笔画组合成n-gram集合;
对于每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n;
分别将笔画的各j-gram元素映射为第一向量,并将各第一向量拼接为该笔画对应的笔画向量。
2.如权利要求1所述处理方法,所述词语包括中文词、日文词和韩文词中的至少一个。
3.如权利要求1所述的处理方法,其中,所述分别将笔画的各j-gram元素映射为笔画向量,包括:
对于每个j-gram元素,通过预设的映射矩阵将该j-gram元素映射为第一向量。
4.如权利要求2所述的处理方法,还包括:
获取目标词表中各中文词的词向量;
基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值。
5.如权利要求4所述的处理方法,其中,所述基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值,包括:
对于每个词向量,将该词向量与隐藏层表示进行点积,得到二者的相似度值;
对相似度值进行softmax函数处理,得到该词向量所表示的中文词对应的概率值。
6.如权利要求4所述的处理方法,其中,所述中文词序列为待纠错词的上文,所述目标词表为待纠错词对应的候选词构成的集合。
7.如权利要求6所述的处理方法,还包括:输出预定数目个概率值最大的候选词,作为纠错词。
8.如权利要求2所述的处理方法,还包括:
获取第一中文词序列对应的第一隐藏层表示和第二中文词序列对应的第二隐藏层表示;
基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度。
9.如权利要求8所述的处理方法,其中,所述基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度,包括:
对第一隐藏层表示和第二隐藏层表示进行点积,并对点积结果进行sigmoid函数处理,得到文本相似度概率值。
10.如权利要求1所述的处理方法,其中,所述第一神经网络包括卷积神经网络。
11.如权利要求1所述的处理方法,其中,所述第二神经网络包括循环神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811375414.7/1.html,转载请声明来源钻瓜专利网。