[发明专利]文字信息处理方法、装置及终端有效
申请号: | 201810162656.1 | 申请日: | 2018-02-27 |
公开(公告)号: | CN108536669B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 张志伟;杨帆 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/903 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串元素 文字信息 拼音 文字信息处理 字符串集合 哈希向量 索引位置 词库 单词 终端 拼音字符串 哈希空间 连续特征 神经网络 鲁棒性 拼音字 字符串 总集合 采样 词串 算法 嵌入 转化 | ||
1.一种文字信息处理方法,其特征在于,所述方法包括:
确定待处理文字信息对应的拼音字符串;
采用N元组算法将所述拼音字符串,转化成包含多个字符串元素的字符串集合;
确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数,其中,对词库中的各单词使用N-gram算法转换后得到所述字符串总集合;
依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;
通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征;
其中,所述依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量的步骤,包括:
生成一个与所述字符串总集合等维度的全零向量;
针对每个索引位置,确定所述索引位置在所述全零向量中对应的维度,将所述维度的数值调整为所述索引位置对应的出现次数,生成所述待处理文字信息对应的拼音哈希向量。
2.根据权利要求1所述的方法,其特征在于,所述采用N元组算法将所述拼音字符串,转化成包含多个字符串元素的字符串集合的步骤,包括:
从所述拼音字符串的首字符起,按照预设步长和窗口尺寸对所述拼音字符串进行滑窗处理,得到包含多个字符串元素的字符串集合。
3.根据权利要求1所述的方法,其特征在于,所述字符串总集合通过如下方式生成:
将词库中的各单词分别转换成拼音字符串;
分别为各单词对应的拼音字符串前后添加占位符,生成字符串元素;其中,各单词对应的字符串元素组成第一字符串集合;
针对所述第一字符串集合中的各字符串元素,采用N元组算法将所述拼音字符串,转化成包含多个字符串元素的第二字符串集合;
将第二字符串集合求并集,得到字符串总集合。
4.一种文字信息处理装置,其特征在于,所述装置包括:
确定模块,被配置为确定待处理文字信息对应的拼音字符串;
转化模块,被配置为采用N元组算法将所述拼音字符串,转化成包含多个字符串元素的字符串集合;
参数确定模块,被配置为确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数,其中,对词库中的各单词使用N-gram算法转换后得到所述字符串总集合;
生成模块,被配置为依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;
处理结果确定模块,被配置为通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征;
其中,所述生成模块包括:
向量生成子模块,被配置为生成一个与所述字符串总集合等维度的全零向量;
调整子模块,被配置为针对每个索引位置,确定所述索引位置在所述全零向量中对应的维度,将所述维度的数值调整为所述索引位置对应的出现次数,生成所述待处理文字信息对应的拼音哈希向量。
5.根据权利要求4所述的装置,其特征在于,所述转化模块具体被配置为:
从所述拼音字符串的首字符起,按照预设步长和窗口尺寸对所述拼音字符串进行滑窗处理,得到包含多个字符串元素的字符串集合。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:字符串总集合生成模块,被配置为:
将词库中的各单词分别转换成拼音字符串;
分别为各单词对应的拼音字符串前后添加占位符,生成字符串元素;其中,各单词对应的字符串元素组成第一字符串集合;
针对所述第一字符串集合中的各字符串元素,采用N元组算法将所述拼音字符串,转化成包含多个字符串元素的第二字符串集合;
将第二字符串集合求并集,得到字符串总集合。
7.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如权利要求1至3中任一项所述的文字信息处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序被处理器执行时实现如权利要求1至3中任一项所述的文字信息处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810162656.1/1.html,转载请声明来源钻瓜专利网。