[发明专利]文字信息处理方法、装置及终端有效
申请号: | 201810162656.1 | 申请日: | 2018-02-27 |
公开(公告)号: | CN108536669B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 张志伟;杨帆 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/903 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种文字信息处理方法、装置及终端,其中,所述方法包括:确定待处理文字信息对应的拼音字符串;采用N元组算法将所述拼音字词串,转化成包含多个字符串元素的字符串集合;确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数;依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征。由于本发明实施例中采样拼音哈希空间表征词库中的单词,对于未出现在词库中的单词具有良好的鲁棒性。 | ||
搜索关键词: | 字符串元素 文字信息 拼音 文字信息处理 字符串集合 哈希向量 索引位置 词库 单词 终端 拼音字符串 哈希空间 连续特征 神经网络 鲁棒性 拼音字 字符串 总集合 采样 词串 算法 嵌入 转化 | ||
【主权项】:
1.一种文字信息处理方法,其特征在于,所述方法包括:确定待处理文字信息对应的拼音字符串;采用N元组算法将所述拼音字符串,转化成包含多个字符串元素的字符串集合;确定所述字符串集合中各字符串元素,在字符串总集合中的索引位置和出现次数,其中,对词库中的各单词使用N‑gram算法转换后得到所述字符串总集合;依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量;通过嵌入神经网络对所述拼音哈希向量进行处理,得到待处理文字信息对应的连续特征;其中,所述依据各所述字符串元素对应的索引位置和出现次数,生成所述待处理文字信息对应的拼音哈希向量的步骤,包括:生成一个与所述字符串总集合等维度的全零向量;针对每个索引位置,确定所述索引位置在所述全零向量中对应的维度,将所述维度的数值调整为所述索引位置对应的出现次数,生成所述待处理文字信息对应的拼音哈希向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810162656.1/,转载请声明来源钻瓜专利网。