[发明专利]中文字符和拼音相结合的词向量表示方法、装置、介质在审
申请号: | 202011356716.7 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112464655A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 姚金良;胡创;王荣波;谌志群;黄孝喜 | 申请(专利权)人: | 绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 312399 浙江省绍兴市上虞区曹娥*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 字符 拼音 相结合 向量 表示 方法 装置 介质 | ||
1.一种中文字符和拼音相结合的词向量表示方法,其特征在于,步骤如下:
S11:使用拼音转换工具将待转换为词向量表示的中文文本中每个中文字符转化为拼音;
S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示x1;
S13:针对中文文本中每个中文字符的拼音,利用预训练的拼音词嵌入模型,得到拼音的词向量表示x2;
S14:针对中文文本中每个中文字符,融合其对应的中文字符的词向量表示和拼音的词向量表示,得到字符融合表示向量x=[x1,x2]。
2.如权利要求1所述中文字符和拼音相结合的词向量表示方法,其特征在于,所述中文字符词嵌入模型和拼音词嵌入模型各自独立进行训练,使其能分别将中文字符和拼音转换为词向量表示。
3.如权利要求1所述中文字符和拼音相结合的词向量表示方法,其特征在于,所述中文字符词嵌入模型和拼音词嵌入模型为基于Skip-Gram的word2vec模型,模型输入数据预先转换为one-hot向量表示。
4.如权利要求1所述中文字符和拼音相结合的词向量表示方法,其特征在于,每个中文字符可预先转换为所述字符融合表示向量,并将中文字符和字符融合表示向量关联保存于字典中;待转换为词向量表示的中文字符,通过查询字典的方法转换为字符融合表示向量。
5.一种基于如权利要求1~4任一所述词向量表示方法的不良信息文本分类方法,其特征在于,步骤如下:
S21:针对包含不良信息文本和非不良信息文本两类样本的训练数据,利用所述词向量表示方法将每个样本转换为字符融合表示向量;
S22:利用训练数据对文本分类模型进行训练,使其能准确输出样本属于不良信息文本或者非不良信息文本的二分类标签;
S23:针对待分类的目标信息文本,利用所述词向量表示方法将其转换为字符融合表示向量,并输入训练后的文本分类模型中,输出其分类结果。
6.如权利要求5所述的不良信息文本分类方法,其特征在于,所述的文本分类模型为TextCNN、TextRNN、TextRNN_Att、FastText、Transformer或DPCNN模型。
7.一种中文字符和拼音相结合的词向量表示装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~4任一项所述的中文字符和拼音相结合的词向量表示方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~4任一项所述的中文字符和拼音相结合的词向量表示方法。
9.一种不良信息文本分类装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求5或6所述的不良信息文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求5或6所述的不良信息文本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学,未经绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011356716.7/1.html,转载请声明来源钻瓜专利网。