[发明专利]文本分类方法、系统、可读存储介质及电子设备有效
申请号: | 201810640617.8 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108875024B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 袁春;程洲;马志明 | 申请(专利权)人: | 清华大学深圳研究生院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 深圳市鼎言知识产权代理有限公司 44311 | 代理人: | 曾昭毅;郑海威 |
地址: | 518055 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 系统 可读 存储 介质 电子设备 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取对应句子文本的短语结构树,其中所述句子文本包括一个或多个标记,每一标记对应一词向量,每一词向量用于作为所述短语结构树中叶节点的输入;
对所述短语结构树进行预处理操作,以优化所述短语结构树的层级关系;
通过标记编码器对所述短语结构树中叶节点执行第一操作处理,以将句子文本的词向量转换为对应的句向量;
通过语义合成器对所述短语结构树中内部节点执行第二操作处理,以根据句向量得到所述短语结构树中根节点的输出;
根据所述根节点的输出对分类器进行训练;
所述对所述短语结构树进行预处理操作包括:
判断短语结构树中是否存在一个或多个只包含一个子节点的内部节点;
如果是,将该内部节点删除,并将连接该内部节点的子节点连接于该内部节点的父节点;
所述通过标记编码器对所述短语结构树中叶节点执行第一操作处理包括:
根据转换函数将分布向量转换为句子表达,表示为:
sw=Encoder(wemb) 公式(1),
其中,wemb表示第w个单词的词向量;sw表示为句子表达所对应的分布式的句向量;Encoder表示任何的神经网络;
所述转换函数的公式表示如下:
iw=σ(Wwiwemb+bwi) 公式(2),
ow=σ(Wwowemb+bwo) 公式(3),
uw=σ(Wwuwemb+bwu) 公式(4),
cw=iw⊙uw 公式(5),
hw=ow⊙tanh(cw) 公式(6),
其中,Wwi、Wwo、Wwu表示用于计算输入门iw,输出门ow和候选语的句向量uw的权重参数;wemb表示当前标记的词向量,σ表示sigmoid函数,其用于矩阵运算的结果约束在[0,1]的范围内;bwi、bwo、bwu用于表示偏移参数;⊙表示向量元素的乘积;tanh表示激活函数;
对于内部节点t左侧兄弟节点(hs,cs)定义如下:
内部节点t的子节点(hc,cc)表示为:
其中,(hrc,crc)表示内部节点t的左侧子节点的记忆单元和输出;
所述通过语义合成器对所述短语结构树中内部节点执行第二操作处理包括:
根据内部节点的左侧兄弟节点和右侧的子节点以自下而上、从左到右的顺序进行学习;
所述语义合成器定义如下:
is=σ(Wsshs+Wschc+bs) 公式(9),
ic=σ(Wcshs+Wcchc+bc) 公式(10),
it=σ(Wsohs+Wcohc+bo) 公式(11),
ct=is⊙cs+ic⊙cc 公式(12),
ht=ot⊙tanh(ct) 公式(13),
其中,hs表示内部节点t的左侧兄弟结点的输出;hc表示内部节点t的右侧兄弟结点或其子节点的输出;cs及cc表示记忆单元;⊙表示向量元素的乘积;
门控制is、ic用于决定了对当前记忆单元ct的影响;bs、bc、bo用于表示偏移参数;Wss、Wsc、Wcs、Wcc、Wso、Wco表示权重参数;输出ht是表示输出门ot和非线性的记单元的双曲正切函数之间计算后的输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810640617.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:动态属性的生成方法及装置
- 下一篇:一种智能家居情感交互系统