[发明专利]文本分析方法、装置、设备及存储介质在审

申请号：	201910009019.5	申请日：	2019-01-04
公开（公告）号：	CN109815490A	公开（公告）日：	2019-05-28
发明（设计）人：	金戈;徐亮	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62;G06F16/332
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义特征注意力文本分析存储介质向量矩阵自然语言处理技术人工智能技术主成分分析注意力机制文本获取计算量语义树分析文本网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分析方法，其特征在于，所述方法包括以下步骤：

根据待分析文本获取向量矩阵；

使用主成分分析网络从所述向量矩阵中提取多个语义特征数据；

使用自注意力机制获取任意两语义特征数据之间的注意力值；

获取与所述多个语义特征数据一一对应的多个注意力评价值，任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到；

根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树，以实现对文本的分析。

2.如权利要求1所述的文本分析方法，其特征在于，根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树的步骤，具体包括：

将第一语义特征数据作为根节点，所述第一语义特征数据为所述多个语义特征数据中，对应的注意力评价值最大的语义特征数据；

将多个第二语义特征数据对应作为多个第一子节点，将所述多个第一子节点连接于所述根节点，所述第二语义特征数据为所述多个语义特征数据中，除所述第一语义特征数据外且对应的注意力评价值不小于预设的评价阀值的语义特征数据；

将多个第三语义特征数据对应作为多个第二子节点，按照与所述多个第二子节点对应的多个注意力评价值从大到小的顺序，依次将各第二子节点连接于根节点，或者一第一子节点，或者其他的一第二子节点，以生成语义树，所述第三语义特征数据为所述多个语义特征数据中，除所述第一语义特征数据和所述多个第二语义特征数据外的语义特征数据。

3.如权利要求2所述的文本分析方法，其特征在于，依次将各第二子节点连接于根节点，或者一第一子节点，或者其他的一第二子节点的步骤，具体包括：

获取当前语义子树，所述当前语义子树为由相连接的多个节点组成，任一节点为根节点，或者第一子节点，或者第二子节点；

获取第一节点，所述第一节点为不属于所述当前语义子树且待连接于所述当前语义子树的一第二子节点；

在所述当前语义子树中查找目标节点，所述目标节点为所述当前语义子树的所述多个节点中，与所述第一节点之间的所述注意力值为最大的节点；

将所述第一节点连接于所述目标节点。

4.如权利要求1所述的文本分析方法，其特征在于，根据待分析文本获取向量矩阵的步骤，具体包括：

对待分析文本进行分词处理，获取待处理字词；

将所述待处理字词转化为字词向量；

根据所述字词向量生成向量矩阵，以实现对向量矩阵的获取。

5.如权利要求1所述的文本分析方法，其特征在于，对待分析文本进行分词处理，获取待处理字词的步骤，具体包括：

获取所述待分析文本的文本类别；

根据所述文本类别，选取与所述文本类别对应的分词词典；