[发明专利]文本分析方法、装置、设备及存储介质在审
申请号: | 201910009019.5 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109815490A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06F16/332 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义特征 注意力 文本分析 存储介质 向量矩阵 自然语言处理技术 人工智能技术 主成分分析 注意力机制 文本获取 计算量 语义树 分析 文本 网络 | ||
1.一种文本分析方法,其特征在于,所述方法包括以下步骤:
根据待分析文本获取向量矩阵;
使用主成分分析网络从所述向量矩阵中提取多个语义特征数据;
使用自注意力机制获取任意两语义特征数据之间的注意力值;
获取与所述多个语义特征数据一一对应的多个注意力评价值,任一语义特征数据的注意力评价值为根据该语义特征数据与其他所有语义特征数据之间的注意力值计算得到;
根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树,以实现对文本的分析。
2.如权利要求1所述的文本分析方法,其特征在于,根据所述多个语义特征数据、以及所述多个语义特征数据的注意力评价值生成语义树的步骤,具体包括:
将第一语义特征数据作为根节点,所述第一语义特征数据为所述多个语义特征数据中,对应的注意力评价值最大的语义特征数据;
将多个第二语义特征数据对应作为多个第一子节点,将所述多个第一子节点连接于所述根节点,所述第二语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据外且对应的注意力评价值不小于预设的评价阀值的语义特征数据;
将多个第三语义特征数据对应作为多个第二子节点,按照与所述多个第二子节点对应的多个注意力评价值从大到小的顺序,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点,以生成语义树,所述第三语义特征数据为所述多个语义特征数据中,除所述第一语义特征数据和所述多个第二语义特征数据外的语义特征数据。
3.如权利要求2所述的文本分析方法,其特征在于,依次将各第二子节点连接于根节点,或者一第一子节点,或者其他的一第二子节点的步骤,具体包括:
获取当前语义子树,所述当前语义子树为由相连接的多个节点组成,任一节点为根节点,或者第一子节点,或者第二子节点;
获取第一节点,所述第一节点为不属于所述当前语义子树且待连接于所述当前语义子树的一第二子节点;
在所述当前语义子树中查找目标节点,所述目标节点为所述当前语义子树的所述多个节点中,与所述第一节点之间的所述注意力值为最大的节点;
将所述第一节点连接于所述目标节点。
4.如权利要求1所述的文本分析方法,其特征在于,根据待分析文本获取向量矩阵的步骤,具体包括:
对待分析文本进行分词处理,获取待处理字词;
将所述待处理字词转化为字词向量;
根据所述字词向量生成向量矩阵,以实现对向量矩阵的获取。
5.如权利要求1所述的文本分析方法,其特征在于,对待分析文本进行分词处理,获取待处理字词的步骤,具体包括:
获取所述待分析文本的文本类别;
根据所述文本类别,选取与所述文本类别对应的分词词典;
利用选取的所述分词词典对所述待分析文本进行分词处理,以获取待处理字词。
6.如权利要求1所述的文本分析方法,其特征在于,获取与所述多个语义特征数据一一对应的多个注意力评价值的步骤,具体包括:
获取第一语义特征数据,所述第一语义特征数据为所述多个语义特征数据其中之一;
查找所述第一语义特征数据与其他所有语义特征数据之间的注意力值,将查找到的各注意力值作为第一注意力值;
根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值。
7.如权利要求6所述的文本分析方法,其特征在于,根据所述第一语义特征数据的所有第一注意力值,计算注意力评价值的步骤,具体为:
将所述第一语义特征数据的所有第一注意力值求和,作为所述第一语义特征数据的注意力评价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009019.5/1.html,转载请声明来源钻瓜专利网。