[发明专利]一种文本属性特征的识别、分类及结构分析方法及装置在审
申请号: | 202011632896.7 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112632286A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 姜庭欣;陈伟然;李静毅;郭永红 | 申请(专利权)人: | 北京合享智慧科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/253 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 属性 特征 识别 分类 结构 分析 方法 装置 | ||
1.一种文本属性特征的识别方法,其特征在于,包括:
获取目标文本中的数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述目标文本包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征。
2.一种文本属性特征的识别方法,其特征在于,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述根据目标文本中的语句生成语法结构,包括:
分别识别所述目标文本中各语句的词语,并构建词语有向图;
计算所述词语有向图中第一个节点到最后一个节点的最短路径,作为各所述语句的分词结果;
根据各语句的分词结果构建词语序列;
根据所述词语序列中相邻的词语生成输入向量;
根据预设的神经网络模型及所述输入向量得到输出向量;
计算所述输入向量及输出向量的夹角余弦值;
将夹角余弦值最大的两个相邻词语构建组合节点,直至生成所述词语序列的根节点;
根据所述组合节点及根节点确定所述词语序列的语法结构。
3.一种文本属性特征的识别方法,其特征在于,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效语句分类模型,通过以下过程构建所述功效语句分类模型:
获取功效语句样本,所述功效语句样本包括预设的功效标记及样本语句;
根据所述功效语句样本生成第一语法结构;
根据所述第一语法结构中的节点关系生成第一特征列表;
根据所述特征列表生成第一分类输入向量,根据所述预设的功效标记及样本语句生成第一分类输出向量;
根据所述第一分类输入向量及第一分类输出向量对预设的分类模型进行训练,生成所述功效语句分类模型。
4.一种文本属性特征的识别方法,其特征在于,包括:
根据目标文本中的语句生成语法结构;
根据所述语法结构中的节点关系生成数据结构;
根据所述数据结构生成第一输入向量;
根据所述第一输入向量及预设的文本属性特征分类模型确定各所述语句包含属性特征文本的概率;
根据所述概率识别所述目标文本中的文本属性特征;
其中,所述预设的文本属性特征分类模型为功效短语分类模型,通过以下过程构建所述功效短语分类模型:
获取功效短语样本,所述功效短语样本包括预设的功效标记及样本短语;
根据所述功效短语样本生成第二语法结构;
根据所述第二语法结构中的节点关系生成第二特征列表;
根据预设的功效短语生成第二数据结构;
根据所述第二特征列表及第二数据结构生成第二分类输入向量,根据所述预设的功效标记及样本短语生成第二分类输出向量;
根据所述第二分类输入向量及第二分类输出向量对预设的分类模型进行训练,生成所述预设的功效短语分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合享智慧科技有限公司,未经北京合享智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011632896.7/1.html,转载请声明来源钻瓜专利网。