[发明专利]一种非结构化文本相似性判断的方法及系统在审

申请号：	202010992851.4	申请日：	2020-09-21
公开（公告）号：	CN112101001A	公开（公告）日：	2020-12-18
发明（设计）人：	胡博;李钊;李伟;雷振江;田小蕾;王丽霞;王大维;杨超;张智儒;王义贺;周小明;王磊;李广翱;庄莉;梁懿;陈新梅;曹国强	申请（专利权）人：	国网辽宁省电力有限公司电力科学研究院;福建亿榕信息技术有限公司;南京南瑞信息通信科技有限公司;国家电网有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/30;G06F40/289;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	110055 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结构文本相似性判断方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种非结构化文本相似性判断的方法及系统，其特征在于，包括以下步骤：

1)输入非结构化数据

该非结构化数据可以是来自于网络爬虫的网页或word文档等。

2)文本抽取

从非结构化数据中提取文本信息。此步骤采用apache tika(apache组织开源文本抽取组件)进行文本内容的抽取，可兼容多种格式的文本内容抽取，如excel、pdf、xml、json、markdown等，该步骤最终输出抽取后的txt文件。

3)预处理

此步骤中对上一步骤获取到的txt进行一系列的文本预处理。包括去除网页html标签、去除乱码、去除特殊字符、格式化标点符号等操作，该步骤将输出可用的纯文本信息。

4)训练情感分类模型

步骤A：准备训练语料

人工标注一定量的训练语料(excel格式，包含字段：内容、情感分类标签)，包含各个情感分类的数据。

步骤B：处理语料

利用句法解析器生成递归二叉树结构(Constituency Tree-LSTM)，并且在每一个节点打上情感标签。

步骤C：模型训练

将上述二叉树每个节点构造为LSTM节点，将各个节点的输出对情感标签进行建模，得到最终的情感分类模型。此步骤采用了Tree-LSTM以及其，其基本原理介绍如下：Tree-LSTM的核心思想为将对语序敏感的标准LSTM序列推广为树状结构的网络拓扑图。与标准的LSTM结构一样，每个Tree-LSTM单元(记为j)也包括输入门ij和输出门oj，记忆单元cj和隐层状态hj。不同的是，Tree-LSTM的各个门向量和记忆单元的更新依赖于其子单元的可能状态，此外，Tree-LSTM的每个子单元k均有一个遗忘门fjk，这使得Tree-LSTM能选择性的合并子单元的信息。其节点状态如如下：

给定一个LSTM树，对于节点j，hj为上一步的隐藏输出，C(j)表示其子节点的集合，ij为输入门，uj表示标准LSTM中的节点状态选择，fjk为遗忘门，Oj为输出门，那么该Tree-LSTM分类模型的公式如下：

i_j＝σ(W⁽ⁱ⁾x_j+U⁽ⁱ⁾h_j+b⁽ⁱ⁾)

f_jk＝σ(W^(f)x_j+U^(f)h_j+b^(f))

o_j＝σ(W^(o)x_j+U^(o)h_j+b^(o))

u_j＝tanh(W^(u)x_j+U^(u)h_j+b^(u))

与标准LSTM最大的区别在于：A.标准LSTM中只用到了上一步神经元的隐藏输出ht-1；B.该分类模型需要多个遗忘门fjk＝s(W(f)xj+U(f)hj+b(f))。

通过学习模型可以学习到参数，使得当输入是一个语义重要的词时，参数W(j)下的输入门ij值接近于1；而当输入是一个语义相对不重要的词时，输入门ij接近于0。

5)预测情感分类

步骤A：将文本分词并向量化

步骤B：利用句法解析器将数据生成的递归二叉树结构。

步骤C：树形结构数据输入分类模型取得文档的情感分类等级。

6)执行相似性判断

步骤A：从当前情感分类下的文档库顺序获取获选文章。

步骤B：将输入文章、获选文章分别处理为树形数据(参考上一环节的步骤A，步骤B)，并通过N-arr Tree-LSTMs模型训练，得到输入序列的最终表示，此处分别表示为da、db。

步骤C：接着结合句子对(da、db)的距离和角度，利用Tree-LSTM预测相似度得分。

步骤D：重复步骤A/B/C并比较得分可获取与输入文章相似度得分最高的Top N文章。

步骤C相似度计算公式描述如下：

d₊＝|d_a-d_b|

d_s＝σ(W^(×)d_×+W^(×)d₊+b^(d))

p_θ＝softmax(W^(p)d_s+b^(p))

y＝r^Tp_θ

Y表示相似程度，得分越高则相似程度越高。ee-LSTMs介绍如下：

N-arr Tree-LSTMs模型的特点是其子节点的个数最多可以是N个，并且子节点有序，且其对每一个子节点的隐藏状态分别计算然后求和。N-ary Tree-LSTMs在表示更细粒度的信息上有更多的优势。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司电力科学研究院;福建亿榕信息技术有限公司;南京南瑞信息通信科技有限公司;国家电网有限公司，未经国网辽宁省电力有限公司电力科学研究院;福建亿榕信息技术有限公司;南京南瑞信息通信科技有限公司;国家电网有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010992851.4/1.html，转载请声明来源钻瓜专利网。

上一篇：窃电概率预警分析方法
下一篇：一种超薄型钢结构防火涂料及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种非结构化文本相似性判断的方法及系统在审

专利文献下载