[发明专利]一种非结构化文本相似性判断的方法及系统在审
申请号: | 202010992851.4 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112101001A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 胡博;李钊;李伟;雷振江;田小蕾;王丽霞;王大维;杨超;张智儒;王义贺;周小明;王磊;李广翱;庄莉;梁懿;陈新梅;曹国强 | 申请(专利权)人: | 国网辽宁省电力有限公司电力科学研究院;福建亿榕信息技术有限公司;南京南瑞信息通信科技有限公司;国家电网有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06F40/289;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 110055 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 文本 相似性 判断 方法 系统 | ||
1.一种非结构化文本相似性判断的方法及系统,其特征在于,包括以下步骤:
1)输入非结构化数据
该非结构化数据可以是来自于网络爬虫的网页或word文档等。
2)文本抽取
从非结构化数据中提取文本信息。此步骤采用apache tika(apache组织开源文本抽取组件)进行文本内容的抽取,可兼容多种格式的文本内容抽取,如excel、pdf、xml、json、markdown等,该步骤最终输出抽取后的txt文件。
3)预处理
此步骤中对上一步骤获取到的txt进行一系列的文本预处理。包括去除网页html标签、去除乱码、去除特殊字符、格式化标点符号等操作,该步骤将输出可用的纯文本信息。
4)训练情感分类模型
步骤A:准备训练语料
人工标注一定量的训练语料(excel格式,包含字段:内容、情感分类标签),包含各个情感分类的数据。
步骤B:处理语料
利用句法解析器生成递归二叉树结构(Constituency Tree-LSTM),并且在每一个节点打上情感标签。
步骤C:模型训练
将上述二叉树每个节点构造为LSTM节点,将各个节点的输出对情感标签进行建模,得到最终的情感分类模型。此步骤采用了Tree-LSTM以及其,其基本原理介绍如下:Tree-LSTM的核心思想为将对语序敏感的标准LSTM序列推广为树状结构的网络拓扑图。与标准的LSTM结构一样,每个Tree-LSTM单元(记为j)也包括输入门ij和输出门oj,记忆单元cj和隐层状态hj。不同的是,Tree-LSTM的各个门向量和记忆单元的更新依赖于其子单元的可能状态,此外,Tree-LSTM的每个子单元k均有一个遗忘门fjk,这使得Tree-LSTM能选择性的合并子单元的信息。其节点状态如如下:
给定一个LSTM树,对于节点j,hj为上一步的隐藏输出,C(j)表示其子节点的集合,ij为输入门,uj表示标准LSTM中的节点状态选择,fjk为遗忘门,Oj为输出门,那么该Tree-LSTM分类模型的公式如下:
ij=σ(W(i)xj+U(i)hj+b(i))
fjk=σ(W(f)xj+U(f)hj+b(f))
oj=σ(W(o)xj+U(o)hj+b(o))
uj=tanh(W(u)xj+U(u)hj+b(u))
与标准LSTM最大的区别在于:A.标准LSTM中只用到了上一步神经元的隐藏输出ht-1;B.该分类模型需要多个遗忘门fjk=s(W(f)xj+U(f)hj+b(f))。
通过学习模型可以学习到参数,使得当输入是一个语义重要的词时,参数W(j)下的输入门ij值接近于1;而当输入是一个语义相对不重要的词时,输入门ij接近于0。
5)预测情感分类
步骤A:将文本分词并向量化
步骤B:利用句法解析器将数据生成的递归二叉树结构。
步骤C:树形结构数据输入分类模型取得文档的情感分类等级。
6)执行相似性判断
步骤A:从当前情感分类下的文档库顺序获取获选文章。
步骤B:将输入文章、获选文章分别处理为树形数据(参考上一环节的步骤A,步骤B),并通过N-arr Tree-LSTMs模型训练,得到输入序列的最终表示,此处分别表示为da、db。
步骤C:接着结合句子对(da、db)的距离和角度,利用Tree-LSTM预测相似度得分。
步骤D:重复步骤A/B/C并比较得分可获取与输入文章相似度得分最高的Top N文章。
步骤C相似度计算公式描述如下:
d+=|da-db|
ds=σ(W(×)d×+W(×)d++b(d))
pθ=softmax(W(p)ds+b(p))
y=rTpθ
Y表示相似程度,得分越高则相似程度越高。ee-LSTMs介绍如下:
N-arr Tree-LSTMs模型的特点是其子节点的个数最多可以是N个,并且子节点有序,且其对每一个子节点的隐藏状态分别计算然后求和。N-ary Tree-LSTMs在表示更细粒度的信息上有更多的优势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司电力科学研究院;福建亿榕信息技术有限公司;南京南瑞信息通信科技有限公司;国家电网有限公司,未经国网辽宁省电力有限公司电力科学研究院;福建亿榕信息技术有限公司;南京南瑞信息通信科技有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010992851.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:窃电概率预警分析方法
- 下一篇:一种超薄型钢结构防火涂料及其制备方法