[发明专利]一种面向区块链领域的事件与事件要素抽取方法及装置有效
申请号: | 202010343965.6 | 申请日: | 2020-04-27 |
公开(公告)号: | CN111597333B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 陈志鹏;刘春阳;张丽;姜文华;张旭;孙旻 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06F40/30;G06F40/289;G06Q50/26 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 区块 领域 事件 要素 抽取 方法 装置 | ||
本发明公开一种面向区块链领域的事件与事件要素抽取方法及装置,该方法包括:步骤一、基于区块链关键词图的web文本聚类,得到区块链文本聚合词图;步骤二、基于所述的区块链文本聚合词图,构建图注意力机制的图表示学习的事件及其要素抽取方法;首先以区块链文本聚合词图作为输入,基于图注意力模型GAT的深度学习模型进行词的表示学习,以事件及其要素进行抽取的模型训练直到模型收敛;基于收敛的模型实现Tensorflow的后台接口,而对于新的待抽取的文本通过该后台接口进行预测,返回输出的抽取值。本发明可以准确提取事件及其事件要素。
技术领域
本发明一种面向区块链领域的事件与事件要素抽取方法及装置,涉及web文本分析领域,尤其涉及面向区块链领域的互联网文本的事件及其事件要素抽取方法。
背景技术
近年来,随着信息技术的发展,行业最终将走向工业互联网的状态。通过区块链、大数据、人工智能等技术,数字资产与服务将更加高效、快捷、安全。区块链以公开透明和不可篡改作为核心特点,未来有望渗透与应用在数字货币、金融等各个行业,比如2016年,蚂蚁金服与中华社会救助基金会合作,在支付宝爱心捐赠平台上线了区块链公益筹款项目“听障儿童重获新声”,为10名听障儿童筹款。可见,区块链平台逐步面向公益慈善、政务协同和物资管理、企业融资、公民身份等面临问题的领域。那么对于web文本而言,与区块链平台结合的事件变得公开透明化,使得面向区块链文本分析比如事件抽取与事件要素(比如区块链实体)分析变得尤为重要。
现有的文本抽取算法的主要问题的文本表示是高维度高稀疏的,特征表达能力很弱,此外需要人工进行特征工程,成本很高。
同时近年来,已经有大量的研究集中在图表示学习的web文本分析上,图是可以在很多方面使用的数据结构。图注意网络(Graph Attention Network,GAT)为我们提供了一种非常有效的方法来分析图结构数据。它是使用邻域信息增强表示的模型,这种图结构表示学习在研究中得到了广泛的应用。
发明内容
本发明的目的在于提出一种面向区块链领域的事件与事件要素抽取方法及装置,包括基于区块链关键词图的web文本聚类,基于图注意力网络的事件抽取与事件要素抽取方法。其中web文本聚类在与聚合根区块链相关的关键词图并实现文本聚类。基于图注意力机制的网络表示学习实现事件抽取与要素抽取。在本发明中,对于区块链领域的web事件抽取与事件要素抽取,在对web文本进行聚合后进行关键词图构建,基于图注意力网络表示学习建模,不仅能够编码文本语义信息还能够编码词图结构信息,增加事件抽取与事件要素抽取的准确性。
本发明采用了下列技术方案:
一种面向区块链领域的事件与事件要素抽取方法,步骤如下:
步骤一、基于区块链关键词图的web文本聚类,得到区块链文本聚合词图,如图1所示,具体如下:
S11、以区块链为种子词筛选文本中含有种子词的文本;
S12、对文本进行分词、去除停用词处理,使用Gensim工具对区块链文本进行预训练学习,得到词的向量表示。
S13、使用词图聚类算法,获得语义相近的文本词图簇。
S14、计算每个文本中的词语的TF-IDF值,提取跟种子词相关的词中TF-IDF值最大的30个词语。
S15、取步骤S14得到的这30个词语的词向量的平均值作为该区块链语义相关文本的向量表示。
S16、指定聚类簇个数k的候选集合,使用高斯混合模型在不同k下进行聚类,选取轮廓系数最大的k的聚类结果作为最终结果。轮廓系数的公式如下。
其中,ai表示节点i到簇内其它点的欧式距离的平均值,bi表示节点i到其他簇节点的平均欧式距离的最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010343965.6/2.html,转载请声明来源钻瓜专利网。