[发明专利]一种面向景区异常事件的知识图谱构建方法在审
申请号: | 202010806519.4 | 申请日: | 2020-08-12 |
公开(公告)号: | CN111930893A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 钟艳如;贺昭荣;罗笑南;汪华登;李芳 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F16/35;G06F40/295;G06F40/30 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陆梦云 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 景区 异常 事件 知识 图谱 构建 方法 | ||
1.一种面向景区异常事件的知识图谱构建方法,其特征在于:包括以下步骤:
S1:使用构建好的网络爬虫从互联网上收集景区异常事件相关的资料与文档,然后通过TF-IDF文本相似度计算方法判断文档的资料相关度,筛选出最合适的数据文档保留;
S2:在景区异常事件的相关资料内建立语义分词数据集,标记分词数据集中的异常事件实体和实体间关系的词性标记为名词和动词,根据标记的名词和动词在爬取的数据文档中抽取景区异常事件的实体和实体关系,并通过原始的数据文档关联实体和关系;
S3:将抽取出的实体进行聚类,形成多个不同的实体簇,每个实体簇包含若干个实体类型,参考专业文档的说明结构来构建出对应异常事件的知识图谱模式层,以此对本体进行构建;
S4:根据步骤2中抽取的异常事件的实体关系找到实体簇中的实体所相对应的文档数据,通过余弦相似度计算找到与相应实体对应的文档中与该实体相近的描述词语,将实体与相近的描述词语的关系进行匹配,得到相应的子图谱;
S5:合并所有的子图谱:将子图谱进行关系连接,对知识进行合并获得面向景区异常事件的知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征是:所述步骤S1中通过TF-IDF文本相似度计算方法判断文档的资料相关度的步骤是:
S1-1:建立相应的数据质量判断模型,如公式(1)所示:
公式中Si,j’表示第i层的第j篇文档与当前爬取的所有文档的相似度,Si-1,j表示第i-1层的第j篇文档与当前爬取的所有文档的相似度,同理,Si,j’,k表示第i层的第j篇文档与该层的第k篇文档的相似度,其中第j’篇文档的链接在第j篇文档之中,Wi和Ti表示第i层设定的权重值;
S1-2:设定阈值α,当需要进行判断的文档与其他文档的相似度Si,j小于阈值α时,便判定当前文档不合格,并对该层不符合条件的文档数量统计为Xi,将该层与判定文档内容重复的文档数量统计为Yi;
S1-3:统计该层所有文档的数量Ni,计算该层文档的不合格率(Xi+Yi)/Ni,设定新的阈值β判断是否继续进行对该层文档的爬取,若不合格率大于阈值β,则停止对下一层文档的爬取。
3.根据权利要求1所述的知识图谱构建方法,其特征是:所述步骤S2中的分词数据集是在爬取文档时标记文档中属于分词词库中的词的词性,并删除其出现在文档中的停用词。
4.根据权利要求1所述的知识图谱构建方法,其特征是:所述步骤S3中聚类的操作方法是:
S3-1:对抽取的文本实体使用复合神经网络模型进行词向量的训练,得到含有语法和语义特征词的分布式表达;
S3-2:在完成词分布式表达后,对实体采用KMeans无监督算法进行聚类。
5.根据权利要求1所述的知识图谱构建方法,其特征是:所述步骤S4中构建子图谱的方法中还采取了实体映射,其方法是:先找到某个实体所对应的的文档,然后通过文档链接找出与该文档相似的相关论文文档,并建立该实体与这些文档间的映射关系。
6.根据权利要求1所述的知识图谱构建方法,其特征是:所述步骤S5中图谱合并的方法是:如果两个子图谱都包含相同的实体a,则将其中一个子图谱中和实体a相连的实体b与另一个子图谱中的实体a相连,完成子图谱的合并;如果某个子图谱中没有与其它子图谱相同的实体,则进行对各个子图谱的实体相似度进行计算然后进行合并。
7.根据权利要求6所述的知识图谱构建方法,其特征是:所述计算子图谱间相似度的方法是:
S5-1:将爬取的文档数据和上层文档的链接相对应,分为同层链接的文档和异层链接的文档;
S5-2:某个子图谱对应总知识图谱中的文档A,另一个子图谱对应知识图谱中的文档B,两个子图谱中没有相同的实体,则计算文档A中实体和文档B中实体以及第i层其它文档中所有实体的相似度,筛选出与待合并子图谱相似度最高的候选子图谱,具体公式如下:
其中Gk表示与待合并子图谱相似度最高的候选子图谱,|G1|和|Gt|分别表示第1个和第t个候选子图谱中的实体个数,a表示待合并的子图谱中的实体,n表示文档G对应的待合并子图谱中的实体个数,b表示候选子图谱中的实体,s(a,b)表示实体a和b的相似度;
其中E表示文档A中对应的待合并子图谱中的实体与候选子图谱中所有实体相似度最大的实体,|Gk|表示与待合并子图谱相似度最大的候选子图谱中实体的个数;
E'=arg max{s(b,E)}(b=1,2,...,|Gk|) (4)
其中E’表示候选子图谱中实体与实体E相似度之和最大的实体,将文档A对应的待合并子图谱中的实体E与候选子图谱Gk中的实体E’相连接,并标记说明是通过模型计算得出;
S5-3:将相似度最高的文档所对应的候选子图谱与文档A对应的待合并子图谱进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010806519.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铸造厂砂冷却器的加水方法及智能加水系统
- 下一篇:一种非水电解质电池