[发明专利]一种新媒体环境下少数民族主题数据的抽取方法有效
申请号: | 201810969312.1 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109241273B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 岳昆;麻友;李维华;王笑一;郭建斌 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/36 |
代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种从新媒体平台获取数据、对少数民族主题数据进行抽取的方法,根据新媒体数据海量、非结构化、多主题等特点,采用LDA模型对预处理后的新媒体数据进行特征抽取、主题分析、隐含主题挖掘,然后利用少数民族领域知识构建KG,用领域KG引导少数民族主题数据的抽取。本发明在采用LDA模型和KG引导数据的抽取过程中,根据不同数据规模设定参数,从而进行算法的优化,实现准确、高效、可扩展的新媒体数据抽取。 | ||
搜索关键词: | 一种 媒体 环境 少数民族 主题 数据 抽取 方法 | ||
【主权项】:
1.一种新媒体环境下少数民族主题数据的抽取方法,其特征在于包括以下步骤:S1:数据预处理S1.1:从社交网络或新闻网页上获取M条媒体数据I={I1, I2, …, IM},Ii表示第i条数据,0≤i≤M,Ii用一个三元组(id, Ti, Ai)表示,id为数据实例标识,Ti表示数据Ii的文字内容,Ai={Ai,u, Ai,p, Ai,l, Ai,v, Ai,f, Ai,q, Ai,c, Ai,r}表示附加信息,分别表示数据发布者Ai,u、发布时间Ai,p、发布地点Ai,l、发布源Ai,v、转发量Ai,f、点赞量Ai,q、评论数Ai,c和数据的读取时间Ai,r;S1.2:少数民族领域知识Z=由领域专家给出,term为实体名,attributes为实体属性,addition为词条附加说明;S1.3:获取停用词集Stop_words;S1.4:采用分词工具对获取的媒体数据文字内容Ti进行分词处理,分词前先将Stop_words添加到分词工具默认停用词集中,将少数民族领域知识实体名term集添加到分词工具默认词汇集中,Ti的分词结果单独存到数据Ii末端,记为Seg_Ti;S2:主题分析与特征抽取S2.1:定义词典W={w1,w2, …, wS}存储数据包含的全部词汇,S为词典中的词汇总数,wi≠wj(1≤i,j≤S,i≠j);S2.2:定义数据Ii的主题向量,是Ii中词汇属于主题zk的概率,0≤≤1,其中,主题zk用高频词向量 表示,Sk为zk的总词数,是zk总词汇中的词wt的概率,0≤≤1,和分别由公式(1)(2)求得:其中,表示主题zk的词汇wt的总数,表示Ii中包含主题zk中词汇的数量,S为词典中的词汇总数,K为主题总数;S2.3:采样主题与词汇;S2.3.1:给定迭代次数Niter,Niter≥1,主题总数K,K≥1,参数α,β,κ,0<α,β<1,κ≥1;S2.3.2:对每个主题zk,采样主题中词汇的概率分布;S2.3.3:对数据Ii,采样数据的主题概率分布,对数据的Seg_Ti,采样单词的主题,采样主题的词汇,过程如附图2所示;统计主题zk的词汇总数、数据Ii中包含主题zk中词汇的数量;S2.3.4:重复S2.3.3,迭代Niter次直到每个词汇wi,j的主题zi,j达到收敛,此时每个词汇所属主题不再改变;S2.4:获取主题zk的高频词向量与数据Ii的主题向量;S2.4.1:读取每条数据Ii的词汇wi,j和对应的主题zi,j,统计主题zi,j=zk的词汇wi,j总数和数据Ii中zi,j=zk中词汇wi,j的数量;S2.4.2:根据公式(1)计算得到每个主题zk中词汇wt的概率δt,k,按照δt,k降序排列,得到主题zk的高频词向量,0≤k≤K;S2.4.3:根据公式(2)计算得到每条数据Ii中词汇属于主题zk的概率,根据降序排列,得到数据Ii的主题向量;S2.5:获取数据特征词序列;S2.5.1:读取数据Ii的主题向量按降序,取个主题;S2.5.2:将数据中Seg_Ti的词汇与以上个主题的高频词向量的词汇进行映射匹配,两者词汇并集记录为,表示数据Ii的特征词序列;S3:少数民族主题数据的抽取S3.1:定义少数民族领域KG为Gk=(V, E),其中V={v1, v2, …, vn}表示KG中实体对应节点的集合,E={e1, e2,…, em}表示实体之间边的集合;任意一条边对应一个节点三元组ex=(vi, vj, label),节点vi称为始点,节点vj称为终点,label为始点与终点的关系标签;S3.2:利用少数民族领域知识Z,构建领域KG,用Gk表示;S3.2.1:首先,从领域专家获取少数民族领域知识Z=<term, attributes, addition>,依次取Z的元素实体名vi与本领域名称v0表示为三元组(v0, vi, label),label取vi的属性作为v0vi的关系标签;S3.2.2:再依次建立每个元素vi与vj的三元组(vi, vj, label),此时label由节点的附加信息addition得到vivj的关系标签,如vi与vj无关系,则相应的边也不存在,所有的三元组共同构成少数民族领域KG为Gk;S3.3:对于领域无关的数据,称为噪声数据,这些数据不属于所研究领域、但在数据抽取过程影响领域数据抽取的准确性,为此,构建的无关领域KG,用¬Gk表示;S3.3.1:先从领域专家获取少数民族无关领域的知识¬Z=<term, attributes, addition>,依次取¬Z的元素实体名vi与本领域名称v0表示为三元组(v0, vi, label),label取vi的属性作为v0vi的关系标签; S3.3.2:再依次建立每个元素vi与vj的三元组(vi, vj, label),label由节点的附加信息addition得到vivj的关系标签,如vi与vj无关系,则相应的边也不存在,所有的三元组共同构成无关领域KG为¬Gk;S3.4:实现少数民族领域数据的抽取;S3.4.1:给定判定参数τ,0≤τ≤1;S3.4.2:对数据Ii,计算其特征词序列di的长度mi,mi≥0;S3.4.3:对数据的di的每个词汇wi,j,利用Gk节点间的关联(vx, vx+1, label)依次查找的节点的邻接点,统计数据Ii中词汇存在少数民族领域的词汇的个数,记为n,n≥0;S3.4.4:同样对数据的di的每个词汇wi,j,利用¬Gk节点间的关联(vx, vx+1, label)依次查找的节点的邻接点,统计数据Ii中词汇为领域无关的噪声数据的词汇个数,记为,≥0;S3.4.5:计算数据Ii在领域Gk的概率,数据Ii在领域¬Gk的概率;如果p>τ 且<τ,则判别数据Ii为少数民族主题的数据,并将Ii加入到最终的少数民族数据集D中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810969312.1/,转载请声明来源钻瓜专利网。