[发明专利]基于语义特性提取位置指示词的位置推断方法有效
申请号: | 201910088827.5 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109918579B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 刘粉林;田合婵;乔亚琼;朱玛;罗向阳 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/9536;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 郑州联科专利事务所(普通合伙) 41104 | 代理人: | 刘建芳 |
地址: | 450001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 特性 提取 位置 指示 推断 方法 | ||
1.基于语义特性提取位置指示词的位置推断方法,其特征在于:包括如下步骤:
A:数据预处理,对所有用户发布的所有推文数据进行预处理;
B:词语筛选,基于信息增益率对词语进行初步筛选;
C:位置指示词提取,利用word2vec构建词向量,基于语义特性提取位置指示词;
所述步骤C中,词语提取具体包括如下步骤:
C1,计算词向量:将训练集用户的tweets作为语料库,利用word2vec计算语料库中每个词语的词向量;
C2,聚类词语:利用现有的聚类算法基于词向量将筛选得到的词语聚为k个簇,语义相似的词语会被聚到一起,每一个簇内的词语可看作同一类词语;
C3,词语提取:基于聚类形成的k个簇,把每一个簇看作一个整体,将位置指示词提取的过程看作是特征选择的过程;因此,位置指示词的提取过程,就是从k个簇中选出最佳的子集,
所述的步骤C3中,词语提取具体包括如下步骤:
C3.1,从k个簇构成的全集开始搜索簇子集,当前的簇子集记为Wo;在训练集上,利用5折交叉验证法估计基于簇子集Wo训练的分类器的平均分类错误率,记为Eo;
C3.2,从当前的簇子集Wo中,依次任意地删除一个簇,得到一个新的簇子集;在训练集上,利用五折交叉验证法估计基于新的簇子集训练的分类器的平均分类错误率;将平均分类错误率最小的新的簇子集记为W#,其平均分类错误率记为E#;
C3.3,如果E#小于或等于Eo,那么将当前的簇子集Wo更新为W#,Eo更新为E#;跳转到步骤C3.2,继续搜索最佳簇子集;
C3.4,否则E#大于Eo,停止搜索,算法结束;停止搜索时,当前的簇子集Wo中词语构成位置指示词集合;
D:分类器训练,利用位置指示词训练朴素贝叶斯分类器;
E:用户位置推断,利用训练好的朴素贝叶斯分类器推断用户位置。
2.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:所述步骤A中,数据预处理具体包括如下步骤:
A1,聚合推文:将每个用户发布的所有推文聚合为一个文本,有多少个用户就有多少个文本;
A2,对标记后的用户文本进行分词:英文按空格分隔划分词语;中文利用现有的汉语分词工具进行分词;
A3,移除停用词:对于使用不同语言的社交媒体用户文本,需要根据相应的语言构建相应的停用词词表,基于构建的停用词词表,移除停用词:
A4,移除低频词:移除词频小于阈值N1的词语。
3.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:所述步骤B中,词语初步筛选具体包括如下步骤:
B1,计算信息增益率;
B2,词语排序:按照词语信息增益率的大小,对词语进行降序排序;
B3,设置阈值筛选词语:设置百分比阈值,选出信息增益率前N2%的词语。
4.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:所述的步骤D中,分类器训练具体包括如下步骤:
D1,计算类先验概率:即,计算位于位置lj的用户占全部用户的比例;
D2,计算条件概率:即,计算位置指示词w_i出现在不同位置的用户文本中的条件概率。
5.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:
所述的步骤E中,用户位置推断具体包括如下步骤:
E1,计算待推断位置的用户位于每个位置的概率:即利用用户的文本中出现的位置指示词wi及词频teufi,计算用户teu位于位置lj的概率:
E2,取概率最大的位置作为推断结果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910088827.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于文旅的智能浏览方法及系统
- 下一篇:一种搜索方法及终端设备