[发明专利]一种基于多元化关系画像技术的在线社会关系搜索方法有效
申请号: | 202010153660.9 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111488401B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 王博;杨毅 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/26;G06F16/245 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多元化 关系 画像 技术 在线 社会关系 搜索 方法 | ||
1.一种基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,首先,针对指定的语料数据基于非直观画像方法和直观画像方法得到人际关系画像;然后,通过人际关系在线画像系统将人际关系画像进行可视化,即得到与该人际关系画像结果对应的社会关系网络拓扑图,根据设定的好友关系数量和好友关系类型在该社会关系网络拓扑图中进行人物搜索,根据与设定的关系个例最相似的关系在该社会关系网络拓扑图中进行人物关系搜索,并实时显示人物和人物关系的搜索结果;
所述语料数据包括第三方描述数据和人物语言数据,第三方描述数据是指以第三人称的方式对人物进行描述的语料数据,人物语言数据是指人物在社交媒体上以第一人称的方式发表的一些互动语言或者观点看法;
所述非直观画像包括基于关系嵌入方法的非直观画像或是基于向量差方法的非直观画像;所述直观画像是基于主题词方法的直观画像。
2.根据权利要求1所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据是第三方描述数据或是人物语言数据,针对指定的语料数据基于关系嵌入方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)定义语料数据集的最小语料单位,其中,第三方描述数据的最小语料单位为段落,人物语言数据的最小语料单位为一次互动语言;
2)对语料数据集进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
3)在语料数据集中找到同时出现人物A和人物B的所有最小语料单位,构成集合w;
4)定义人物A和人物B的关系为字符串A-B,将所述关系A-B以步长2n等距离嵌入到集合w中的每个最小语料单位中,不够2n整数倍的最后一次嵌入直接将关系A-B嵌入到最小语料结尾处;
5)使用word2vec方法,设置词向量窗口大小为n,对嵌入关系A-B后的语料数据集进行训练,从而生成词向量文件;
6)在词向量文件中找到与关系A-B对应的向量作为描述人物A和人物B的关系的向量,即为人物A和人物B之间人际关系的非直观画像。
3.根据权利要求1所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据为第三方描述数据,针对指定的第三方描述数据基于向量差方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)对包含有人物A和人物B的语料数据文件进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
2)利用word2vec方法,对分词后的包含有人物A和人物B的语料数据文件进行训练获得相应的词向量文件;
3)搜索该词向量文件,分别获得人物A的名称和人物B的名称对应的词向量,其中,
人物A的名称对应的词向量记为:
vA=(d1,d2,...,d100)
人物B的名称对应的词向量记为:
vB=(p1,p2,...,p100)
定义人物A和人物B的关系为字符串A-B,将所述关系A-B表示为向量:
vA-B=(d1-p1,d2-p2,...,d100-p100)
定义关系A-B的关系强度为:
-|vA-B|
定义关系A-B的关系相似度为向量vA和向量vB的余弦值,该余弦值越大,则关系A-B关系类型相似度越高,反之相似度越低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010153660.9/1.html,转载请声明来源钻瓜专利网。