[发明专利]文本表示方法及系统有效
申请号: | 201610907526.7 | 申请日: | 2016-10-18 |
公开(公告)号: | CN106446264B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 徐睿峰;桂林;杜嘉晨;陆勤 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 马世中 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本表示方法及系统,所述文本表示方法包括:获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。本发明综合考虑词语的社交属性以及词语的评论习惯属性,给予了词向量更丰富的语义信息,提高了词向量表示学习的精准性,获得更加准确的文本分类结果。 | ||
搜索关键词: | 文本 表示 方法 系统 | ||
【主权项】:
1.一种文本表示方法,其特征在于,包括:步骤S10,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;步骤S20,使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;步骤S30,将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型;所述步骤S10包括:步骤S101,统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者‑词语边的权重;步骤S102,统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象‑词语边的权重;步骤S103,统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语‑词语边的权重;步骤S104,基于得到的发布者‑词语边的权重、评论对象‑词语边的权重及词语‑词语边的权重,构建基于主体间性的异质网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610907526.7/,转载请声明来源钻瓜专利网。