[发明专利]一种文本表示方法及装置有效
申请号: | 201510096570.X | 申请日: | 2015-03-04 |
公开(公告)号: | CN104778158B | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 刘洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征词 词向量 文本表示 词语 文本 文本处理 聚类 句子 语义 聚类结果 权重确定 文本表达 文本向量 权重 | ||
1.一种文本表示方法,其特征在于,包括:
确定构成当前文本的各词语;
确定各词语的词向量;
对各词向量进行聚类得到多类词向量集合;
根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重,其中,所述特征词的权重,是该特征词在当前文本中出现的频次与该文本中最大频次之和,与特征词在当前文本中出现的频次的比值的对数;
根据各特征词的词向量和权重确定当前文本的文本向量。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述当前文本的文本向量进行数字指纹处理。
3.如权利要求1所述的方法,其特征在于,所述确定各词语的词向量,具体包括:在预设的词向量库中,确定与各词语对应的词向量;
其中,预设词向量库的方法,具体包括:
获取多个历史文本;
确定构成各历史文本的多个词语;
将所述历史文本中的每个词语表示成一个多维向量,将该多维向量作为所述词语的初始词向量;
将各初始词向量分别进行数字指纹处理,得到数字指纹处理后的词向量;
采用所述数字指纹处理后的词向量构成预设词向量库。
4.如权利要求1所述的方法,其特征在于,所述聚类结果包括多类词向量集合,每一类词向量集合中包含若干个词向量;
所述根据聚类结果,在各词语中确定出当前文本的特征词,具体包括:
在各类词向量集合中,确定出包含的词向量的数量超过预设阈值的词向量集合,或者,将各类词向量集合按照包含词向量的数量由大到小的顺序排序,确定出前m个词向量集合,其中,m为预设数值;
将确定出的词向量集合中的各词向量对应的词语作为特征词。
5.如权利要求1所述的方法,其特征在于,所述确定构成当前文本的各词语,具体包括:对所述当前文本进行分词,得到多个词语;在各词语中,确定出指定类型的词语;对所述指定类型的词语进行去重处理,将去重处理后的各词语作为构成当前文本的各词语;
和/或,
所述根据各特征词的词向量和权重确定当前文本的文本向量,具体包括:根据各特征词的词向量和权重,确定由多个元素构成的多维向量,将该多维向量作为当前文本的文本向量;其中,所述多维向量中的一个元素由一个特征词的词向量和该特征词的权重构成。
6.一种文本表示装置,其特征在于,包括:
第一确定模块,用于确定构成当前文本的各词语;
第二确定模块,用于确定各词语的词向量;
聚类模块,用于对各词向量进行聚类得到多类词向量集合;
第三确定模块,用于根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重,其中,所述特征词的权重,是该特征词在当前文本中出现的频次与该文本中最大频次之和,与特征词在当前文本中出现的频次的比值的对数;
第四确定模块,用于根据各特征词的词向量和权重确定当前文本的文本向量。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
处理模块,用于对所述当前文本的文本向量进行数字指纹处理。
8.如权利要求6所述的装置,其特征在于,所述第二确定模块具体用于,在预设的词向量库中,确定与各词语对应的词向量;
所述装置还包括:预设词向量库模块,用于预设词向量库;
所述预设词向量库模块具体用于,获取多个历史文本,确定构成各历史文本的多个词语,将所述历史文本中的每个词语表示成一个多维向量,将该多维向量作为所述词语的初始词向量,将各初始词向量分别进行数字指纹处理,得到数字指纹处理后的词向量,采用所述数字指纹处理后的词向量构成预设词向量库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510096570.X/1.html,转载请声明来源钻瓜专利网。