[发明专利]一种跨语言推荐方法和系统在审
申请号: | 201610363346.7 | 申请日: | 2016-05-26 |
公开(公告)号: | CN106055623A | 公开(公告)日: | 2016-10-26 |
发明(设计)人: | 符文君;陈勇;魏圣磊;王鹏;王云飞;张振海 | 申请(专利权)人: | 《中国学术期刊(光盘版)》电子杂志社有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100084 北京市海淀区清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种跨语言推荐方法和系统,包括:基于用户检索会话日志构建及更新的双语检索词向量模型,挖掘双语检索词间的关联性;基于中英双语平行语料库构建及更新的双语概念向量模型,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,解析用户输入检索串,过滤噪声字符;基于双语检索词向量模型和双语概念词向量模型构建的推荐词计算模块,查找计算相似推荐词;长尾检索词处理模块,对不常见的低频检索词,经过检索词改写和同义词查找处理;结果输出模块,将经过后处理的推荐词呈现给用户。该发明无需在线人工翻译,提高了用户的检索效率,通过长尾检索词的相关检索词推荐方法,提高了推荐覆盖率,扩大了相关检索词的支持范围,通过动态更新推荐模型的机制,使模型能及时反映检索系统用户关注的最新研究热点和研究趋势。 | ||
搜索关键词: | 一种 语言 推荐 方法 系统 | ||
【主权项】:
一种跨语言推荐方法和系统,其特征在于:包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话中,既检索了“机器学习”,又检索了“machine learning”和“machine learnin galgorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。模型的更新主要分三步:首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:模型构建步骤:第一步,会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行 为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;第二步,生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;第三步,训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练双语检索词向量模型。模型更新步骤:第一步,更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;第二步,更新训练数据,根据新的会话数据,更新原有训练数据集;第三步,动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语word embedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的词向量模型及参数,在文本训练数据集上,训练双语概念词向量模型。模型的更新主要分两步:首先,更新中英双语文献平行语料数据,然后,加载原有双语概念词向量模型,采用动态增量更新方式对双语概念词词向量进行更新。具体如下:(1)更新双语训练数据,首先,获取新中英双语文献平行语料数据,然后,从中提取平行语料数据,最后,按模型需求,组织并更新待用的模型训练数据集;(2)动态增量更新双语概念词向量模型,基于原模型词汇表及双语概 念词向量,采用动态增量更新方式,更新双语概念词向量模型及词汇表;步骤三:检索串预处理模块,检索串预处理主要用于解析用户输入检索串,过滤噪声字符;步骤四:推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,首先,对现有词向量模型进行单位化处理;然后,根据预设的向量夹角余弦相似度计算公式,在两个模型中,分别计算检索词和可能的推荐词之间的相似度;最后,按预设的权重合并,排序输出相似性最高的前K个推荐词,K为预先指定的数目,本实施例中,K取20。具体如下:首先,模型预处理,单位化两模型词向量,预处理主要包括检查并单位化两模型的词向量,其次,计算检索词与模型词向量的相似度,采用基于余弦度量法及预设权重的方法,具体公式如下:余弦度量法(cosine measure),
其中:
表示向量
的长度(模),加权相似度(weighted similarity),sim(x,y)=α·sim1(x,y)+(1‑α)·sim2(x,y),其中,simi(x,y)为各模型对应的相似度,sim(x,y)为计算得到的最终相似度,α为预设的权重(默认0.5),最后,排序输出最相似的前K个推荐词,K为预先指定的数目,本发明中取20;步骤五:长尾检索词处理模块,长尾检索词处理主要包括检索词改写和同义词查找,检索词改写,基于编辑距离策略,同义词查找策略包括缩略语还原扩展、基于同义词典查找和拼音翻译,同义词查找,具体方法包括:缩略语还原,基于同义词典查找,拼音翻译。,具体如下:,第一,基于编辑距离算法,对检索词进行改写后,重新查找,首先基于预设的策略或算法,对检索词进行改写,本发明中采用基于编辑距离的方法,然后返回步骤四中的计算检索词与模型词向量的相似度,重新查找相应的相似性最高的检索词作为推荐结果;第二,基于缩略语还原、同义词典及拼音翻译方法,查找同义 词,缩略语还原,通过查找缩略语词典,将还原后的全称作为推荐结果,本发明中,缩略语词典的词条数据格式为<英文缩略语,英文全称,中文释义>,如检索词为NER,缩略语词典中该缩略语对应的英文全称是“Name Entity Recognition”,中文释义为“命名实体识别”,则将“Name Entity Recognition”和“命名实体识别”作为推荐结果返回给用户,基于同义词典查找,通过查找预设的同义词典,或其他资源(如:WordNet),将得到的同义词作为推荐结果,拼音翻译,对检索词进行拼音识别,如果识别出检索词为拼音,通过拼音‑汉字词典、隐马尔科夫模型等方法,将拼音翻译为汉字,作为推荐结果;步骤六:推荐词后处理模块,推荐词的后处理旨在改善、提高用户体验,主要包括邻近词拼接和相似词过滤等。步骤七:结果输出模块,将推荐词反馈给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于《中国学术期刊(光盘版)》电子杂志社有限公司,未经《中国学术期刊(光盘版)》电子杂志社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610363346.7/,转载请声明来源钻瓜专利网。