[发明专利]一种题目特征表示方法、装置及存储介质有效
申请号: | 201910469110.5 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110362723B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 张家新 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/907;G06F16/33;G06F16/36 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 题目 特征 表示 方法 装置 存储 介质 | ||
1.一种题目特征表示方法,应用于电子装置,其特征在于,包括:
获取题目中的多个知识点,通过知识点之间的关系构成知识图谱;
使用自定义词库来对题目中的文本内容进行数据清洗,使得所述文本内容仅保留存有在自定义词库中的词语;
通过词向量算法将经过数据清洗后的文本内容中的每个词转化成词向量;
通过字符向量算法将题目中的公式转化成字符向量;
通过卷积-反卷积自编码器将题目中的图像转换为像素矩阵;
获取所述知识图谱的实体向量,将所述实体向量、词向量、字符向量、像素矩阵组合在一起,形成题目信息矩阵,
获取所述知识图谱的实体向量的方法是:所述知识图谱包括多个相互连接的三元组,各三元组采用TransE模型来生成实体向量,
采用TransE模型来生成实体向量的过程中,对于每个实体向量,将上下文中涉及的各知识点所对应的实体向量采用加权平均或者加权求和的方式来表示该实体向量,其对应的公式如下:
和
Am=wm-kAm-k+…+wm-1Am-1+wm+1Am+1+…wm+nAm+n
其中,Am是TransE模型将知识图谱中的一个三元组转换成的实体向量;
Am-1是实体向量Am的上文中Am之前第一个实体向量;
wm-1是实体向量Am-1的权重系数;
Am-k表示实体向量Am的上文中Am之前第k个实体向量;
Am+1是实体向量Am的下文中Am之后第一个实体向量;
wm+1是实体向量Am+1的权重系数;
Am+n表示实体向量Am的下文中Am之后第n个实体向量。
2.根据权利要求1所述的题目特征表示方法,其特征在于,
所述TransE模型定义距离函数d(h+r,t)来调整h+r与t之间的距离,采用最小化目标函数,使得距离函数d(h+r,t)最小,目标函数如下:
其中,h是三元组的头实体;
r是头实体和尾实体的关系;
t是三元组的尾实体;
h'是负样本的头实体,是随机生成的;
t'是负样本的尾实体,是随机生成的;
S是知识图谱中的三元组;
S'是负采样的三元组,通过替换h或t所得;
γ是取值大于0的间隔距离参数;
[x]+表示正值函数,即x0时,[x]+=x;当x≤0时,[x]+=0。
3.根据权利要求1所述的题目特征表示方法,其特征在于,
通过字符向量算法将题目中的公式转化成字符向量的方法是:对照自定义的字符表把字符转换成字符向量,从而形成多个字符向量,所述字符表包括字符以及与字符一一对应的数字。
4.根据权利要求1所述的题目特征表示方法,其特征在于,所述方法还包括题目推荐步骤:
根据用户检索的输入信息形成检索信息矩阵,通过欧几里得距离方法计算题目信息矩阵与检索信息矩阵的欧几里得距离,将欧几里得距离小于设定的阈值的题目推荐给用户。
5.根据权利要求4所述的题目特征表示方法,其特征在于,所述方法还包括重复题目剔除步骤:
比较两个题目的题目信息矩阵的余弦相似度,余弦相似度高于相似度阈值则认定两个题目为重复的题目,并剔除其中一个题目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910469110.5/1.html,转载请声明来源钻瓜专利网。