[发明专利]专家库建立办法和装置有效
申请号: | 201611108848.1 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106776978B | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 霍东云;崔星汉;方垚;李燕茜 | 申请(专利权)人: | 北京赛时科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06K9/62;G06Q50/00 |
代理公司: | 北京易光知识产权代理有限公司 11596 | 代理人: | 孙海龙 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专家库 建立 办法 装置 | ||
1.一种专家库建立方法,包括以下步骤:
专家样本收集步骤,收集特定领域的专家样本,包括专家的论文、专利和项目,形成训练集;
专家分类模型建立步骤,根据训练集建立专家分类模型;
直接专家识别步骤,利用所建立的专家分类模型,对全部待分类专家进行识别和分类,判断其是否属于所述特定领域的专家;
合作专家识别步骤,根据待分类专家与所述特定领域的专家的合作度确定待分类专家是否属于所述特定领域的专家。
2.根据权利要求1所述的专家库建立方法,其特征在于,在所述专家样本收集步骤,还形成测试集,所述专家分类模型建立步骤还包括使用所述测试集对所述专家分类模型进行测试和修正。
3.根据权利要求2所述的专家库建立方法,其特征在于,所述合作专家识别步骤包括:
一度合作者确定步骤,确定已识别出的所述特定领域专家中与待分类专家为一度合作者的专家,一度合作的论文、专利、项目以及其数量,即一度合作次数;
一度合作权重系数确定步骤,针对各一度合作者,根据所述一度合作的论文、专利、项目以及所述一度合作次数,确定各一度合作者的权重系数;
二度合作者确定步骤,确定已识别出的所述特定领域专家中与待分类专家为二度合作者的专家,二度合作的论文、专利、项目以及其数量,即二度合作次数;
二度合作权重系数确定步骤,针对各二度合作者,根据所述一度合作的论文、专利、项目以及所述二度合作次数,所述二度合作的论文、专利、项目以及所述合作次数确定各二度合作者的权重系数;
合作度计算步骤,根据各所述一度合作者的权重系数和各所述二度合作者的权重系数计算各待分类专家与所述特定领域的专家的合作度。
4.根据权利要求3所述的专家库建立方法,其特征在于,在所述一度合作权重系数确定步骤中,根据合作次数确定一度合作权重系数j1,合作的次数越多,一度合作权重系数j1越大,还根据合作的论文、专利、项目的质量调整各次合作权重系数,即计算所合作的论文、专利、项目与专家分类模型之间的距离,距离越小,该次一度合作权重系数越大。
5.根据权利要求4所述的专家库建立方法,其特征在于,在所述二度合作权重系数确定步骤中,二次合作的次数越多,二度合作权重系数j2越大,还根据一度合作的论文、专利、项目的质量、二度合作论文的质量调整每次二度合作的二次合作权重系数。
6.根据权利要求5所述的专家库建立方法,其特征在于,在所述二度合作权重系数确定步骤中,计算一度合作的论文、专利、项目与专家分类模型之间的距离,以及该二度合作的论文、专利、项目与专家分类模型之间的距离,并计算综合距离,距离越小,则该次二度合作权重系数越大,综合距离为考虑一度合作论文的权重调节系数和二度合作论文的权重调节系数之后得到的距离。
7.根据权利要求6所述的专家库建立方法,所述专家分类模型建立步骤包括利用文档频率法进行特征选择的步骤:将文档频率小于预定义阈值的低频词从原始向量空间中移除,所述低频词为在所有训练集的样本中出现该低频词的文档数低于第一阈值,并且在近3年的训练集的样本中,出现该低频词的文档数低于第二阈值。
8.根据权利要求7所述的专家库建立方法,所述利用文档频率法进行特征选择的步骤包括新词确认步骤:对于这样的低频词,即3年前的所有训练集的样本中均未出现,但是在近3年的训练集的样本中有大于第三阈值的样本中出现该词的,进行提示,由所述方法的使用者确认是否列入低频词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛时科技有限公司,未经北京赛时科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611108848.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索音乐的方法及装置
- 下一篇:基于遥感的矢量电子地图质量提升自动化方法