[发明专利]一种基于语义匹配的人才搜索推荐方法及系统在审

申请号：	201611252522.6	申请日：	2016-12-30
公开（公告）号：	CN106777296A	公开（公告）日：	2017-05-31
发明（设计）人：	杨洋;林泽琳;潘嵘;赵泛舟;李训耕;郑洋;潘周恒	申请（专利权）人：	深圳爱拼信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市南山区南山街道科***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义匹配人才搜索推荐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种人才搜索推荐技术，尤其涉及一种基于语义匹配的人才搜索推荐方法及系统。

背景技术

市场上各种招聘网站的人才搜索推荐系统都是使用关键词检索技术，系统通过用户输入的关键词，在一堆简历中，搜出有对应的关键词的简历，目前的搜索方式存在下列问题：用户需要对招聘职位足够了解，才能提炼出精准的关键词搜到合适的简历，对用户有一定的专业要求；通过关键词搜索出来的简历大部分不是用户所需要的，由于关键词在不同的语句中是具有不同意思，系统无法识别关键词的含义，只要简历中有这个词就会被搜出来，从而导致匹配的质量下降；关键词是比较片面，一个岗位可以有很多关键词组成，但是每次的关键词搜索只能搜出部分简历，漏掉了有相似关键词的合适简历；目前的人才搜索推荐系统，输入的关键词较多时，由于需要全都匹配到，搜到的简历会很少。输入关键词较少时，会出现大量不是用户需要的简历；用户找一个职位的简历，需要频繁输入不同的关键词搜简历，搜索的效率低下，重复工作多；对于搜索结果的排序通常是基于输入的关键词的出现的概率，而不是识别简历文本意思是否符合需求，导致用户需要查看上百个简历，才能找到几个合适的简历。

由于语言表述的模糊性与多样性，在职位要求中可能会出现同一个词在不同的上下文中的意思不一样的情形，也可能出现不同的词表达是同一个意思的情形。在关键词检索系统中，由于词语是严格的按照字面来匹配的，用户需要严格按照关键词来搜索，才能检索到合适的简历，这一特性导致用户在使用现有的人才检索系统的花费的时间较长。造成这个问题的深层次原因是现在的检索系统是基于语言文字的计算机存储内容来做的，文字存储的是编码（通用的是UTF-8）后的二进制内容，一个文字一般是1~4个字节，检索系统在库里精确查找出现这些字节内容的文本。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，为了克服语言表述的多样性导致的检索门槛高，耗时长的问题，通过语义分析系统对招聘职位要求中的各种表达进行了高维向量化表示，不再通过语言表达的字面匹配来检索，而是转化为数学向量来检索。经过向量化后的表达之间的相似度可以通过高维空间中的距离来表示，这样用户只需要输入多样表达中的一种，系统即可识别相近的表达并建立联系，解决了模糊和多样的语义的识别问题，缩短了人才搜索的时间，提高了使用者的搜索效率。

为实现上述目的，本发明提供一种基于语义匹配的人才搜索推荐方法，包括：

步骤1，接收用户端输入的招聘信息；

步骤2，根据获取的所述招聘信息，进行解析；

步骤3，对解析后的招聘信息进行向量化计算，生成向量化数据；

步骤4，比较所述生成的向量化数据与数据库中预存储的向量化数据的相似度；

步骤5，将比较结果输出至用户端。

更具体的，在步骤1之前还包括：

收集各个渠道的简历信息，将收集到的简历信息进行统一结构化，提取有效字段，将各个字段进行向量化处理，生成向量化数据，存储在数据库中。

优选的，收集的简历格式包括文本、HTML、Word、PDF格式。

优选的，所述收集各个渠道的简历信息，将收集到的简历信息进行统一结构化，提取有效字段，将各个字段进行向量化处理，生成向量化数据，存储在数据库中，还包括：

对收集的简历信息进行数据清洗，从简历信息抽取各个不同的字段，打上标签；将字段内容统一转换为标准形式。

优选的，所述根据获取的所述招聘信息，进行解析，具体包括：