[发明专利]一种基础房型自动聚合方法有效
申请号: | 201710019360.X | 申请日: | 2017-01-11 |
公开(公告)号: | CN106886565B | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 张猛;杨洪伟;陈艺方;林小俊;陈文哲 | 申请(专利权)人: | 北京众荟信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06Q50/12;G06K9/62 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 司立彬 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基础 自动 聚合 方法 | ||
1.一种基础房型自动聚合方法,其步骤为:
1)对于同一家酒店,分别从两不同来源上获取该酒店的房型名称数据,每组房型名称数据中包括多个基础房型名称;
2)对每组房型名称数据分别进行结构化处理,得到该组房型名称数据中每个房型名称的结构化信息;其中,第一组房型名称的结构化信息为(a1、a2、…、ai、…、an),第二组房型名称的结构化信息为(b1、b2、…、bi、…、bn);n为结构化信息中的元素总数;
3)对步骤2)得到的所述结构化信息中的元素进行两两组合并使用决策树算法计算每一组合的匹配度;所述决策树算法构建的树结构为二叉树或非二叉树,其中每个非叶节点表示一个特征属性上的测试,连接非叶节点的分支代表该非叶节点对应的特征属性在该特征属性的值域上的输出,每个叶节点存放一个类别;计算所述匹配度的方法为:31)从房型名称的结构化信息中确定待匹配的特征;32)对每种特征进行度量得到该特征的增益率;33)选择增益率最大的特征进行分裂,形成该房型名称的决策树;34)将决策树上的叶子节点标记上对应元素组合的匹配度;
4)将基础房型名称两两组合生成若干候选聚合方案,得到一聚合方案候选集合;其中,任一候选聚合方案(a1-bi、a2-bj、…、ai-bk、…、an-bm)中每一组合ai-bk的匹配度均大于设定阈值;bi、bj、…、bk、…、bm均为第二组房型名称的结构化信息中的元素;
5)根据每一候选聚合方案中的各组合的匹配度,计算该候选聚合方案的综合得分;将综合得分最高的候选聚合方案做为最终聚合结果。
2.如权利要求1所述的方法,其特征在于,所述结构化信息的生成方法为:
41)对房型名称数据进行规范化处理;
42)对步骤41)规范化后的文本进行分词,得到房型名称的词序列;
43)从所述词序列中进行要素抽取,并标注要素类别,形成所述结构化信息。
3.如权利要求2所述的方法,其特征在于,得到所述词序列的方法为:首先采用基于词典的最大匹配分词方法对步骤41)规范化后的文本进行分词,然后对于有歧义的分词采用序列标注的分词方法进行分词,得到所述词序列。
4.如权利要求3所述的方法,其特征在于,得到所述词序列的方法为:对于待分词的汉字序列,采用正向最大匹配和逆向最大匹配分别依次寻找匹配的最长词典词,如果该汉字序列中存在没有被匹配上的单词,则将其作为单字词处理,直至该汉字序列处理完毕;对于正向最大匹配和逆向最大匹配不一致的单词作为有歧义的分词,采用有监督的序列标注的分词方法进行分词。
5.如权利要求2所述的方法,其特征在于,步骤43)的实现方法为:对于所述词序列中的每一个词,判断其是否在设定知识库中,如果在则将该词抽取出来并根据知识库标记相应的类型;形成所述结构化信息。
6.如权利要求5所述的方法,其特征在于,构建所述知识库的方法为:首先初始化若干关键词;然后对每条房型名称文本统计关键词左邻、右邻若干个字以内所有可能的词的频次;过滤掉频次小于设定阈值的词;然后对剩余的词进行筛选得到所述知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京众荟信息技术股份有限公司,未经北京众荟信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710019360.X/1.html,转载请声明来源钻瓜专利网。