[发明专利]一种频次词典建立方法、分词方法、服务器和客户端设备在审
申请号: | 201710706164.X | 申请日: | 2017-08-17 |
公开(公告)号: | CN109408794A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 马春平;李林琳;谢朋峻;徐光伟;郎君;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;徐焕 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 词典建立 搜索词 客户端设备 行为数据 服务器 搜索 高效实现 技术效果 人工标注 数据对象 申请 统计 文本 返回 | ||
本申请提供了一种频次词典建立方法、分词方法、服务器和客户端设备,其中,该频次词典建立方法,包括:获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。利用本申请实施例提供的技术方案,解决了现有的分词方式中所存在无法有效划分新词,人工标注成本过高的技术问题,达到了简单高效实现分词的技术效果。
技术领域
本申请属于互联网技术领域,尤其涉及一种频次词典建立方法、分词方法、服务器和客户端设备。
背景技术
随着电子商务的快速发展,人们越来越多地通过购物网站进行购物。在购物网站进行类目划分或者是进行目标对象匹配的时候,往往需要进行分词处理。例如:将待分词词段“国内专柜高档雪纺裙”,通过分词方法切分为:国内专柜/高档/雪纺裙。
目前,常用的分词方法主要有:基于词典匹配的分词方法和基于统计的机器学习的分词方法。
其中,基于词典匹配的分词方法,需要严重依赖分词词典,因此如果分词词典中不存在某个新词,那么就达不到很好的分词效果。基于统计的机器学习的分词方法需要人工大量标注语料,实现起来较为繁琐,工作人员需要耗费大量的时间和精力,且基于统计的机器学习的分词方法需要切分的文本和训练语料的领域是相关,否则分词精度很低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种频次词典建立方法、分词方法、服务器和客户端设备,可达到准确高效进行电商平台分词的目的。
本申请提供一种频次词典建立方法、分词方法、服务器和客户端设备是这样实现的:
一种频次词典建立方法,包括:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的对应名称的共用字符串,以及各共用字符串的频次;
将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。
一种分词方法,包括:
提供频次词典,其中,所述频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数;
获取待切分文本;
通过所述频次词典中记载的待切分文本中各个分段词串的频次,确定对所述待切分文本的切分方案;
根据确定的切分方案对所述待切分文本进行切分。
一种分词方法,包括:
提供一频次词典,其中,所述频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数;
获取待切分文本;
获取将所述待切分文本切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述待切分文本切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述待切分文本切分为两段的所有可能切分方案中各个切分方案中两个分段词串的联合概率,以及所述待切分文本的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710706164.X/2.html,转载请声明来源钻瓜专利网。