[发明专利]识别复合词的方法、装置、设备及存储介质在审
申请号: | 202211139840.7 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115496065A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 孔琳琳;叶林;刘同华;蒋勇翔;李振华;徐融冰;傅凌进;谭智仁;吴瀚宇;杨崇;李翔;刘洋洋;李帆;张虎;雷毅;骆仲军;傅文林;吴翰清;赖集佳;贺同 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/953 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 复合词 方法 装置 设备 存储 介质 | ||
本说明书实施例提供一种识别复合词的方法、装置、设备及存储介质,所述方法包括:获取待识别词语;向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
技术领域
本说明书实施例涉及自然语言处理技术领域,尤其涉及识别复合词的方法、装置、设备及存储介质。
背景技术
语素是最小的语音语义结合体,即最小的语言单位;一个语素能够独立表达一个完整的语义。复合词是指由至少两个作为词根的语素按一定的规则构成的词语,词义由两个语素的语义复合构成。如建立词库等很多业务场景下,需要识别某个词语是否是一个复合词;目前都是由人工审核,效率低下,需要投入较大成本。
发明内容
为克服相关技术中存在的问题,本说明书实施例提供了识别复合词的方法、装置、设备及存储介质。
根据本说明书实施例的第一方面,提供一种识别复合词的方法,包括:
获取待识别词语;
向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
根据本说明书实施例的第二方面,提供一种识别复合词的装置,包括:
获取模块,用于:获取待识别词语;
搜索模块,用于:向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别模块,用于:识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现前述第一方面所述方法实施例的步骤。
根据本说明书实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述方法实施例的步骤。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例设计了利用搜索引擎的能力来识别复合词,通过向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。由于搜索引擎通常具有从全网获取数据的能力,而全网的数据可以很直观地反映出待识别词语是否已经实际作为一个整体被用户广泛使用,进而依据待识别词语与搜索结果的匹配情况,可以确定该待识别词语是否可以是复合词,解决了人工审核低效的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1A至图1C分别是本说明书根据一示例性实施例示出的一种网站中网页的示意图。
图2A是本说明书根据一示例性实施例示出的一种识别复合词的方法的流程图。
图2B是本说明书根据一示例性实施例示出的一种搜索结果的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211139840.7/2.html,转载请声明来源钻瓜专利网。