[发明专利]一种基于相似词的汉语拼音标注方法、装置及存储介质在审
申请号: | 201910154080.9 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109977361A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于相似词的汉语拼音标注方法、装置及存储介质,该方法包括步骤:收集文本语料,根据文本语料训练分词模型、词向量模型;根据分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;当待标注词语中含有多音字时,基于多音字,根据词向量模型获取待标注词语的相似词语;根据汉语拼音词典和汉语拼音备用词典对相似词语中的多音字进行拼音标注,获得拼音标注后的相似词语;采用投票方法根据拼音标注后的相似词语确定待标注词语中的多音字的拼音并进行拼音标注;将拼音标注后的待标注词语存储至汉语拼音备用词典。本发明能减少汉语拼音的错误标注,提高汉语拼音标注的准确率和应用拼音的可靠性。 | ||
搜索关键词: | 词语 拼音标注 标注 多音字 汉语拼音 汉语拼音标注 拼音 存储介质 文本 词向量 相似词 分词 语料 备用 错误标注 分词处理 模型获取 准确率 存储 投票 应用 | ||
【主权项】:
1.一种基于相似词的汉语拼音标注方法,其特征在于,包括以下步骤:收集文本语料,根据所述文本语料训练分词模型、词向量模型;根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910154080.9/,转载请声明来源钻瓜专利网。