[发明专利]实体多音字消歧方法和实体多音字消歧设备在审
申请号: | 201610342051.1 | 申请日: | 2016-05-20 |
公开(公告)号: | CN107402933A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 房璐;缪庆亮;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 多音字 方法 设备 | ||
1.一种实体多音字消歧方法,包括:
实体识别步骤,用于从输入的文本中识别出包括多音字的至少一个实体;以及
确定发音步骤,对于所述至少一个实体中的每个实体,将该实体链接到关联开放数据LOD的数据集中的相应实体,并且基于所述相应实体的其属性值包含发音的至少一个属性和/或与所述相应实体相关联的发音,确定该实体的发音。
2.根据权利要求1所述的实体多音字消歧方法,其中,所述至少一个属性包括其属性值直接为发音的至少一个第一预定属性。
3.根据权利要求2所述的实体多音字消歧方法,其中,所述至少一个属性还包括其属性值包含能够利用至少一个发音提取模板所提取出的发音的至少一个第二预定属性。
4.根据权利要求2所述的实体多音字消歧方法,其中,所述至少一个第一预定属性是通过以下方式获得的:
获得所述LOD的数据集中的每个实体的名字;
根据该实体的名字中的每个字在字典中的所有发音来列出该实体的所有发音作为候选发音;
如果在该实体的属性中存在其属性值与该实体的候选发音中的任一个发音完全匹配的属性,则选择该属性作为一个候选属性;以及
在针对所述LOD的数据集中的所有实体所选择出的所有候选属性当中,选择其表示发音的概率大于预定阈值的至少一个候选属性作为所述至少一个第一预定属性。
5.根据权利要求4所述的实体多音字消歧方法,其中,所述候选属性的所述表示发音的概率是所述候选属性的属性值为发音的次数与所述 候选属性在所述LOD的数据集中的出现总次数的比值。
6.根据权利要求3所述的实体多音字消歧方法,其中,所述至少一个发音提取模板是通过以下方式生成的:
对于所述LOD的数据集中的包括所述至少一个第一预定属性中的任意第一预定属性的每个实体,根据该实体的所述任意第一预定属性的属性值确定该实体的发音;
确定该发音在该实体的包含发音的其他属性的属性值中的出现位置的规律性;以及
根据所述LOD的数据集中的包括所述至少一个第一预定属性中的任意第一预定属性的所有实体来自动生成所述至少一个发音提取模板。
7.根据权利要求3所述的实体多音字消歧方法,其中,所述至少一个第一预定属性的属性值和所述至少一个第二预定属性的属性值是字符串类型的属性值。
8.根据权利要求3所述的实体多音字消歧方法,其中,对于所述至少一个实体中的每个实体:
如果该实体所链接到的对应实体的属性包含所述至少一个第一预定属性中的一个第一预定属性,则将所述一个第一预定属性的属性值作为该实体的发音;以及
如果该实体所链接到的对应实体的属性不包含所述至少一个第一预定属性中的任一个第一预定属性,则利用所述至少一个发音提取模板来确定该实体的发音。
9.根据权利要求8所述的实体多音字消歧方法,其中,利用所述至少一个发音提取模板来确定所述至少一个实体中的一个实体的发音包括:
利用所述至少一个发音提取模板来匹配所述一个实体所链接到的对应实体的至少一个属性的字符串类型的属性值,并且将所匹配的字符串作为所述一个实体的发音。
10.一种实体多音字消歧设备,包括:
实体识别单元,被配置成从输入的文本中识别出包括多音字的至少一个实体;以及
确定发音单元,被配置成对于所述至少一个实体中的每个实体,将该实体链接到关联开放数据的数据集中的相应实体,并且基于所述相应实体的其属性值包含发音的至少一个属性和/或与所述相应实体相关联的发音,确定该实体的发音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610342051.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用户标签的扩展处理方法、文本推荐方法和装置
- 下一篇:公交线路推荐方法及装置