[发明专利]为选定上下文构造词典有效
申请号: | 201480077830.2 | 申请日: | 2014-10-15 |
公开(公告)号: | CN106462579B | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | D·常;J·李;Z·刘;C·C·B·麦克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本文提出了与构造针对限定上下文的词典有关的各种技术。社交媒体文本被获取,其中所述社交媒体文本具有与其对应的上下文数据。社交媒体文本被编码以形成编码文本(Unicode格式),并且上下文数据被指派给该编码文本。通过基于诸如位置之类的上下文数据对编码文本进行过滤来形成针对限定上下文的文本语料库。单词或短语在文本语料库中出现的频率被用于标识要被包括在词典中的单词或短语。 | ||
搜索关键词: | 选定 上下文 构造 词典 | ||
【主权项】:
1.一种计算系统,包括:处理器;以及存储器,所述存储器包括由所述处理器执行的词典生成器系统,所述词典生成器系统被配置成生成用于上下文文本的词典,所述词典生成器系统被配置成基于混合语言单词或混合语言短语在所述上下文文本中出现的频率将混合语言单词或者混合语言短语中的至少一个包括在所述词典中,其中所述词典生成器系统进一步包括:被配置成对所述上下文文本中的编码词目执行多次扫描以形成复合词的扫描器组件,其中所述词典生成器系统被配置成基于所述复合词来生成所述词典,并且其中每次扫描具有被指派给其的预定值,所述预定值定义了要被包括在每次扫描的每个复合词中的单词的数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201480077830.2/,转载请声明来源钻瓜专利网。
- 上一篇:数据库条目查询和更新的方法
- 下一篇:媒体组织