[发明专利]使用条件随机域模型确定文本属性的系统及方法在审
申请号: | 201780091643.3 | 申请日: | 2017-06-08 |
公开(公告)号: | CN110709828A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 代大攀;宋奇 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/332;G06F40/295 |
代理公司: | 51253 成都七星天知识产权代理有限公司 | 代理人: | 袁春晓 |
地址: | 100193 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 子集 查询 获取条件 终端设备 子集确定 机场 | ||
1.一种系统,包括:
至少一个计算机可读存储介质,包括一组用于管理服务供应的指令;以及
与所述至少一个存储介质通信的至少一个处理器,其中,当执行所述指令时,所述至少一个处理器用于:
通过网络接收来自终端装置的查询;
运行所述至少一个处理器中的逻辑电路以从所述查询中提取文本;
运行所述至少一个处理器中的所述逻辑电路以确定所述文本的一个或多个子集;
运行所述至少一个处理器中的所述逻辑电路以获取经训练的条件随机域(CRF)模型;以及
运行所述至少一个处理器中的所述逻辑电路以基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
2.如权利要求1所述的系统,其中,所述文本的一个或多个子集中的每一个子集的属性包括空间属性或实体属性中的至少一个。
3.如权利要求2所述的系统,其中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
4.如权利要求3所述的系统,其中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
5.如权利要求1所述的系统,其中,所述至少一个处理器进一步用于确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
6.如权利要求1所述的系统,其中,所述经训练的CRF模型根据用于产生CRF模型的流程来产生,所述流程包括:
获取初始CRF模型;
获取多个训练样本;
确定特征模板;
基于所述多个训练样本和所述特征模板,确定一个或多个特征函数;以及
基于所述一个或多个特征函数训练所述初始CRF模型以产生所述经训练的CRF模型。
7.如权利要求6所述的系统,其中,所述多个训练样本包括历史样本,所述历史样本根据用于产生所述历史样本的流程来产生,所述流程包括:
获取历史查询;
从所述历史查询中提取文本;
确定所述历史查询的文本的至少一个子集;
获取与所述历史查询相关联的兴趣点;
根据与所述历史查询相关联的兴趣点来确定所述历史查询的文本的至少一个子集的属性;以及
根据所确定的属性和所述历史查询的文本的至少一个子集来产生所述历史样本。
8.如权利要求6所述的系统,其中,所述特征模板包括精细化特征、泛化特征或个性化特征中的至少一个。
9.如权利要求8所述的系统,其中,所述精细化特征包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
10.如权利要求8所述的系统,其中,所述泛化特征包括数字、字母、字符大小、前缀或后缀中的至少一个。
11.如权利要求8所述的系统,其中,所述个性化特征包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780091643.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:非同步实时数据流的内存内对齐和订阅处理
- 下一篇:一种数据处理的系统和方法