[发明专利]标记搜索语义角色的结构化查询信息表达方法有效
申请号: | 202011640600.6 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112685440B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 王程 | 申请(专利权)人: | 上海欣兆阳信息科技有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F40/30;G06N20/00 |
代理公司: | 合肥市科融知识产权代理事务所(普通合伙) 34126 | 代理人: | 刘冉 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 搜索 语义 角色 结构 查询 信息 表达 方法 | ||
1.标记搜索语义角色的结构化查询信息表达方法,其特征在于,从用户输入的搜索查询中提取结构化查询信息,将自然语言文本表示成结构化数据,准确解析用户的搜索意图,提升用户的搜索满意度;基于查询的潜在语义结构并对搜索结构化查询信息提取进行形式化的表示,提出标记搜索语义角色的概念并给出其完整定义:将用户输入的搜索查询表示为受核心词支配的结构化数据格式,标记出搜索查询中的核心词和受其支配的语义论元;
标记搜索语义角色从语句的结构特征上对用户输入的搜索查询进行解析,理解把握用户的搜索意图,主要包括标记搜索语义角色的架构、基于半监督条件随机域的查询核心词识别、基于半监督条件随机域的结构化查询信息提取,具体为:
第一,标记搜索语义角色的架构,对用户输入的搜索查询进行深层次的解析,把用户输入的搜索查询切分成若干个独立的语义单元并将其分配到预先设定的语义类别,采取一种递进的方式实现标记搜索语义角色的方法,包括两部分:首先识别出用户输入查询的关键成分,即核心词,关键成分直接表示用户真正的搜索查询意图,当无法对搜索查询进行深层次的结构化解析时,核心词保证相关性在可控范围内;其次对用户输入的搜索查询进行深层次解析,从用户输入的搜索查询中提取结构化的信息,识别用户真正的搜索意图和潜在需求;
第二,基于半监督条件随机域的查询核心词识别,对用户输入的搜索查询建立模型,识别出搜索查询中的核心词并将其分类,从概率角度推导查询语句的生成过程,采用一种三层贝叶斯半监督概率模型建立模型,将搜索查询中的核心词视为文本,将核心词的上下文信息作为组成文本的词汇,核心词的类别作为主题,采用一种半监督条件随机域模型进行核心词的挖掘和分类;
第三,基于半监督条件随机域的结构化查询信息提取,采用一种半监督条件随机域模型来提取结构化查询信息,将用户输入的自然语言文本表示成结构化查询数据,首先提出一种半自动标记方法对大量的查询进行前置标记,然后综合采用少量的人工标记数据和大量的半自动标记数据来训练模型并对未标记数据进行标记,采用半监督条件随机域的方法训练模型对未标记数据进行结构化查询信息提取。
2.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,语义角色标记是标记一个语句中的谓语和受其支配的其它成分,是对语句的结构进行深入剖析从而进行语义层面解析的一种方法,语义角色标记识别出一个语句中的谓语和受其支配的其它语义论元,标记搜索语义角色对搜索查询中各个语义角色进行自动标记,分析查询的结构从而深层次解析用户的搜索意图,查询语句受核心词支配,查询中的其它成分从属于核心词;
标记搜索语义角色的定义为:将用户输入的搜索查询表示为受核心词支配的结构化的数据格式,标记出搜索查询中的核心词和受其支配的其它语义论元,其形式化定义为:
p→{ProWord;SeUnit1,SeUnit2,…,SeUnitn}
其中p表示用户输入的搜索查询,ProWord表示查询中的核心词,SeUniti表示需要标记的语义单元,n表示定义的语义单元的个数。
3.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,引入主题模型:在判断文本相关性时不仅考虑词语共现的情况,而且考虑文本所表达的深层次语义,引入主题模型进行语义分析,主题模型中的主题表示为一组相同概念的泛化表述形式,用生成模型来阐述文本的生成过程:一篇文本包含若干的主题,每个主题以概率选择若干词汇,一篇文本的生成过程表示为:
q(词汇|文本)=∑主题q(词语|主题)*q(主题|文本)
主题模型的矩阵形式:其中等式左边的矩阵表示每个文本中每个词语的词频,即词语出现的概率;等式右边第一个矩阵表示每个主题中每个词语的出现概率;等式右边第二个矩阵表示每个文本中不同主题出现的概率,给定一系列文本,预先对文本进行前置处理,然后统计每个文本中单词出现的频率得到左边的“文本-词语”矩阵,主题模型是对左边这个矩阵进行分解,学习出右边两个矩阵;
条件随机域主题模型对文字隐含的主题建立模型,并从海量的文本中把表述同一语义主题的文本聚在一起,采用一种三层贝叶斯半监督概率模型识别查询核心词,核心词对应于文本,核心词的上下文信息对应文本中的词汇,核心词的类别对应主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海欣兆阳信息科技有限公司,未经上海欣兆阳信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011640600.6/1.html,转载请声明来源钻瓜专利网。