[发明专利]一种基于用户真实意图的语意模糊识别方法有效
申请号: | 201910053862.3 | 申请日: | 2019-01-21 |
公开(公告)号: | CN109800296B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 杜忠和;刘楚雄;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 吴瑞芳 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 真实 意图 语意 模糊 识别 方法 | ||
1.一种基于用户真实意图的语意模糊识别方法,其特征在于,包括以下步骤:
步骤S10、通过中文分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取,形成特征词列表;所述步骤S10具体包括:
步骤S11、收集项目日志数据中语义解析成功且分类正确的请求文本数据,将该请求文本数据分为n个不同的领域,并以集合的形式记为D={d1,d2,…,dn},其中di(1≤i≤n)代表第i个领域;
步骤S12、通过中文分词工具和词频矩阵分别对领域集合D中的每一个领域di进行特征词提取,得到代表每一个领域di的特征词列表feature(di)=[fdi1, fdi2 ,…,fdim];
步骤S20、对同一用户的单条请求文本数据及预设时间段内的多条请求文本数据进行分词,得到分词列表;所述步骤S20具体如下:
添加自定义词典和自定义停用词列表,然后判断分类失败的请求文本数据是否为同一用户在预设时间段内的唯一请求:如果是,则通过中文分词工具对该条请求文本数据text进行分词,得到该条请求文本数据的分词列表segment(text)=[seg1,seg2,…,segr];如果不是预设时间段内的唯一请求,则将预设时间段内的所有请求文本数据进行分词,得到该时间段内所有的请求文本数据的分词列表;
步骤S30、分别对不同领域构建隶属度函数,所述隶属度函数用于对分类失败的请求文本数据进行模糊模式识别;所述步骤S30具体如下:
构建每个领域di的隶属度函数:用于对分类失败的请求文本数据进行模糊模式识别,该隶属度函数反映的是分类失败的请求文本数据隶属于某一领域di的程度,隶属度在[0,+∞)内单调递增且变化范围在[0,1)内;其中δi=|feature(di)∩segment(text)|,表示分类失败的请求文本数据text的分词列表segment(di)与领域di的特征词列表feature(di)相交的特征词的总个数,wi表示分类失败的请求文本数据进行中文分词前被分类到领域di的初始概率;
步骤S40、分别计算分类失败的请求文本数据对不同领域的隶属度,根据最大隶属度的原则对分类失败的请求文本数据进行领域分类。
2.根据权利要求1所述的基于用户真实意图的语意模糊识别方法,其特征在于,如果相交的特征词同时出现在多个领域的特征词列表中,则该特征词的个数记为其中N表示包含该特征词的领域总数。
3.根据权利要求2所述的基于用户真实意图的语意模糊识别方法,其特征在于,所述步骤S40具体如下:
分别计算分类失败的请求文本数据属于领域di(1≤i≤n)的隶属度f(d1),f(d2),…,f(dn),然后计算fM=max{f(d1),f(d2),…,f(dn)},若fM≠0,则根据最大隶属度的原则将该请求文本数据分类到第M类领域,再进行后续处理;若fM=0,则该请求文本数据领域分类失败。
4.根据权利要求1-3任一项所述的基于用户真实意图的语意模糊识别方法,其特征在于,通过用户端的MAC地址来确定是否为同一用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910053862.3/1.html,转载请声明来源钻瓜专利网。