[发明专利]基于多主题语义标签信息映射的结构化处理方法及装置在审
申请号: | 201710464294.7 | 申请日: | 2017-06-19 |
公开(公告)号: | CN107315798A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 曹晓;张青;程剑华;蒋宏飞;晋耀红;杨凯程 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 语义 标签 信息 映射 结构 处理 方法 装置 | ||
技术领域
本申请涉及文本处理技术领域,尤其涉及一种基于多主题语义标签信息映射的结构化处理方法及装置。
背景技术
咨询平台是指能在短时间内为用户提供咨询结果的自动化服务平台。用户根据自身需求输入咨询平台的文本千差万别,通常是包含多个名称、子问题、计量单位以及同义词的非结构化文本。在处理这些非结构化文本过程中会出现无法识别信息或者识别的信息与用户意愿存在偏差的问题,降低咨询业务处理准确度。为了提供准确的咨询结果,咨询平台要对用户输入的非结构化文本进行结构化处理。
非结构化文本是指不能直接通过数据库二维逻辑表来表示的文本,例如,“迷你贷安全吗”,“我现在在投人人贷,陆金所,开鑫贷,帮我看一下这几个平台”等,为了识别非结构化文本,现有技术示出一种将非结构化文本信息转换成结构化形式的方法,方法通过对非结构化文本信息进行语法分析,提取关键词,并在多个关键词内寻找结构化规则中定义的文本片段,将文本信息转化成二维逻辑表。例如,当用户输入“迷你贷安全吗”这一问题时,识别出“迷你贷”、“安全吗”两个关键词,通过与结构化规则中定义的片段进行匹配,生成逻辑表,如图1所示。
在咨询平台中,用户输入的文本常包括多个名称以及多个与名称具有映射关系的关联信息,在结构化处理中需要确定这些名称与关联信息之间的映射关系。例如,当用户输入“迷你贷、人人贷危险吗?还有果树财富,你们为什么撤资,能投吗?”此时,根据输入文本所提取的名称为“迷你贷”、“人人贷”和“果树财富”,但三者在语句中对应的关联信息是不同的,即“迷你贷、人人贷”对应的是“询问安全性”,而“果树财富”对应“询问是否可投”。可见,通过现有方法在处理上述文本时,不能确定多个名称和关联信息之间的对应关系,以致出现错误,使文本结构化处理结果不能反映客户咨询问题的真实含义。
发明内容
本申请提供了一种基于多主题语义标签信息映射的结构化处理方法及装置,以解决传统方法不能正确确定映射关系的问题。
第一方面,本申请实施例提供一种基于多主题语义标签信息映射的结构化处理方法,所述方法包括:
获取非结构化文本;
从所述非结构化文本中提取关键词;
将所述关键词与预置语料进行匹配,确定至少一个语义标签信息,所述语义标签信息包括:与所述预置语料对应的标签内容、标签值以及标签描述;
将所述语义标签信息进行分类,所述语义标签信息的类别包括:名称标签和状态标签;
根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本。
可选地,所述根据预设规则,建立名称标签与状态标签间的映射关系,生成结构化文本的步骤包括:
根据状态标签的标签描述判断所述状态标签是否可以建立映射关系;
如果所述状态标签可以建立映射关系,获取所述状态标签与名称标签对应关键词之间的间隔字符数;
根据所述名称标签与所述状态标签对应关键词之间的间隔字符数,确定名称标签与所述状态标签的映射关系;
将映射关系生成结构化文本。
可选地,所述根据所述名称标签与所述状态标签对应关键词之间的间隔字符数,确定名称标签与所述状态标签的映射关系的步骤包括:
获取所述状态标签的标签值数量以及所述名称标签的标签值数量;
如果所述名称标签标签值的数量大于1,判断多个所述名称标签标签值间是否为并列关系;
根据所述状态标签的标签值数量,以及名称标签标签值间的并列关系,确定名称标签与状态标签之间的映射关系。
可选地,根据所述状态标签的标签值数量,以及名称标签标签值间的并列关系,建立名称标签与状态标签之间的映射关系,包括:
如果状态标签的标签值数量等于1,且多个名称标签标签值间没有并列关系,比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系;
如果状态标签的标签值数量等于1,且多个名称标签标签值间存在并列关系,比较多个名称标签标签值与状态标签标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值间有映射关系,且存在并列关系的多个名称标签标签值有相同映射关系;
如果状态标签的标签值数量大于1,比较多个名称标签标签值与状态标签的每个标签值对应关键词的间隔字符数,确定所述间隔字符数最小值对应的名称标签标签值与状态标签标签内容下标签值对应内容间有映射关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710464294.7/2.html,转载请声明来源钻瓜专利网。