[发明专利]一种问题文本关键字提取方法在审
申请号: | 202010694075.X | 申请日: | 2020-07-17 |
公开(公告)号: | CN111831809A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 齐明;肖鹏;王珏;侯胜龙 | 申请(专利权)人: | 北京首汽智行科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 李世端 |
地址: | 100026 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问题 文本 关键字 提取 方法 | ||
本发明公开的问题文本关键字提取方法,涉及文本处理技术领域,通过接收用户输入的问题文本并利用IKAnalyzer分词工具,对问题文本进行分词处理,得到该问题文本的多个关键字,利用TF‑IDF算法,分别计算各个关键字的第一TF‑IDF值,根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF‑IDF值,根据第二TF‑IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF‑IDF值最大的关键字作为问题文本的关键字,能够精确提取用户上报的问题文本中的关键字,对预设的问题类型标签及问题描述标签进行修正,提供了产品版本迭代的依据,有助于后续运维绩效评定和功能改进工作,提升了用户体验。
技术领域
本发明涉及文本处理技术领域,具体涉及一种问题文本关键字提取方法。
背景技术
随着社会的发展,使用共享交通工具(共享单车及共享汽车等)出行已深受人们喜欢。由于用车场景多、用车渠道复杂、车辆来源众多,导致用户在用车过程中经常遇到各类问题,用户通过系统的问题上报或客服留言功能上报问题文本后,如何从问题文本中精确地提取关键字是个关键的问题。
目前,主要采用CRM系统维护用户上报的问题文本的问题类型标签及问题分类标签,在上报场景中提示问题类型标签,同时提示该问题类型对应的多个问题描述标签,用户通过选择问题类型标签及标问题描述签确认问题范围,同时录入具体的内容。整个问题文本上报过程中,选择问题类型标签及问题描述标签尤为重要,但实际情况下,可能存在用户问题类型标签及问题描述标签选错或未选择情况(由于用户体验原因,问题类型标签及问题描述标签无法约束强制选择),如,当用车过程中出现因雨刷器无玻璃水而导致雨刷器不能正常使用时,如果用户只选择雨刷器未选择玻璃水,上报的问题文本遗漏玻璃水问题,导致无法完成后续运维绩效评级和功能改进工作,用户体验较差。
发明内容
为解决现有技术的不足,本发明实施例提供了一种问题文本关键字提取方法,该方法包括以下步骤:
接收用户输入的问题文本并利用IKAnalyzer分词工具,对所述问题文本进行分词处理,得到所述问题文本的多个关键字;
利用TF-IDF算法,分别计算各个关键字的第一TF-IDF值;
根据各个关键字对应的衰减函数,分别计算各个关键字的第二TF-IDF值;
根据第二TF-IDF值的大小,对各个关键字进行排序,生成关键字集合并将TF-IDF值最大的关键字作为所述问题文本的关键字。
优选地,分别计算各个关键字在的第二TF-IDF值包括:
利用公式y=f(x)t,计算各个关键字在对应的衰减函数下的第二TF-IDF值,其中,f(x)为关键字的衰减函数,t为关键字的第一TF-IDF值。
优选地,在提取值最大的TF-IDF值对应的关键字作为所述问题文本的关键字之后,所述方法还包括:
分别判断所述关键字集合中前设定位数的关键字是否命中预设的问题类型标签,若否,则用所述关键字替换预设的问题类型标签。
优选地,在提取值最大的TF-IDF值对应的关键字作为所述问题文本的关键字之后,所述方法还包括:
分别判断所述关键字集合中前设定位数的关键字是否命中预设的问题描述标签,若否,则用所述关键字替换预设的问题描述标签。
优选地,所述问题文本包括多个问题类型的问题文本。
本发明实施例提供的问题文本关键字提取方法具有以下有益效果:
利用基于衰减函数的TF-IDF算法,能够精确提取用户上报的问题文本中的关键字,对预设的问题类型标签及问题描述标签进行修正,提供了产品版本迭代的依据,有助于后续运维绩效评定和功能改进工作,提升了用户体验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京首汽智行科技有限公司,未经北京首汽智行科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010694075.X/2.html,转载请声明来源钻瓜专利网。