[发明专利]一种语句分类系统有效
申请号: | 201910008732.8 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109857863B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 孔洋洋;李阳;朱劲松 | 申请(专利权)人: | 北京车慧科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06Q30/02 |
代理公司: | 北京市维诗律师事务所 11393 | 代理人: | 李翔;杨安进 |
地址: | 100044 北京市海淀区西直门外大街16*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 分类 系统 | ||
本申请公开了一种语句分类系统。该系统包括:第一确定模块,用于确定各个分类对应的种子语句;计算模块,用于计算各个分类对应的评论语句的属性;第二确定模块,用于根据所述评论语句的属性确定评论语句对应的分类。本申请的技术方案利用自然语言处理等技术深入挖掘海量评论语料,实现对评论语句的分类,充分利用评论语句价值。
技术领域
本申请涉及数据挖掘领域,尤其涉及一种语句分类系统。
背景技术
随着互联网的发展,出现了大量针对专业细分领域的垂直门户网站,例如汽车领域、电影领域、购物领域、旅游领域等。以汽车领域为例,用户在各大垂直汽车门户网站、汽车电商网站、汽车金融网站等处留下了海量评论信息。探索并挖掘这些评论中蕴含的用户购车动机,无疑具有相当重要的意义。通过挖掘出用户购车动机,可以帮助汽车企业更深入地了解购车者,为车型车款的后续改进提供决策参考,还可以通过用户的购车动机为其推荐符合需求的车型车款,同时也为汽车网站制定广告方案提供参考。
现有技术中,各个垂直汽车门户网站主要通过提供购车动机选项供用户选择,通过这种方式获取的动机有较高的准确度,但是获取的数量、角度和深度都非常有限,且较难适应新的变化。
发明内容
有鉴于此,本申请提出了一种语句分类系统,以能够通过对评论语句的语义分析,实现评论语句分类的目的,并进一步地挖掘出新的购车动机。
根据本申请的一个方面,提出了一种语句分类系统,该系统包括:
第一确定模块,用于确定各个分类对应的种子语句;
计算模块,用于计算各个分类对应的评论语句的属性;
第二确定模块,用于根据所述评论语句的属性确定评论语句对应的分类。
优选地,第一确定模块,还用于计算各个分类对应的评论语句和各个分类对应的基础语句之间的距离;将所述距离符合第一预设条件的评论语句作为各个分类对应的种子语句。
优选地,语句和各个分类对应的基础语句之间的距离;
其中,Mi为第i个分类对应的基础语句的语义向量,Rj为第j条评论语句的语义向量。
优选地,计算模块,还用于计算各个分类对应的种子语句的质心;计算各个分类对应的评论语句到质心的距离的均值和方差;根据均值和方差计算置信区间,落在置信区间内的评论语句,为该分类对应的种子语句;
其中,所述属性包括各个分类对应的评论句子和质心的距离的置信区间。
优选地,计算模块,还用于根据计算分类k的种子语句的质心;
其中,mk表示分类k的种子语句的质心,Rk,j为分类k中第j个种子语句所对应的语义向量,pk为分类k中种子语句的数量,k为正整数。
优选地,计算模块,还用于根据计算各个分类对应的评论语句到质心的距离的均值;根据计算各个分类对应的评论语句到质心的距离的方差;
其中,μk为分类k对应的评论语句到质心mk距离的均值,σk为分类k对应的评论语句到质心mk距离的方差,Rk,j为分类k的第j个种子语句的语义向量,nk为分类k的评论语句数量。
优选地,第二确定模块,还用于计算评论语句与所述各个分类对应的种子语句的质心之间的距离;确定最大距离对应的分类;在所述最大距离在该最大距离对应的分类的置信区间内的情况下,确定该评论语句属于该最大距离对应的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京车慧科技有限公司,未经北京车慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910008732.8/2.html,转载请声明来源钻瓜专利网。