[发明专利]一种基于消息文本判断用户性别的方法和系统在审

申请号：	201711184662.9	申请日：	2017-11-23
公开（公告）号：	CN107832304A	公开（公告）日：	2018-03-23
发明（设计）人：	余建兴	申请（专利权）人：	珠海金山网络游戏科技有限公司;珠海西山居移动游戏科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	广州嘉权专利商标事务所有限公司44205	代理人：	樊思远
地址：	519000 广东省珠***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于消息文本判断用户性别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于消息文本判断用户性别的方法，其特征在于包括以下步骤：

接收待测文本；

提取待测文本的文本特征；

将提取的对应待测文本的文本特征的代入分类模型，判断对应该待测文本的用户性别，

其中，所述分类模型基于长短期记忆神经网络；

所述文本特征包括所述待测文本的词频和哈夫曼编码。

2.根据权利要求1所述的方法，其特征在于，提取待测文本的文本特征的步骤包括以下子步骤：

对待测文本分词，以生成对应该待测文本的一个或多个待测词；

统计待测词的词频；

基于哈夫曼树编码待测词，生成对应该待测词的哈夫曼编码；

基于待测词的词频和哈夫曼编码，利用CBOW模型输出对应的嵌入向量，

所述文本特征包括该嵌入向量。

3.根据权利要求2所述的方法，其特征在于，对待测文本分词的步骤中，包括以下子步骤：

基于分词词典，构建待测文本的有向无环图，其中，利用HMM模型的viterbi算法对该分词词典中未收录词进行分词处理；

利用动态规划寻找有向无环图的最大概率路径；

输出对应最大概率路径的分词结果。

4.根据权利要求2所述的方法，其特征在于，统计待测词的词频的步骤之前，还包括以下步骤：

利用词典匹配待测词，以滤除停用词、高于预设词频的词和低于预设词频的词。

5.根据权利要求2所述的方法，其特征在于，基于待测词的词频和哈夫曼编码，利用CBOW模型输出对应的嵌入向量的步骤之前，还包括以下步骤：

对待测词中的语气词的词频进行加权，以提高语气词的词频的权重。

6.根据权利要求1所述的方法，其特征在于，所述文本特征还包括所述待测文本中的疑问句的比例。

7.根据权利要求6所述的方法，其特征在于，如果所述待测文本含有疑问词且以语气词结尾，则判断所述待测文本为疑问句。

8.一种基于消息文本判断用户性别的系统，其特征在于包括：

第一模块，接收待测文本；

第二模块，提取待测文本的文本特征；

第三模块，将提取的对应待测文本的文本特征的代入分类模型，判断对应该待测文本的用户性别，

其中，所述分类模型基于长短期记忆神经网络；

所述文本特征包括所述待测文本的词频和哈夫曼编码。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中所述方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于珠海金山网络游戏科技有限公司;珠海西山居移动游戏科技有限公司，未经珠海金山网络游戏科技有限公司;珠海西山居移动游戏科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711184662.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载