商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地。本文帮助你一步步用Python做出自己的情感分析结果,难道你不想试试看? 需求 如果你关注数据科学研究或是商业实践,“情感分析”(sentiment analys…
分类:数据挖掘
中文文本分类对比(经典方法和CNN)
背景介绍 笔者实验室项目正好需要用到文本分类,作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类: 基于传统机器学习的文本分类 基于深度学…
阿里云数加平台尝试之简单数据统计
遇到的问题 我们的电商平台每天都会产生一些访问及销售数据,最开始的时候仅仅需要统计各店铺的数据。有一天,产品妹子说:“我们现在还需要渠道的数据,你给搞一下吧。” 由于以前并没有做过数据统计相关的工作,所以最开始的数据统计…
[Practice] 使用python词云打造一个春
“盼望着,盼望着,东风来了,春天的脚步近了”,惊蛰过后的申城已不再春寒料峭,草长莺飞的日子里,再次看到朱自清先生的《春》,恍然中回到年少的课堂,那些春日的时光真是恣意。 十多年过后再读这篇文章,词藻不算华丽,但每词每句都…
数据挖掘实战总结
零、 引言 此篇文章的初版,是笔者照着kaggle竞赛社区中Titanic项目中的两篇文章实战后的总结,两篇文章分别为: Titanic Data Science Solutions 第一篇文章是以Titanic项目为例…
【实现】利用KNN约会分类
代码来自于《机器学习实战》 问题背景 小红经常在约会网站寻找适合自己的约会对象。经过自己的总结,发现曾经交往过三种类型的人: 不喜欢的人 魅力一般的人 极具魅力的人 发现了上述规律,小红还是无法将约会网站推荐的匹配对象归…
数据挖掘之Boosting&AdaBoost
大纲: Boosting介绍 AdaBoost 算法 1. 背景知识 (1)PAC学习模型(Probability Approximately Correct) 机器学习中,训练样本再大也不可能代表某类事物本身,所以从训…
【实现】利用朴素贝叶斯进行邮件分类
利用基于概率论的贝叶斯分类器,对收取的邮件【英文】进行分类。【简易版】 文本分类待续 1. 收集数据 收集的数据包含两类:垃圾邮件和正常邮件。每类中有25个样本。 数据集分类 邮件内容 2. 数据处理 1)要从文本中获取…
Mac安装Pillow模块
Mac Python上安装Pillow报错: ValueError: jpeg is required unless explicitly disabled using 问题原因: 这是因为在Pillow3.0以上的版本…
【实现】利用决策树推荐隐形眼镜类型
背景介绍:根据患者眼部状况的观察条件,利用决策树来向患者推荐隐形眼镜的类型。 1. 收集数据 数据集来自于UCI数据库的隐形眼镜数据集。 数据格式 2. 准备数据 解析tab键分割的数据行。 def read2DataS…
数据挖掘之数据预处理
1. 结构化数据的特征 1. 结构化数据特性 2. 常见数据集类型 2. 数据集类型 3. 数据预处理的流程 3. 预处理流程 4. 数据质量 数据挖掘过程中 数据…
数据挖掘之产生模型VS判别模型
1.概述 产生式模型:无穷样本–>概率密度模型–>产生模型–>预测 判别式模型:有限样本–>判别函数–>预测模型–&g…