标签：数据挖掘

通过Jupyter Notebook 安装Python Packages

In software, it’s said that all abstractions are leaky, and this is true for the Jupyter notebook as it …

嘿嘿，总算又更新了。上一篇讲了如何用Python进行数据探索，这次就用一个小比赛来检验一下吧。本篇主要讲了数据探索、特征生成，以及一些常用的建模方法，比如用xgboost生成特征、blend、神经网…

上回在冰山发布的《TI7伤害之王》和《TI7小组赛英雄数据报告》收到冰友反馈：游戏数据接口API如何调用？我没有编程基础，感觉很难的样子。能不能给一些具体的例子，能一步一步学着操作的那种。内容可以再丰富一点吗？我…

1980年9月，《关于控制我国人口增长问题的公开信》标志着“一胎化”政策的开始； 1982年9月，计划生意被定为基本国策； 1982年12月，计划生育被写入宪法； 2015年10月，中共十八届五中全会,提出“全面实施一对…

承接上一篇，AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 前篇感谢大家的关注，第二篇文章我将详细介绍模型训练的过程，其中会适当融入我个人在训练时的一些经验吧，和大家分享讨论一…

论文来源：ACL 2017 论文链接：Enhanced LSTM for Natural Language Inference 今年不知道怎么回事，以短文本匹配为赛题的数据挖掘比赛层出不穷，自从Quora Questio…

前面的文章我们专门讲过，为了给没有深厚的计算机基础的研究者使用，GooSeeker分词工具在开发过程中，参考学习了多个优秀的分词软件，其中就有ROST-CM内容挖掘软件。本文专门针对分词这一个功能专项，分别讲解ROST和…

作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 从字典加载特征 from sklearn.feature_extraction import DictVectorizer staff = …

作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn import preprocessi…

作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 词袋 # 加载库 import numpy as np from sklearn.feature_extraction.text impor…

作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 稀疏特征矩阵上的降维 # 加载库 from sklearn.preprocessing import StandardScaler from…

作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 用于特征选取的 ANOVA F 值如果特征是类别的，计算每个特征与目标向量之间的卡方（$\chi^{2}$）统计量。但是，如果特征是定量…