In software, it’s said that all abstractions are leaky, and this is true for the Jupyter notebook as it …
标签:数据挖掘
实战 - 地震后建筑修复建议预测
嘿嘿,总算又更新了。 上一篇讲了如何用Python进行数据探索 , 这次就用一个小比赛来检验一下吧。 本篇主要讲了数据探索、特征生成,以及一些常用的建模方法, 比如用xgboost生成特征、blend、神经网…
DOTA2先干掉中路一塔后有多大胜算?
上回在冰山发布的《TI7伤害之王》和《TI7小组赛英雄数据报告》收到冰友反馈: 游戏数据接口API如何调用?我没有编程基础,感觉很难的样子。 能不能给一些具体的例子,能一步一步学着操作的那种。 内容可以再丰富一点吗? 我…
“一胎化”35年,Python可视化初探中国人口变化
1980年9月,《关于控制我国人口增长问题的公开信》标志着“一胎化”政策的开始; 1982年9月,计划生意被定为基本国策; 1982年12月,计划生育被写入宪法; 2015年10月,中共十八届五中全会,提出“全面实施一对…
AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 后篇
承接上一篇,AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 前篇 感谢大家的关注,第二篇文章我将详细介绍模型训练的过程,其中会适当融入我个人在训练时的一些经验吧,和大家分享讨论一…
短文本匹配的利器-ESIM
论文来源:ACL 2017 论文链接:Enhanced LSTM for Natural Language Inference 今年不知道怎么回事,以短文本匹配为赛题的数据挖掘比赛层出不穷,自从Quora Questio…
ROST-CM软件分词和词频统计用法体验
前面的文章我们专门讲过,为了给没有深厚的计算机基础的研究者使用,GooSeeker分词工具在开发过程中,参考学习了多个优秀的分词软件,其中就有ROST-CM内容挖掘软件。本文专门针对分词这一个功能专项,分别讲解ROST和…
数据科学和人工智能技术笔记 :数据准备
作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 从字典加载特征 from sklearn.feature_extraction import DictVectorizer staff = …
数据科学和人工智能技术笔记 三、数据预处理
作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn import preprocessi…
数据科学和人工智能技术笔记:文本预处理
作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 词袋 # 加载库 import numpy as np from sklearn.feature_extraction.text impor…
数据科学和人工智能技术笔记 七、特征工程
作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 稀疏特征矩阵上的降维 # 加载库 from sklearn.preprocessing import StandardScaler from…
数据科学和人工智能技术笔记 八、特征选择
作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 用于特征选取的 ANOVA F 值 如果特征是类别的,计算每个特征与目标向量之间的卡方($\chi^{2}$)统计量。 但是,如果特征是定量…