Pandas
Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
初识DataFrame
DataFrame是pandas处理数据的一种基本数据格式。DataFrame是一张二维的表格型数据结构,大家可以把它想象成一张Excel表单或者Sql表,很多功能与R中的data.frame类似。
废话不多说,直接上代码。
DataFrame创建
#相关库的引入,约定俗成
import pandas as pd
import numpy as np
from pandas import DataFrame
a= (x for x in range(1,11))
df =DataFrame(np.random.rand(10,3),index=a,columns=list('ABC'))
print df
# 这样就生成了3列10行的Dataframe
#列索引 'A','B','C', 行标为1到10
A B C
1 0.763612 0.242719 0.551769
2 0.547879 0.216746 0.915410
3 0.433865 0.883527 0.450987
4 0.394149 0.313240 0.608217
5 0.775415 0.097958 0.681559
6 0.815500 0.253491 0.461712
7 0.279322 0.224802 0.569777
8 0.945772 0.779166 0.439949
9 0.977696 0.164328 0.793504
10 0.950061 0.877084 0.746057
Dataframe查看、检查
#查看Dataframe的行数列数
print df.shape
(10, 3)
#DataFrame 查看、获取左侧索引
print df.index
Int64Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype='int64')
#DataFrame 查看、获取列名,列索引
print df.columns
Index([u'A', u'B', u'C'], dtype='object')
#查看Dataframe的前n行
print df.head(2)
A B C
1 0.743068 0.775753 0.586364
2 0.726336 0.917315 0.770945
#查看Dataframe的最后n行
print df.tail(3)
A B C
8 0.395501 0.733482 0.228993
9 0.390069 0.493331 0.069293
10 0.679217 0.538165 0.376052
#查看Dataframe数值列的汇总统计
print df.describe()
A B C
count 10.000000 10.000000 10.000000
mean 0.530217 0.533390 0.566158
std 0.232962 0.309151 0.276984
min 0.076248 0.062748 0.069293
25% 0.408746 0.282737 0.404929
50% 0.478627 0.515748 0.591100
75% 0.714556 0.765185 0.787466
max 0.885991 0.966919 0.913809