用Python做数据分析之DataFrame1——认识Dataframe

Pandas

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

初识DataFrame

DataFrame是pandas处理数据的一种基本数据格式。DataFrame是一张二维的表格型数据结构,大家可以把它想象成一张Excel表单或者Sql表,很多功能与R中的data.frame类似。

废话不多说,直接上代码。

DataFrame创建

#相关库的引入,约定俗成
import pandas as pd
import numpy as  np
from pandas import DataFrame

a= (x for x in range(1,11))
df =DataFrame(np.random.rand(10,3),index=a,columns=list('ABC'))
print df     
# 这样就生成了3列10行的Dataframe
#列索引 'A','B','C', 行标为1到10
           A         B         C
1   0.763612  0.242719  0.551769
2   0.547879  0.216746  0.915410
3   0.433865  0.883527  0.450987
4   0.394149  0.313240  0.608217
5   0.775415  0.097958  0.681559
6   0.815500  0.253491  0.461712
7   0.279322  0.224802  0.569777
8   0.945772  0.779166  0.439949
9   0.977696  0.164328  0.793504
10  0.950061  0.877084  0.746057

Dataframe查看、检查

#查看Dataframe的行数列数
print df.shape 
(10, 3)
#DataFrame 查看、获取左侧索引
print df.index      
Int64Index([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype='int64')
#DataFrame 查看、获取列名,列索引
print df.columns   
Index([u'A', u'B', u'C'], dtype='object')
#查看Dataframe的前n行
print df.head(2) 
          A         B         C
1  0.743068  0.775753  0.586364
2  0.726336  0.917315  0.770945
#查看Dataframe的最后n行
print df.tail(3) 
           A         B         C
8   0.395501  0.733482  0.228993
9   0.390069  0.493331  0.069293
10  0.679217  0.538165  0.376052
#查看Dataframe数值列的汇总统计
print df.describe()  
               A          B          C
count  10.000000  10.000000  10.000000
mean    0.530217   0.533390   0.566158
std     0.232962   0.309151   0.276984
min     0.076248   0.062748   0.069293
25%     0.408746   0.282737   0.404929
50%     0.478627   0.515748   0.591100
75%     0.714556   0.765185   0.787466
max     0.885991   0.966919   0.913809

    原文作者:iCode_01
    原文地址: https://www.jianshu.com/p/87e8cbc899c9
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞