一般我们拿到一个数据,会先看一下这个数据有多少行多少列,各个字段是什么,数据格式类型是什么。在开始讲数据格式前,需要先梳理一下各个数据类型。我们常使用的库一般是numpy和pandas,Numpy下的核心是数组(array,ndarray),Pandas下的核心是数据框(Series,DataFrame)
先随机创一点数据用来测试
import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.randint(5,10,size=(10,2)),columns=['a','b'])
Array=np.random.randint(5,10,size=(10,2))
#假设我们不知道df和Array是什么数据类型
查看现有的数据是数据框类型还是数组矩阵类型
语法:type(XXX),适用于tuple/list/array/ndarray/Series/Dataframe
print(type(df))
#输出 class 'pandas.core.frame.DataFrame'这是DataFrame类型的数据
print(type(Array))
#输出class 'numpy.ndarray'这是多维数组
print(type(tuple(Array)))
#输出'tuple'这是元组
print(type(list(df['a'])))
#输出'class list'这是一个list类型
print(type(df['a']))
#输出'class pandas.core.series.Series'这是一个Series类型
查看数据格式是字符串还是数字格式
这里需要区分一下Numpy和Pandas的查看方式略有不同,一个是dtype,一个是dtypes.
print(Array.dtype)
#输出int64
print(df.dtypes)
#输出Df下所有列的数据格式 a:int64,b:int64