当我们准备把机器学习的各种算法使用python语言落地实现时,有一个工具我们一定要使用,那就是numpy。因为numpy底层使用C++实现,利用了CPU或者GPU的SIMD技术,使得numpy的矩阵运算比python本身自带的list数据结构运算高效很多,特别是在处理大数据时,其优势更是明显。本文主要介绍numpy的基本使用方法,更多高级用法大家可以参考numpy官方文档
一、numpy的安装及导入
安装:命令行中输入以下代码
pip3 install numpy
导入:为了简便,这里使用np作为numpy的缩写
import numpy as np
二、新建矩阵以及numpy矩阵的属性
新建矩阵:使用array函数,传入一个list
numpy矩阵属性含义:
ndim:矩阵的维数
shape:矩阵的形状(每一个维度上的size)
size:矩阵的大小(第一个维度上的size)
array = np.array([[1, 2, 3],
[2, 3, 4]])
print('dim:', array.ndim)
# 输出 dim: 2
print('shape:', array.shape)
# 输出 shape: (2, 3)
print('size:', array.size)
# 输出 size: 6
三、创建不同类型的基本矩阵
array:根据传入的list创建矩阵
zeros:根据传入的shape创建一个零矩阵(每个元素都为零)
empty:根据传入的shape创建一个几乎为零的矩阵(每个元素都几乎为零)
arange:
三个参数时:
第一个参数表示起始值,第二个参数表示结尾值,第三个参数表示增长值
一个参数时:
相当于起始值为0,结尾值为该参数,增长值为1
linspace:第一个参数表示起始值,第二个参数表示结束值,第三个参数表示要分成份数
random.random:根据传入的shape生成一个随机矩阵,每一个元素的值都是随机数
(参数dtype用来定义矩阵元素的存储类型,reshape函数,将矩阵按照传入的shape调整矩阵形状)
a = np.array([[2, 33, 55], [3, 9, 13]], dtype=np.float32)
# array([[ 2., 33., 55.],
# [ 3., 9., 13.]], dtype=float32)
b = np.zeros((3, 4), dtype=np.int64)
# array([[0, 0, 0, 0],
# [0, 0, 0, 0],
# [0, 0, 0, 0]])
c = np.empty((3, 4))
# array([[ 0.00000000e+000, 0.00000000e+000, 2.12397093e-314, 2.12524611e-314],
# [ 2.14770623e-314, 2.12331478e-314, 2.12331472e-314, 2.12400038e-314],
# [ 2.12400043e-314, 2.14741897e-314, 2.13926764e-314, 2.14770776e-314]])
d = np.arange(3, 9, 1)
# array([3, 4, 5, 6, 7, 8])
e = np.arange(12).reshape((3, 4))
# array([[ 0, 1, 2, 3],
# [ 4, 5, 6, 7],
# [ 8, 9, 10, 11]])
f = np.linspace(1, 21, 10).reshape((5, 2))
# array([[ 1. , 3.22222222],
# [ 5.44444444, 7.66666667],
# [ 9.88888889, 12.11111111],
# [ 14.33333333, 16.55555556],
# [ 18.77777778, 21. ]])
g = np.random.random((3, 4))
# array([[ 0.17233778, 0.46768354, 0.14473541, 0.02593317],
# [ 0.77383741, 0.71766547, 0.90690193, 0.83787435],
# [ 0.76650035, 0.21221298, 0.61345672, 0.51163584]])
四、矩阵的基本运算
矩阵的基本运算有 加(+)、减(-)、乘(*)、除(/)、乘方(**)、是否等于(==或者!=)、点乘(dot)
a = np.array([10, 20, 30, 40])
b = np.arange(1, 5, 1)
print('sum = \t', a + b)
print('diff = \t', a - b)
print('prod = \t', a * b)
print('divi = \t', a / b)
print('pow = \t', a ** 3)
print('!= = \t', a != 10)
print('dot = \t', np.dot(a, b))
print('dot = \t', a.dot(b))
五、矩阵的高级运算
求和(sum)、最大值(max)、最小值(min)、最大索引值(argmax)、最小索引值(argmin)、加权平均(average)、累加值(cumsum)、差值(diff)、非零元素索引值(nonzero)、排序(sort)、转置(transpose或者T)、修剪(clip)、平均值(mean)
(参数:axis=0表示纵向,axis=1表示横向)
c = np.arange(12, 0, -1).reshape((3, 4))
print(c)
# axis=1每一行 axis=0每一列
print('sum = \t', np.sum(c, axis=1))
print('max = \t', np.max(c, axis=0))
print('min = \t', np.min(c, axis=0))
print('argmax = \t', np.argmax(c))
print('argmin = \t', np.argmin(c))
print('average = \t', np.average(c))
print('cumsum = \t', np.cumsum(c))
print('diff = \t', np.diff(c))
print('nonzero = \t', np.nonzero(c))
print('sort = \t', np.sort(c))
print('transpose = \t', np.transpose(c))
print('c.T = \t', c.T)
print('clip = \t', np.clip(c, 5, 9))
print('mean = \t', np.mean(c, axis=1))
六、矩阵的合并
vstack 纵向合并
hstack 横向合并
concatenate 通过指定axis参数的值决定是纵向合并还是横向合并
# newaxis 加一个维度
A = np.array([1, 1, 1])[np.newaxis,:]
B = np.array([2, 2, 2])[np.newaxis,:]
# vertial 纵向合并
print(np.vstack((A, B)))
# horizontal 横向合并
print(np.hstack((A, B)))
# axis=0 纵向 axis=1 横向
C = np.concatenate((A, B, B, A), axis=0)
print(C)
七、矩阵的分割
vsplit 纵向分割
hsplit 横向分割
split 通过指定axis参数的值决定是纵向分割还是横向分割
A = np.arange(1, 13, 1).reshape((3, 4))
print(A)
# axis=0 纵向分割 axis=1 横向分割
# 等项分割
print(np.split(A, 2, axis=1))
# 不等项分割
print(np.array_split(A, 3, axis=1))
# vsplit(axis=0), hsplit(axis=1)
print(np.vsplit(A, 3))
print(np.hsplit(A, 2))
八、矩阵的浅拷贝与深拷贝
= 浅拷贝,只是拷贝了引用
copy() 深拷贝
# 浅拷贝 只是拷贝了引用
A = np.array([1, 2, 3])
B = A
A[0] = 99
print(A)
print(B)
# 深拷贝
B = A.copy()
A[0] = 88
print(A)
print(B)