2022年 11月 9日

python数据处理知识学习(代码,实例讲解,概念,函数)Numpy数据处理

一、 numpy 数组

1.创建numpy ndarry对象

import numpy as np 

arr = np.array([1, 2, 3, 4, 5])

print(arr)

print(type(arr))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

2.数组中的维
数组中的维是数组深度(嵌套数组)的一个级别。
(1)0维度数组,也就是标量
创建:

import numpy as np

arr = np.array(61)

print(arr)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

实例显示:
在这里插入图片描述

(2)1维数组
创建:

import numpy as np

arr = np.array((1, 2, 3, 4, 5))

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5

实例显示:
在这里插入图片描述

(3)2维数组
创建:

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5

实例显示:
在这里插入图片描述

(4)3维数组
创建:

import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5

实例显示:
在这里插入图片描述

(5)n维数组
创建:
这里实例是5维度的。

import numpy as np

arr = np.array([1, 2, 3, 4], ndmin=5)

print(arr)
print('number of dimensions :', arr.ndim)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

实例显示:
在这里插入图片描述

3.数组索引
(1)访问数组元素
数组索引等同于访问数组元素。
可以通过引用其索引号来访问数组元素。
NumPy 数组中的索引以 0 开头,这意味着第一个元素的索引为 0,第二个元素的索引为 1,以此类推。

实例1:
从以下数组中获取第一个元素:

import numpy as np

arr = np.array([1, 2, 3, 4])

print(arr[0])
  • 1
  • 2
  • 3
  • 4
  • 5

得到的值就是:1

实例2:
访问 2-D 数组
要访问二维数组中的元素,我们可以使用逗号分隔的整数表示元素的维数和索引。
访问第一维中的第二个元素:

import numpy as np

arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])

print('2nd element on 1st dim: ', arr[0, 1])
  • 1
  • 2
  • 3
  • 4
  • 5

得到结果:2

实例3:
访问 3-D 数组
要访问 3-D 数组中的元素,我们可以使用逗号分隔的整数来表示元素的维数和索引。

访问第一个数组的第二个数组的第三个元素:

import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

print(arr[0, 1, 2])
  • 1
  • 2
  • 3
  • 4
  • 5

得到结果是:6

(2)负索引
使用负索引从尾开始访问数组。
实例
打印第二个维中的的最后一个元素:

import numpy as np

arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])

print('Last element from 2nd dim: ', arr[1, -1])
  • 1
  • 2
  • 3
  • 4
  • 5

得到:10

二、 Numpy数组裁切

1.裁切数组
python 中裁切的意思是将元素从一个给定的索引带到另一个给定的索引。
我们像这样传递切片而不是索引:[start:end]。
我们还可以定义步长,如下所示:[start:end:step]。
如果我们不传递 start,则将其视为 0。
如果我们不传递 end,则视为该维度内数组的长度。
如果我们不传递 step,则视为 1。

注意:结果包括了开始索引,但不包括结束索引。

2.负裁切
使用减号运算符从末尾开始引用索引:
实例
从末尾开始的索引 3 到末尾开始的索引 1,对数组进行裁切:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7])

print(arr[-3:-1])
  • 1
  • 2
  • 3
  • 4
  • 5

得到结果是:
在这里插入图片描述

三、Numpy 数据类型

1.Python 中的数据类型
默认情况下,Python 拥有以下数据类型:
strings – 用于表示文本数据,文本用引号引起来。例如 “ABCD”。
integer – 用于表示整数。例如 -1, -2, -3。
float – 用于表示实数。例如 1.2, 42.42。
boolean – 用于表示 True 或 False。
complex – 用于表示复平面中的数字。例如 1.0 + 2.0j,1.5 + 2.5j。
2.常见错误
假如值无法转换会怎样?
如果给出了不能强制转换元素的类型,则 NumPy 将引发 ValueError。
ValueError:在 Python 中,如果传递给函数的参数的类型是非预期或错误的,则会引发 ValueError。
3.转换已有数组的数据类型
更改现有数组的数据类型的最佳方法,是使用 astype() 方法复制该数组。
astype() 函数创建数组的副本,并允许您将数据类型指定为参数。
数据类型可以使用字符串指定,例如 ‘f’ 表示浮点数,‘i’ 表示整数等。也可以直接使用数据类型,例如 float 表示浮点数,int 表示整数。

四、NumPy 数组副本 vs 视图

1.副本和视图之间的区别
副本和数组视图之间的主要区别在于副本是一个新数组,而这个视图只是原始数组的视图。
副本拥有数据,对副本所做的任何更改都不会影响原始数组,对原始数组所做的任何更改也不会影响副本。
视图不拥有数据,对视图所做的任何更改都会影响原始数组,而对原始数组所做的任何更改都会影响视图。

2.检查数组是否拥有数据
如上所述,副本拥有数据,而视图不拥有数据,但是我们如何检查呢?
每个 NumPy 数组都有一个属性 base,如果该数组拥有数据,则这个 base 属性返回 None。
否则,base 属性将引用原始对象。

五、NumPy 数组形状

1.数组的形状
数组的形状是每个维中元素的数量。

2.获取数组的形状
NumPy 数组有一个名为 shape 的属性,该属性返回一个元组,每个索引具有相应元素的数量。

实例
打印 2-D 数组的形状:

import numpy as np

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

print(arr.shape)
  • 1
  • 2
  • 3
  • 4
  • 5

上面的例子返回 (2, 4),这意味着该数组有 2 个维,每个维有 4 个元素。
3.元组的形状代表什么?
每个索引处的整数表明相应维度拥有的元素数量。

六、数组重塑

1.数组重塑
重塑意味着更改数组的形状。
数组的形状是每个维中元素的数量。
通过重塑,我们可以添加或删除维度或更改每个维度中的元素数量。

2.从 1-D 重塑为 2-D
实例
将以下具有 12 个元素的 1-D 数组转换为 2-D 数组。

最外面的维度将有 4 个数组,每个数组包含 3 个元素:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

newarr = arr.reshape(4, 3)

print(newarr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

结果:
在这里插入图片描述
3.从 1-D 重塑为 3-D
实例
将以下具有 12 个元素的 1-D 数组转换为 3-D 数组。

最外面的维度将具有 2 个数组,其中包含 3 个数组,每个数组包含 2 个元素:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

newarr = arr.reshape(2, 3, 2)

print(newarr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

结果:
在这里插入图片描述

4.我们可以重塑成任何形状吗?
是的,只要重塑所需的元素在两种形状中均相等。
我们可以将 8 元素 1D 数组重塑为 2 行 2D 数组中的 4 个元素,但是我们不能将其重塑为 3 元素 3 行 2D 数组,因为这将需要 3×3 = 9 个元素。

5.返回副本还是视图?
实例
检查返回的数组是副本还是视图:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8])

print(arr.reshape(2, 4).base)
  • 1
  • 2
  • 3
  • 4
  • 5

结果:
在这里插入图片描述

上面的例子返回原始数组,因此它是一个视图。

6.未知的维
可以使用一个“未知”维度。
这意味着您不必在 reshape 方法中为维度之一指定确切的数字。
传递 -1 作为值,NumPy 将为您计算该数字。

实例
将 8 个元素的 1D 数组转换为 2×2 元素的 3D 数组:

import numpy as np
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8])
newarr = arr.reshape(2, 2, -1)
print(newarr)
  • 1
  • 2
  • 3
  • 4

在这里插入图片描述
注释:我们不能将 -1 传递给一个以上的维度
7.展平数组
展平数组(Flattening the arrays)是指将多维数组转换为 1D 数组。
我们可以使用 reshape(-1) 来做到这一点。
实例
把数组转换为 1D 数组:

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])

newarr = arr.reshape(-1)

print(newarr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述

七、数组迭代

1.数组迭代
迭代意味着逐一遍历元素。
当我们在 numpy 中处理多维数组时,可以使用 python 的基本 for 循环来完成此操作。

2.如果我们对 1-D 数组进行迭代,它将逐一遍历每个元素。
实例
迭代以下一维数组的元素:

import numpy as np

arr = np.array([1, 2, 3])

for x in arr:
  print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
3.迭代 2-D 数组
在 2-D 数组中,它将遍历所有行。

实例
迭代以下二维数组的元素:

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])

for x in arr:
  print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
4.如果我们迭代一个 n-D 数组,它将逐一遍历第 n-1 维。

如需返回实际值、标量,我们必须迭代每个维中的数组。

实例
迭代 2-D 数组的每个标量元素:

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])

for x in arr:
  for y in x:
    print(y)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述
5.迭代 3-D 数组
在 3-D 数组中,它将遍历所有 2-D 数组。

实例
迭代以下 3-D 数组的元素:

import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

for x in arr:
  print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
6.要返回实际值、标量,我们必须迭代每个维中的数组

实例
迭代到标量:

import numpy as np

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

for x in arr:
  for y in x:
    for z in y:
      print(z)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在这里插入图片描述
7.使用 nditer() 迭代数组
函数 nditer() 是一个辅助函数,从非常基本的迭代到非常高级的迭代都可以使用。它解决了我们在迭代中面临的一些基本问题,让我们通过例子进行介绍。

迭代每个标量元素
在基本的 for 循环中,迭代遍历数组的每个标量,我们需要使用 n 个 for 循环,对于具有高维数的数组可能很难编写。

实例
遍历以下 3-D 数组:

import numpy as np

arr = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

for x in np.nditer(arr):
  print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
8.迭代不同数据类型的数组
我们可以使用 op_dtypes 参数,并传递期望的数据类型,以在迭代时更改元素的数据类型。
NumPy 不会就地更改元素的数据类型(元素位于数组中),因此它需要一些其他空间来执行此操作,该额外空间称为 buffer,为了在 nditer() 中启用它,我们传参 flags=[‘buffered’]。

实例
以字符串形式遍历数组:

import numpy as np

arr = np.array([1, 2, 3])

for x in np.nditer(arr, flags=['buffered'], op_dtypes=['S']):
  print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
9.以不同的步长迭代
我们可以使用过滤,然后进行迭代。

实例
每遍历 2D 数组的一个标量元素,跳过 1 个元素:

import numpy as np

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

for x in np.nditer(arr[:, ::2]):
  print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
10.使用 ndenumerate() 进行枚举迭代
枚举是指逐一提及事物的序号。
有时,我们在迭代时需要元素的相应索引,对于这些用例,可以使用 ndenumerate() 方法。

实例
枚举以下 1D 数组元素:

import numpy as np

arr = np.array([1, 2, 3])

for idx, x in np.ndenumerate(arr):
  print(idx, x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述
实例
枚举以下 2D 数组元素:

import numpy as np

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])

for idx, x in np.ndenumerate(arr):
  print(idx, x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

八、数组连接

1.连接 NumPy 数组
连接意味着将两个或多个数组的内容放在单个数组中。

在 SQL 中,我们基于键来连接表,而在 NumPy 中,我们按轴连接数组。

我们传递了一系列要与轴一起连接到 concatenate() 函数的数组。如果未显式传递轴,则将其视为 0。

2.实例
连接两个数组:

import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.concatenate((arr1, arr2))

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述
3.实例
沿着行 (axis=1) 连接两个 2-D 数组:

import numpy as np

arr1 = np.array([[1, 2], [3, 4]])

arr2 = np.array([[5, 6], [7, 8]])

arr = np.concatenate((arr1, arr2), axis=1)

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述
4.使用堆栈函数连接数组
堆栈与级联相同,唯一的不同是堆栈是沿着新轴完成的。

我们可以沿着第二个轴连接两个一维数组,这将导致它们彼此重叠,即,堆叠(stacking)。

我们传递了一系列要与轴一起连接到 concatenate() 方法的数组。如果未显式传递轴,则将其视为 0。

实例

import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.stack((arr1, arr2), axis=1)

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述
5.沿行堆叠
NumPy 提供了一个辅助函数:hstack() 沿行堆叠。

实例

import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.hstack((arr1, arr2))

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述
6.沿列堆叠
NumPy 提供了一个辅助函数:vstack() 沿列堆叠。

实例

import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.vstack((arr1, arr2))

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述
7.沿高度堆叠(深度)
NumPy 提供了一个辅助函数:dstack() 沿高度堆叠,该高度与深度相同。

实例

import numpy as np

arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.dstack((arr1, arr2))

print(arr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述

九、数组拆分

1.拆分 NumPy 数组
拆分是连接的反向操作。
连接(Joining)是将多个数组合并为一个,拆分(Spliting)将一个数组拆分为多个。
我们使用 array_split() 分割数组,将要分割的数组和分割数传递给它。

2.实例
将数组分为 3 部分:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])

newarr = np.array_split(arr, 3)

print(newarr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

运行;
在这里插入图片描述

注释:返回值是一个包含三个数组的数组。

3.如果数组中的元素少于要求的数量,它将从末尾进行相应调整。

实例
将数组分为 4 部分:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])

newarr = np.array_split(arr, 4)

print(newarr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述
4.拆分为数组
array_split() 方法的返回值是一个包含每个分割的数组。
如果将一个数组拆分为 3 个数组,则可以像使用任何数组元素一样从结果中访问它们:
实例
访问拆分的数组:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])

newarr = np.array_split(arr, 3)

print(newarr[0])
print(newarr[1])
print(newarr[2])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述
5.分割二维数组
拆分二维数组时,请使用相同的语法。

使用 array_split() 方法,传入要分割的数组和想要分割的数目。

实例
把这个 2-D 拆分为三个 2-D 数组。

import numpy as np

arr = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12]])

newarr = np.array_split(arr, 3)

print(newarr)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述

十、数组搜索

1.搜索数组
可以在数组中搜索(检索)某个值,然后返回获得匹配的索引。

要搜索数组,使用 where() 方法。

实例
查找值为 4 的索引:

import numpy as np

arr = np.array([1, 2, 3, 4, 5, 4, 4])

x = np.where(arr == 4)

print(x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述

十一、其他部分

数组排序;
数组过滤;
Nupmy 随机。