如何修改numpy array的数据类型

修改numpy array数据类型

1、numpy数据类型

数据名称	说明
bool	布尔类型，true，false
int_	默认的整数类型（类似于 C 语言中的 long，int32 或 int64）
intc	与 C 的 int 类型一样，一般是 int32 或 int 64
intp	用于索引的整数类型（类似于 C 的 ssize_t，一般情况下仍然是 int32 或 int64）
int8	字节（-128 to 127）
int16	整数（-32768 to 32767）
int32	整数（-2147483648 to 2147483647）
int64	整数（-9223372036854775808 to 9223372036854775807）
uint8	无符号整数（0 to 255）
uint16	无符号整数（0 to 65535）
uint32	无符号整数（0 to 4294967295）
uint64	无符号整数（0 to 18446744073709551615）
float_	float64 类型的简写
float16	半精度浮点数，包括：1 个符号位，5 个指数位，10 个尾数位
float32	单精度浮点数，包括：1 个符号位，8 个指数位，23 个尾数位
float64	双精度浮点数，包括：1 个符号位，11 个指数位，52 个尾数位
complex_ complex128	类型的简写，即 128 位复数
complex64	复数，表示双 32 位浮点数（实数部分和虚数部分）
complex128	复数，表示双 64 位浮点数（实数部分和虚数部分）

2、改变numpy array数据类型

用astype()方法改变数据类型，如下几种方式所示（这种方法不会改变原数组的数据类型）：

array_name.astype(int)  
array_name.astype(np.int16)
array_name.astype('float64')

如果要改变原数组的数据类型，用以下方法：

array_name.dtype = np.uint8

numpy数据类型说明及自动转换陷阱

numpy的dtype是一个很重要的概念，因为numpy为了性能，优化了内存管理，ndarray的值在内存中几乎是连续的，同时其每个元素的内存大小也被设计成是一样的，因此，当生成ndarray时，每个元素的数据类型都会被转为相同的类型，这时如果原生的数据类型是不一样的，那么就涉及到一个数据类型转换的问题，即data type casting。

明白numpy中的数据类型转换可以有效的避免和理解很多的行为，因为numpy中很多的error往往都是有数据类型转换引起的，所以理解numpy的数据类型转换可以预防和排查很多的问题。首先，在numpy中有很多的数据类型，多于python内置数据类型，具体有哪些类型，可以参看下图，下图的columns和index是数据类型在numpy中的符号，具体的释义可以查看这里。下面，我们重点讲一下numpy中关于数据类型以及转换中容易碰到的陷进或者需要注意的点。

1、数据类型的表示

在numpy中，一个数据类型实际上是一个dtype对象，其有一些重要的属性，比如字节顺序、数据类型、字节数大小等，一般的，numpy中的数据类型会表示成类似'<i4'这样，这个表示法中，<表示字节顺序，i表示数据类型，这里表示整数，4表示一个元素占据的字节数，这里4字节，表示32位整数。

2、构造ndarray时的dtype

在构造ndarray时，可以指定dtype参数来设置ndarray里面元素的数据类型，这个dtype可以用'i4'这样的表示方式，也可以用int表示，但是后者没法指定字节数。要注意的是，指定dtype时，一定要确认这个dtype可以兼容所有元素，防止溢出或者不兼容，对此我们可以通过result_type(*array_like)来判断我们应该设定的dtype，这个函数返回的dtype是可以兼容所有元素的最小size的数据类型；或者我们无需设定，其会自动进行数据类型的转换，我们也可以通过ndarray.dtype属性查看数据类型。Anyway,我们要有这种数据类型转换的意识，因为这会影响后续对ndarray的操作。

3、不同数据类型之间的转换兼容性

numpy的数据类型之间能够实现转换，可以通过np.can_cast(fromtype,totype)这个函数来判断，更详细的可以查看下图。

4、numpy对python对象数据类型'O'的处理

当numpy中有python独有的原生数据类型，比如Decimal，那么ndarray会被转为object数据类型，表示python对象数据类型，当然这里也可以转为字符串，但是字符串对于np.nan往往会占据更大的itemsize。

当numpy函数对dtype位object的ndarray处理时，会先把里面的元素再进一步转为其他numpy的数据类型，这样才可以操作，所以这里如果函数没法或没有指定类型参数，那么会默认以第一个inner loop到的数据类型作为所有元素的类型，并以此类型进行后续转换，这时，对于object类型的ndarray来说，往往容易出现数据无法转换成功的异常。所以要注意处理时第一个inner loop遇到的元素的类型是否可以兼容后面要处理的所有元素，不然会抛出异常。看下面的例子说明。

import numpy as np
from decimal import Decimal
 
arr=np.array([[1,2.0,3],['a',3,np.nan],[2,np.nan,Decimal('5')]])
arr1=np.apply_along_axis(lambda x:x[0],arr=arr,axis=1)
arr1
# output:
# ValueError: invalid literal for int() with base 10: 'a'
 
arr2=np.apply_along_axis(lambda x:x[1],arr=arr,axis=1)
arr2
# output:
# array([ 2.,  3., nan])
 
arr2=np.apply_along_axis(lambda x:x[2],arr=arr,axis=1)
arr2
# output:
# array([          3, -2147483648,           5])

从上面的例子中可以看到，arr1中，由于第一个inner loop遇到的元素是整数1，所以便会以整数类型对后续的元素进行转换，但是后面的一个元素是字符'a'，无法将其转为int，因此就会报上述error；arr2中，第一个遇到的元素是2.0，为float，所以后面的元素都会被转为float，因此输出为array([ 2., 3., nan])，其中都变成了float，要注意的是，由于np.nan本身就是一个浮点数，因此这里可以正确的转换，转换之后还是np.nan；但是看arr2，由于第一个遇到的元素类型为int32，后面的np.nan为float64，会造成溢出，这样便无法正确的转换，从而会用int32最接近np.nan的值去替换，所以就是-2**31==-2147483648，这里之所以是2**31，而不是2**32-1，是因为这里的int是signed int，即有正负号的int，所以其范围是-2**31~2**31-1；而Decimal('5')被转为了int 5，所以就出现了上述的结果。

所以，当要被转成ndarray的原始数据中有np.nan时，要特别注意这一点，最好是指定float类型，注意其他数据的兼容；而如果同时又是obejct数据类型时，那么同时也要注意第一个inner loop遇到的元素的数据类型，注意和后面的数据类型保持兼容。

小结：numpy的dtype有诸多陷进，需要小心对待，谨慎核查，然后灵活运用。

频道导航