时间:2022-05-10 10:14:35 | 栏目:Python代码 | 点击:次
sklearn中的make_blobs函数主要是为了生成数据集的,具体如下:
from sklearn.datasets import make_blobs
data, label = make_blobs(n_features=2, n_samples=100, centers=3, random_state=3, cluster_std=[0.8, 2, 5])
n_features
表示每一个样本有多少特征值n_samples
表示样本的个数centers
是聚类中心点的个数,可以理解为label的种类数random_state
是随机种子,可以固定生成的数据cluster_std
设置每个类别的方差下面举例说明:
'''创建训练的数据集''' from sklearn.datasets import make_blobs data, label = make_blobs(n_features=2, n_samples=100, centers=2, random_state=2019, cluster_std=[0.6,0.7] )
看看生成的数据集:
data
有2个特征(n_features=2
),样本个数是100(n_samples=100)
再看看生成的label:
label只有0或者1(centers=2),维度是100
random_state
给定数值后,每次生成的数据集就是固定的,方便后期复现,默认的是每次随机生成,要注意一下!!
好了,这样我们就拥有了一个自己想要的数据集,然后就可以开始后续的一些工作了!!!!