SKlearn各个模块解释以下是自己在学习过程中,遇到的各种比较难理解或者容易出问题的记录
工具/原料
python
pycharm
方法/步骤
1、train_test_split:设置训练粑颇岔鲷、测试数据集的数据量分配。功能:从样本中随机的按比例选取t鸡堕樱陨raindata和testdata。调用形式为:X_train,X_test,y_train,y_test=cross_validation.train_test_split(train_data,train_target,test_size=0.4,random_state=0)test_size是样本占比。如果是整数的话就是样本的数量。random_state是随机数的种子。不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。fromsklearn.cross_validationimporttrain_test_split在sklearn版本为0.18以上时,会报一下错误:需要把以上引用改为:fromsklearn.model_selectionimporttrain_test_split即可。
2、如何创建分类器对象、用训练数据进行拟合抵足谛垴分类器模型、用训练好的模型进行预测。>>>fromsklearn.svmimportS蕺清寤凯VC#导入svm的svc类(支持向量分类)>>>clf=SVC()#创建分类器对象>>>clf.fit(X,y)#用训练数据拟合分类器模型SVC(C=1.0,cache_size=200,class_weight=None,coef0=0.0,decision_function_shape=None,degree=3,gamma='auto',kernel='rbf',max_iter=-1,probability=False,random_state=None,shrinking=True,tol=0.001,verbose=False)>>>clf.predict([[-0.8,-1]])#用训练好的分类器去预测[-0.8,-1]数据的标签
决策树tree.DecisionTreeClassifier和tree.DecisionTreeRegressor各个参数详解