from sklearn import datasets, preprocessing  
#导入数据集，数据预处理库  
from sklearn.model_selection import train_test_split    
#从模型选择库导入数据切分包  
from sklearn.linear_model import LinearRegression    
#从线性模型库导入线性回归包  
from sklearn.metrics import r2_score  
#从评价指标库导入R2评价指标


#导入内置的鸢尾花数据
from sklearn.datasets import load_iris

iris = load_iris()
#定义数据、标签
X = iris.data
y = iris.target


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=12,stratify=y,test_size=0.3)
#将完整数据集的70%作为训练集，30%作为测试集，
#并使得测试集和训练集中各类别数据的比例与原始数据集比例一致(stratify分层策略)，另外可通过设置shuffle=True 提前打乱数据。


#使⽤Scikit-learn进⾏数据标准化

from sklearn.preprocessing import StandardScaler

#构建转换器实例

scaler = StandardScaler( )

#拟合及转换

scaler.fit_transform(X_train)


#从线性模型库导入线性回归模型
from sklearn.linear_model import LinearRegression
# 构建模型实例
lr = LinearRegression(normalize=True)
# 训练模型
lr.fit(X_train, y_train)
# 作出预测
y_pred = lr.predict(X_test)


#从树模型库导入决策树
from sklearn.tree import DecisionTreeClassifier
#定义模型
clf = DecisionTreeClassifier(max_depth=5)
#训练模型
clf.fit(X_train, y_train)
#使用决策树分类算法解决二分类问题，得到的是类别
y_pred = clf.predict(X_test)
#y_prob 为每个样本预测为“0”和“1”类的概率
y_prob = clf.predict_proba(X_test)


#从聚类模型库导入kmeans  
from sklearn.cluster import KMeans  
#构建聚类实例  
kmeans = KMeans(n_clusters=3, random_state=0)  
#拟合  
kmeans.fit(X_train)  
#预测  
kmeans.predict(X_test)


#导入PCA库
from sklearn.decomposition import PCA
#设置主成分数量为3，n_components代表主成分数量
pca = PCA(n_components=3)
#训练模型
pca.fit(X)
#投影后各个特征维度的方差比例(这里是三个主成分)
print(pca.explained_variance_ratio_)
#投影后的特征维度的方差
print(pca.explained_variance_)


#从评价指标库导入准确率
from sklearn.metrics import accuracy_score
#计算样本的准确率
accuracy_score(y_test, y_pred)
#对于测试集而言，大部分函数都必须包含真实值y_test和预测值y_pred


#从模型选择库导入交叉验证分数  
from sklearn.model_selection import cross_val_score    
clf = DecisionTreeClassifier(max_depth=5)  
#使用5折交叉验证对决策树模型进行评估，使用的评分函数为F1值  
scores = cross_val_score(clf, X_train, y_train,cv=5, scoring='f1_weighted')


#从模型选择库导入网格搜索
from sklearn.model_selection import GridSearchCV
from sklearn import svm

svc = svm.SVC()
#把超参数集合作为字典
params = {'kernel': ['linear', 'rbf'], 'C': [1, 10]}
#进行网格搜索，使用了支持向量机分类器，并进行五折交叉验证
grid_search = GridSearchCV(svc, params, cv=5)
#模型训练
grid_search.fit(X_train, y_train)
#获取模型最优超参数组合
grid_search.best_params_


#从模型选择库导入随机搜索
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

svc = svm.SVC()
#把超参数组合作为字典
param_dist = {'kernel': ['linear', 'rbf'], 'C': randint(1, 20)}
#进行随机搜索
random_search = RandomizedSearchCV(svc, param_dist, n_iter=10)
#模型训练
random_search.fit(X_train, y_train)
#获取最优超参数组合
random_search.best_params_

符号	代表含义	符号	代表含义
X_train	训练数据	y_train	训练集标签
X_test	测试数据	y_test	测试集标签
X	完整数据	y	数据标签
		y_pred	预测标签

数据集名称	描述	类型	维度
load_boston	Boston房屋价格	回归	506*13
fetch_california_housing	加州住房	回归	20640*9
load_diabetes	糖尿病	回归	442*10
load_digits	手写字	分类	1797*64
load_breast_cancer	乳腺癌	分类、聚类	(357+212)*30
load_iris	鸢尾花	分类、聚类	(503)4
load_wine	葡萄酒	分类	(59+71+48)*13
load_linnerud	体能训练	多分类	20

数据集名称	描述
fetch_20newsgroups	用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器
fetch_20newsgroups_vectorized	这是上面这个文本数据的向量化后的数据，返回一个已提取特征的文本序列，即不需要使用特征提取器
fetch_california_housing	加利福尼亚的房价数据，总计20640个样本，每个样本8个属性表示，以及房价作为target，所有属性值均为number，详情可调用。如：fetch_california_housing( )['DESCR']，了解每个属性的具体含义；
fetch_covtype	森林植被类型，总计581012个样本，每个样本由54个维度表示(12个属性，其中2个分别是onehot4维和onehot40维)，以及target表示植被类型1-7，所有属性值均为number，详情可调用fetch_covtype( )['DESCR']了解每个属性的具体含义
fetch_kddcup99	KDD竞赛在1999年举行时采用的数据集，KDD99数据集仍然是网络入侵检测领域的事实Benckmark，为基于计算智能的网络入侵检测研究奠定基础，包含41项特征
fetch_lfw_pairs	该任务称为人脸验证：给定一对两张图片，二分类器必须预测这两个图片是否来自同一个人。
fetch_lfw_people	打好标签的人脸数据集
fetch_mldata	从 mldata.org 中下载数据集
fetch_olivetti_faces	Olivetti 脸部图片数据集
fetch_rcv1	路透社新闻语聊数据集
fetch_species_distributions	物种分布数据集

数据集名称	描述
make_blobs	多类单标签数据集，为每个类分配一个或多个正态分布的点集
make_classification	多类单标签数据集，为每个类分配一个或多个正态分布的点集，提供了为数据添加噪声的方式，包括维度相关性，无效特征以及冗余特征等
make_gaussian-quantiles	将一个单高斯分布的点集划分为两个数量均等的点集，作为两类
make_hastie-10-2	产生一个相似的二元分类数据集，有10个维度
make_circle和make_moons	产生二维二元分类数据集来测试某些算法的性能，可以为数据集添加噪声，可以为二元分类器产生一些球形判决界面的数据

预处理操作	库名称
标准化	StandardScaler
最小最大标准化	MinMaxScaler
One-Hot编码	OneHotEncoder
归一化	Normalizer
二值化(单个特征转换)	Binarizer
标签编码	LabelEncoder
缺失值填补	Imputer
多项式特征生成	PolynomialFeatures

机器学习练习 Scikit-learn的介绍¶

1. Scikit-learn概述¶

2.Scikit-learn主要用法¶

2.1.基本建模流程¶

2.1.1.导入工具包¶

2.1.2 导入数据¶

2.2.数据预处理¶

2.2.1.数据划分¶

2.2.2.数据变换操作¶

2.2.3.特征选择¶

导入特征选择库¶

保留得分排名前k的特征(top k方式)¶

交叉验证特征选择¶

2.3监督学习算法¶

2.3.1.监督学习算法-回归¶

2.3.2.监督学习算法-分类¶

2.4.无监督学习算法¶

2.4.1.聚类算法¶

2.4.2.降维算法¶

2.5.评价指标¶

2.6.交叉验证及超参数调优¶

2.6.1.交叉验证¶

2.6.2.超参数调优¶

3.Scikit-learn总结¶

回归模型名称	库名称
线性回归	LinearRegression
岭回归	Ridge
LASSO回归	LASSO
ElasticNet回归	ElasticNet
决策树回归	tree.DecisionTreeRegressor

模型名称	库名称
逻辑回归	linear model.LogisticRearession
支持向量机	svm.SVC
朴素贝叶斯	naïve_bayes.GaussianNB
KNN	neighbors.NearestNeighbors
随机森林	ensemble.RandomForestClassifier
GBDT	ensemble.GradientBoostingClassifier

模型名称	库名称
K-means	KMeans
DBSCAN	DBSCAN
层次聚类	AgglomerativeClustering
谱聚类	SpectralClustering

评价指标	库名称	使用范围
正确率	accuracy_score	分类
精确率	precision_score	分类
F1 值	f1_score	分类
对数损失	log_loss	分类
混淆矩阵	confusion_matrix	分类
含多种评价的分类报告	classification_report	分类
均方误差MSE	mean_squared_error	回归
平均绝对误差MAE	mean_absolute_error	回归
决定系数R2	r2_score	回归