分类器
基类: TPOTEstimator
源代码位于 tpot/tpot_estimator/templates/tpottemplates.py
|
|
__init__(search_space='linear', scorers=['roc_auc_ovr'], scorers_weights=[1], cv=10, other_objective_functions=[], other_objective_functions_weights=[], objective_function_names=None, bigger_is_better=True, categorical_features=None, memory=None, preprocessing=False, max_time_mins=60, max_eval_time_mins=10, n_jobs=1, validation_strategy='none', validation_fraction=0.2, early_stop=None, warm_start=False, periodic_checkpoint_folder=None, verbose=2, memory_limit=None, client=None, random_state=None, allow_inner_classifiers=None, **tpotestimator_kwargs)
¶
一个使用遗传编程优化分类管道的 sklearn 基础估计器。更多参数请参见 TPOTEstimator 类。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
search_space |
(字符串, SearchSpace)
|
请注意,TPOT MDR 的运行速度可能较慢,因为特征选择例程计算成本较高,特别是在大型数据集上。 | - SearchSpace:用于优化的搜索空间。这应该是一个 SearchSpace 实例。TPOT 在以下文件夹中包含搜索空间组:tpot.search_spaces.nodes 用于管道中的节点,tpot.search_spaces.pipelines 用于管道结构。 |
'linear'
|
scorers |
(列表, scorer)
|
在交叉验证过程中使用的评分器或评分器列表。参见 https://scikit-learn.cn/stable/modules/model_evaluation.html |
['roc_auc_ovr']
|
scorers_weights |
列表
|
在优化过程中应用于评分器的权重列表。 |
[1]
|
classification |
布尔值
|
如果为 True,则问题被视为分类问题。如果为 False,则问题被视为回归问题。用于确定交叉验证策略。 |
必需 |
cv |
(整数, 交叉 - 验证器)
|
|
10
|
other_objective_functions |
列表
|
应用于管道的其他目标函数列表。该函数接受 graphpipeline 估计器的一个参数,并返回单个分数或分数列表。 |
[]
|
other_objective_functions_weights |
列表
|
应用于其他目标函数的权重列表。 |
[]
|
objective_function_names |
列表
|
应用于目标函数的名称列表。如果为 None,将使用目标函数的名称。 |
None
|
bigger_is_better |
布尔值
|
如果为 True,则最大化目标函数。如果为 False,则最小化目标函数。使用负权重来反转方向。 |
True
|
categorical_features |
列表 或 None
|
在预处理步骤中进行填充和/或独热编码的类别列。仅当 preprocessing 不为 False 时使用。 |
None
|
categorical_features |
- None:如果为 None,TPOT 将自动使用 pandas 数据框中的对象列作为预处理中独热编码的对象。- 类别特征列表。如果 X 是数据框,这应该是一个列名列表。如果 X 是 numpy 数组,这应该是一个列索引列表。 |
None
|
|
memory |
如果提供,管道将在调用 fit 并使用 joblib.Memory 后缓存每个转换器。此功能用于避免在优化过程中,如果参数和输入数据与另一个已拟合的管道相同,则重复计算管道内的已拟合转换器。- 字符串 'auto':TPOT 使用临时目录进行内存缓存,并在关闭时清理它。- 字符串 缓存目录路径:TPOT 使用提供的目录进行内存缓存,并且 TPOT 在关闭时不会清理缓存目录。如果目录不存在,TPOT 将创建它。- Memory 对象:TPOT 使用 joblib.Memory 实例进行内存缓存,并且 TPOT 在关闭时不会清理缓存目录。- None:TPOT 不使用内存缓存。 |
None
|
|
preprocessing |
(布尔值 或 BaseEstimator / Pipeline)
|
实验性 用于在交叉验证前预处理数据的管道。请注意,这些步骤的参数不会被优化。将它们添加到搜索空间以进行优化。- 布尔值:如果为 True,将使用默认的预处理管道,包括填充和随后的独热编码。- Pipeline:如果给定一个管道实例,将使用该管道作为预处理管道。 |
False
|
max_time_mins |
浮点数
|
运行优化的最大时间。如果为 none 或 inf,将运行直到代数结束。 |
float("inf")
|
max_eval_time_mins |
浮点数
|
评估单个个体的最大时间。如果为 none 或 inf,则每次评估没有时间限制。 |
60*5
|
n_jobs |
整数
|
并行运行的进程数。 |
1
|
validation_strategy |
字符串
|
实验性 用于从种群中选择最终管道的验证策略。TPOT 可能会过拟合交叉验证分数。可以使用第二个验证集来选择最终管道。- 'auto':根据数据集形状自动确定验证策略。- 'reshuffled':交叉验证和最终验证使用相同的数据,但折叠的分割不同。这是小型数据集的默认设置。- 'split':使用单独的验证集进行最终验证。数据将根据 validation_fraction 进行分割。这是中型数据集的默认设置。- 'none':不使用单独的验证集进行最终验证。根据原始交叉验证分数进行选择。这是大型数据集的默认设置。 |
'none'
|
validation_fraction |
浮点数
|
实验性 当 validation_strategy 为 'split' 时,用于验证集的数据集比例。必须在 0 到 1 之间。 |
0.2
|
early_stop |
整数
|
在早期停止前没有改进的代数。所有目标必须在容差范围内收敛才能触发此功能。通常,值设置为 5-20 左右是比较好的。 |
None
|
warm_start |
布尔值
|
如果为 True,将从上次运行的最后一代码继续执行进化算法。 |
False
|
periodic_checkpoint_folder |
字符串
|
定期保存种群的文件夹。如果为 None,则不会进行定期保存。如果提供,训练将从该检查点恢复。 |
None
|
verbose |
整数
|
在优化过程中打印信息的详细程度。较高的值包含较低值的信息。0. 无信息 1. 进度条
|
1
|
memory_limit |
字符串
|
每个作业的内存限制。参见 Dask LocalCluster documentation 获取更多信息。 |
None
|
client |
Client
|
用于并行化的 dask 客户端。如果不是 None,这将覆盖 n_jobs 和 memory_limit 参数。如果为 None,将创建一个新的客户端,其中 num_workers=n_jobs 且 memory_limit=memory_limit。 |
None
|
random_state |
(整数, None)
|
用于实验可重复性的种子。此值将传递给 numpy.random.default_rng() 以创建要传递给其他类的生成器实例
|
None
|
allow_inner_classifiers |
布尔值
|
如果为 True,搜索空间将包含集成分类器。 |
True
|
属性
名称 | 类型 | 描述 |
---|---|---|
fitted_pipeline_ |
GraphPipeline
|
一个已拟合的 GraphPipeline 实例,它继承自 sklearn BaseEstimator。这是在传递给 fit 的完整的 X, y 上拟合的。 |
evaluated_individuals |
一个 pandas 数据框,包含运行中所有评估过的个体的数据。
|
列:- _objective functions:前几列对应于传入的评分器和目标函数 - Parents:一个元组,包含用于生成该行管道的管道的索引。如果为 NaN,则此管道是在初始种群中随机生成的。- Variation_Function:用于对父代进行变异或交叉的变异函数。如果为 NaN,则此管道是在初始种群中随机生成的。- Individual:在进化算法期间使用的个体内部表示。这不是一个 sklearn BaseEstimator。- Generation:管道首次出现的代数。- Pareto_Front:此管道所属的非支配前沿。0 表示其分数未被任何其他个体严格支配。为了节省计算时间,最佳前沿在每一代迭代更新。具有第 0 个 Pareto 前沿的管道确实代表了精确的最佳前沿。然而,Pareto 前沿 >= 1 的管道仅与最终种群中的其他管道相关。所有其他管道都设置为 NaN。- Instance:未拟合的 GraphPipeline BaseEstimator。- _validation objective functions:在验证集上评估的目标函数分数。- Validation_Pareto_Front:在验证集上计算的完整 Pareto 前沿。这是为所有 Pareto_Front 等于 0 的管道计算的。与仅计算前沿和最终种群的 Pareto_Front 不同,Validation Pareto 前沿是为在验证集上测试过的所有管道计算的。 |
pareto_front |
与 evaluated_individuals 相同的 pandas 数据框,但仅包含前沿 Pareto 前沿管道。
|
|
源代码位于 tpot/tpot_estimator/templates/tpottemplates.py
|
|