回归器
基类: TPOTEstimator
源代码位于 tpot/tpot_estimator/templates/tpottemplates.py
|
|
__init__(search_space='linear', scorers=['neg_mean_squared_error'], scorers_weights=[1], cv=10, other_objective_functions=[], other_objective_functions_weights=[], objective_function_names=None, bigger_is_better=True, categorical_features=None, memory=None, preprocessing=False, max_time_mins=60, max_eval_time_mins=10, n_jobs=1, validation_strategy='none', validation_fraction=0.2, early_stop=None, warm_start=False, periodic_checkpoint_folder=None, verbose=2, memory_limit=None, client=None, random_state=None, allow_inner_regressors=None, **tpotestimator_kwargs)
¶
一个使用遗传编程优化回归流水线的 sklearn 基础估计器。更多参数请参阅 TPOTEstimator 类。
参数
名称 | 类型 | 描述 | 默认值 | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
search_space |
(字符串, SearchSpace)
|
请注意,TPOT MDR 的运行可能很慢,因为特征选择例程的计算成本很高,特别是在大型数据集上。| - SearchSpace : 用于优化的搜索空间。这应该是一个 SearchSpace 的实例。TPOT 有以下文件夹中的搜索空间组,tpot.search_spaces.nodes 用于流水线中的节点,以及 tpot.search_spaces.pipelines 用于流水线结构。 |
'linear'
|
||||||||||||
scorers |
(列表, 评分器)
|
用于交叉验证过程的评分器或评分器列表。请参阅 https://scikit-learn.cn/stable/modules/model_evaluation.html |
['neg_mean_squared_error']
|
||||||||||||
scorers_weights |
列表
|
在优化过程中应用于评分器的权重列表。 |
[1]
|
||||||||||||
classification |
布尔值
|
如果为 True,则问题被视为分类问题。如果为 False,则问题被视为回归问题。用于确定交叉验证策略。 |
必需的 | ||||||||||||
cv |
(整数, 交叉 - 验证器)
|
|
10
|
||||||||||||
other_objective_functions |
列表
|
应用于流水线的其他目标函数列表。该函数接受一个用于 graphpipeline 估计器的参数,并返回单个分数或分数列表。 |
[]
|
||||||||||||
other_objective_functions_weights |
列表
|
应用于其他目标函数的权重列表。 |
[]
|
||||||||||||
objective_function_names |
列表
|
应用于目标函数的名称列表。如果为 None,则将使用目标函数的名称。 |
None
|
||||||||||||
bigger_is_better |
布尔值
|
如果为 True,则最大化目标函数。如果为 False,则最小化目标函数。使用负权重来反转方向。 |
True
|
||||||||||||
categorical_features |
列表 或 None
|
在预处理步骤中用于填充和/或独热编码的分类列。仅当 preprocessing 不为 False 时使用。 |
None
|
||||||||||||
categorical_features |
在预处理步骤中用于填充和/或独热编码的分类列。仅当 preprocessing 不为 False 时使用。- None : 如果为 None,TPOT 将在预处理中自动使用 pandas dataframes 中的 object 列作为独热编码的对象。- 分类特征列表。如果 X 是一个 dataframe,这应该是一个列名列表。如果 X 是一个 numpy 数组,这应该是一个列索引列表。 |
None
|
|||||||||||||
memory |
如果提供,流水线将在使用 joblib.Memory 调用 fit 后缓存每个变换器。此功能用于避免在优化过程中,当参数和输入数据与另一个已拟合的流水线相同时,在流水线内重新计算已拟合的变换器。- 字符串 'auto': TPOT 使用临时目录进行内存缓存,并在关闭时清除。- 字符串 缓存目录路径: TPOT 使用提供的目录进行内存缓存,并且 TPOT 在关闭时不会清除缓存目录。如果目录不存在,TPOT 将创建它。- Memory 对象: TPOT 使用 joblib.Memory 的实例进行内存缓存,并且 TPOT 在关闭时不会清除缓存目录。- None: TPOT 不使用内存缓存。 |
None
|
|||||||||||||
preprocessing |
(布尔值 或 BaseEstimator / Pipeline)
|
实验性功能 一个用于在交叉验证前预处理数据的流水线。注意,这些步骤的参数不会被优化。将它们添加到搜索空间中以进行优化。- 布尔值 : 如果为 True,将使用默认的预处理流水线,其中包括填充和独热编码。- Pipeline : 如果提供了一个流水线实例,将使用该流水线作为预处理流水线。 |
False
|
||||||||||||
max_time_mins |
浮点数
|
运行优化的最长时间。如果为 None 或 inf,将一直运行直到所有世代结束。 |
float("inf")
|
||||||||||||
max_eval_time_mins |
浮点数
|
评估单个个体的最长时间。如果为 None 或 inf,则每次评估没有时间限制。 |
60*5
|
||||||||||||
n_jobs |
整数
|
并行运行的进程数。 |
1
|
||||||||||||
validation_strategy |
字符串
|
实验性功能 用于从种群中选择最终流水线的验证策略。TPOT 可能会过拟合交叉验证分数。可以使用第二个验证集来选择最终流水线。- 'auto' : 根据数据集形状自动确定验证策略。- 'reshuffled' : 将相同数据用于交叉验证和最终验证,但折叠的划分不同。这是小型数据集的默认设置。- 'split' : 使用单独的验证集进行最终验证。数据将根据 validation_fraction 进行划分。这是中型数据集的默认设置。- 'none' : 不使用单独的验证集进行最终验证。根据原始交叉验证分数进行选择。这是大型数据集的默认设置。 |
'none'
|
||||||||||||
validation_fraction |
浮点数
|
实验性功能 当 validation_strategy 为 'split' 时用于验证集的数据集比例。必须在 0 到 1 之间。 |
0.2
|
||||||||||||
early_stop |
整数
|
在早期停止之前没有改进的世代数。所有目标必须在容差范围内收敛才能触发此功能。通常 5-20 左右的值比较好。 |
None
|
||||||||||||
warm_start |
布尔值
|
如果为 True,将从上次运行的最后一世代继续进行演化算法。 |
False
|
||||||||||||
periodic_checkpoint_folder |
字符串
|
定期保存种群的文件夹。如果为 None,将不会进行定期保存。如果提供,训练将从该检查点恢复。 |
None
|
||||||||||||
verbose |
整数
|
在优化过程中打印多少信息。更高的值包含较低值的信息。0. 无 1. 进度条
|
1
|
||||||||||||
memory_limit |
字符串
|
每个作业的内存限制。更多信息请参阅 Dask LocalCluster 文档。 |
None
|
||||||||||||
client |
Client
|
一个用于并行化的 dask 客户端。如果不是 None,这将覆盖 n_jobs 和 memory_limit 参数。如果为 None,将创建一个新的客户端,其 num_workers=n_jobs 且 memory_limit=memory_limit。 |
None
|
||||||||||||
random_state |
(整数, None)
|
实验可复现性的种子。此值将传递给 numpy.random.default_rng(),以创建要传递给其他类的生成器实例。
|
None
|
||||||||||||
allow_inner_regressors |
布尔值
|
如果为 True,搜索空间将包含集成回归器。 |
True
|
属性
名称 | 类型 | 描述 |
---|---|---|
fitted_pipeline_ |
GraphPipeline
|
一个 GraphPipeline 的拟合实例,它继承自 sklearn BaseEstimator。它在传递给 fit 的完整 X, y 上进行拟合。 |
evaluated_individuals |
一个 pandas 数据框,包含本次运行中所有已评估个体的数据。
|
列: - 目标函数 : 前几列对应于传入的评分器和目标函数 - 父代 : 包含用于生成该行流水线的流水线索引的元组。如果为 NaN,则此流水线是在初始种群中随机生成的。- 变异函数 : 用于对父代进行变异或交叉的变异函数。如果为 NaN,则此流水线是在初始种群中随机生成的。- 个体 : 在演化算法期间使用的个体的内部表示。这不是一个 sklearn BaseEstimator。- 世代 : 流水线首次出现的世代。- Pareto_Front : 该流水线所属的非支配前沿。0 表示其得分不受任何其他个体严格支配。为了节省计算时间,最佳前沿在每个世代迭代更新。Pareto 前沿为 0 的流水线确实代表了精确的最佳前沿。然而,Pareto 前沿 >= 1 的流水线仅相对于最终种群中的其他流水线。所有其他流水线都设置为 NaN。- 实例 : 未拟合的 GraphPipeline BaseEstimator。- 验证目标函数 : 在验证集上评估的目标函数得分。- Validation_Pareto_Front : 在验证集上计算的完整帕累托前沿。这是为所有 Pareto_Front 等于 0 的流水线计算的。与仅计算前沿和最终种群的 Pareto_Front 不同,Validation Pareto Front 是为所有在验证集上测试过的流水线计算的。 |
pareto_front |
与 evaluated individuals 相同的 pandas 数据框,但仅包含前沿帕累托前沿流水线。
|
|
源代码位于 tpot/tpot_estimator/templates/tpottemplates.py
|
|