基础演化器
此文件是 TPOT 库的一部分。
TPOT 当前版本由 Cedars-Sinai 开发,开发者包括:- Pedro Henrique Ribeiro (https://github.com/perib, https://www.linkedin.com/in/pedro-ribeiro/) - Anil Saini (anil.saini@cshs.org) - Jose Hernandez (jgh9094@gmail.com) - Jay Moran (jay.moran@cshs.org) - Nicholas Matsumoto (nicholas.matsumoto@cshs.org) - Hyunjun Choi (hyunjun.choi@cshs.org) - Gabriel Ketron (gabriel.ketron@cshs.org) - Miguel E. Hernandez (miguel.e.hernandez@cshs.org) - Jason Moore (moorejh28@gmail.com)
TPOT 原始版本主要由宾夕法尼亚大学开发,开发者包括:- Randal S. Olson (rso@randalolson.com) - Weixuan Fu (weixuanf@upenn.edu) - Daniel Angell (dpa34@drexel.edu) - Jason Moore (moorejh28@gmail.com) - 以及许多慷慨的开源贡献者
TPOT 是自由软件:您可以根据自由软件基金会发布的 GNU 宽通用公共许可证(GNU Lesser General Public License)的条款,再分发和/或修改它,无论是该许可证的第 3 版,还是(根据您的选择)任何更新版本。
分发 TPOT 是希望它会有用,但不对其作任何担保;甚至不包括适销性或特定用途适用性的默示担保。更多详细信息请参阅 GNU 宽通用公共许可证。
您应该已经随 TPOT 收到了一份 GNU 宽通用公共许可证的副本。如果未收到,请参阅 https://gnu.ac.cn/licenses/。
BaseEvolver ¶
源代码位于 tpot/evolvers/base_evolver.py
87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 | |
__init__(individual_generator, objective_functions, objective_function_weights, objective_names=None, objective_kwargs=None, bigger_is_better=True, population_size=50, initial_population_size=None, population_scaling=0.5, generations_until_end_population=1, generations=50, early_stop=None, early_stop_tol=0.001, max_time_mins=float('inf'), max_eval_time_mins=5, n_jobs=1, memory_limit='4GB', client=None, survival_percentage=1, crossover_probability=0.2, mutate_probability=0.7, mutate_then_crossover_probability=0.05, crossover_then_mutate_probability=0.05, mutation_functions=[ind_mutate], crossover_functions=[ind_crossover], mutation_function_weights=None, crossover_function_weights=None, n_parents=2, survival_selector=survival_select_NSGA2, parent_selector=tournament_selection_dominated, budget_range=None, budget_scaling=0.5, generations_until_end_budget=1, stepwise_steps=5, threshold_evaluation_pruning=None, threshold_evaluation_scaling=0.5, min_history_threshold=20, selection_evaluation_pruning=None, selection_evaluation_scaling=0.5, evaluation_early_stop_steps=None, final_score_strategy='mean', verbose=0, periodic_checkpoint_folder=None, callback=None, rng=None) ¶
使用变异、交叉和优化函数来演化个体种群,使其朝着给定目标函数方向发展。
参数
| 名称 | 类型 | 描述 | 默认值 |
|---|---|---|---|
individual_generator |
generator
|
生成器,用于产生新的基础个体。用于生成初始种群。 |
必需 |
objective_functions |
可调用对象列表
|
应用于个体并返回浮点数或浮点数列表的函数列表。如果一个目标函数返回多个值,它们将按照 objective_function_weights 和 early_stop_tol 的顺序连接起来。 |
必需 |
objective_function_weights |
浮点数列表
|
每个目标函数的权重列表。符号决定了越大越好还是越小越好。 |
必需 |
objective_names |
字符串列表
|
目标名称。如果为 None,将使用 objective0, objective1 等。 |
None
|
objective_kwargs |
dict
|
要传递给目标函数的关键字参数字典 |
None
|
bigger_is_better |
bool
|
如果为 True,则最大化目标函数。如果为 False,则最小化目标函数。使用负权重来反转方向。 |
True
|
population_size |
int
|
种群大小 |
50
|
initial_population_size |
int
|
初始种群大小。如果为 None,将使用 population_size 的值。 |
None
|
population_scaling |
int
|
用于确定阈值从起始百分位数移动到结束百分位数的速度的缩放因子。 |
0.5
|
generations_until_end_population |
int
|
种群大小达到 population_size 所需的代数 |
1
|
generations |
int
|
运行的代数 |
50
|
early_stop |
int
|
在早停之前没有改进的代数。所有目标都必须在容差范围内收敛才能触发。通常,5-20 左右的值比较合适。 |
None
|
early_stop_tol |
浮点数、浮点数列表或 None
|
- 浮点数列表:每个目标函数的容差列表。如果最佳分数与当前分数之差小于容差,则认为个体已收敛。如果列表中的某个索引为 None,则该项不用于早停。- int:如果给定一个整数,则将其用作所有目标的容差。 |
0.001
|
max_time_mins |
浮点数
|
运行优化的最大时间(分钟)。如果为 none 或 inf,将一直运行直到达到最大代数。 |
float("inf")
|
max_eval_time_mins |
浮点数
|
评估单个个体的最大时间(分钟)。如果为 none 或 inf,则每次评估没有时间限制。 |
10
|
n_jobs |
int
|
并行运行的进程数。 |
1
|
memory_limit |
str
|
每个作业的内存限制。更多信息请参阅 Dask LocalCluster 文档。 |
None
|
client |
Client
|
用于并行化的 dask 客户端。如果不是 None,这将覆盖 n_jobs 和 memory_limit 参数。如果为 None,将创建一个新的客户端,其中 num_workers=n_jobs 且 memory_limit=memory_limit。 |
None
|
survival_percentage |
浮点数
|
在每一代开始时用于变异和交叉的种群大小百分比。其余个体将被丢弃。个体使用 survival_selector 中传入的选择器进行选择。此参数的值必须在 0 到 1 之间(包括 0 和 1)。例如,如果种群大小为 100,生存百分比为 0.5,则将从现有种群中通过 NSGA2 选择 50 个个体。这些个体将用于变异和交叉,以生成下一代的 100 个新个体。剩余的个体将从当前种群中丢弃。在下一代中,将有这 50 个亲本 + 100 个新个体,总共 150 个。生存百分比基于 population_size 参数,而不是现有种群大小(使用逐次减半时的当前种群大小)。因此,在下一代中,我们仍将从当前存在的 150 个个体中选择 50 个。 |
1
|
crossover_probability |
浮点数
|
通过两个个体交叉生成新个体的概率。 |
.2
|
mutate_probability |
浮点数
|
通过一个个体变异生成新个体的概率。 |
.7
|
mutate_then_crossover_probability |
浮点数
|
通过变异两个个体然后进行交叉生成新个体的概率。 |
.05
|
crossover_then_mutate_probability |
浮点数
|
通过两个个体交叉然后对结果个体进行变异生成新个体的概率。 |
.05
|
n_parents |
int
|
用于交叉的亲本数量。必须大于 1。 |
2
|
survival_selector |
函数
|
用于选择生存个体的函数。必须接受一个分数矩阵并返回选定的索引。用于在每一代开始时选择 population_size * survival_percentage 的个体进行变异和交叉。 |
survival_select_NSGA2
|
parent_selector |
函数
|
用于选择用于交叉的亲本对和用于变异的个体的函数。必须接受一个分数矩阵并返回选定的索引。 |
tournament_selection_dominated
|
budget_range |
list[start, end]
|
此参数用于逐次减半算法。用于预算缩放的起始和结束预算。演化器将在 generations_until_end_budget 代内在这两个值之间进行插值。具体使用取决于目标函数。(在 TPOTEstimator 中,这对应于采样数据百分比。) |
None
|
budget_scaling |
用于确定预算从起始预算移动到结束预算的速度的缩放因子。 |
0.5
|
|
generations_until_end_budget |
int
|
在达到最大预算之前运行的代数。 |
1
|
stepwise_steps |
int
|
在插值预算和种群大小时采取的阶梯步数。 |
1
|
threshold_evaluation_pruning |
list[start, end]
|
用作评估早停阈值的起始和结束百分位数。演化器将在 evaluation_early_stop_steps 步内在这两个值之间进行插值。值介于 0 和 100 之间。在评估的每个步骤中,根据先前的评估计算一个阈值。所有性能低于该阈值的个体将不再进行后续步骤的评估。例如,如果阈值设置为先前评估结果的第 90 百分位数,则所有低于第 90 百分位数的个体将不再进行进一步评估。这样可以节省计算,避免对所有个体进行所有交叉验证步骤的评估。 |
None
|
threshold_evaluation_scaling |
浮点数 [0, inf)
|
用于确定阈值从起始百分位数移动到结束百分位数的速度的缩放因子。必须大于零。数值越大,阈值移动到结束位置越快。 |
0.5
|
min_history_threshold |
int
|
在使用阈值早停之前所需的最小历史分数数量。 |
0
|
selection_evaluation_pruning |
列表
|
每一轮交叉验证中要选择的种群大小的百分比范围(下限和上限)。值介于 0 和 1 之间。在评估的每个步骤中选择一部分种群进行评估。例如,一种策略是逐个评估交叉验证的不同步骤,并且仅选择最佳的 N 个个体进行后续步骤。这样可以节省计算,避免对所有个体进行所有交叉验证步骤的评估。默认情况下,此选择使用 NSGA2 选择器完成。 |
None
|
selection_evaluation_scaling |
浮点数
|
用于确定阈值从起始百分位数移动到结束百分位数的速度的缩放因子。必须大于零。数值越大,阈值移动到结束位置越快。 |
0.5
|
evaluation_early_stop_steps |
int
|
将从目标函数中采取的步骤数。(例如,要评估的交叉验证折叠数) |
1
|
final_score_strategy |
str
|
确定个体最终分数时使用的策略。"mean":所有目标分数的平均值。"last":最后一次调用返回的分数。当前每个目标都是使用个体的克隆进行评估的。 |
"mean"
|
verbose |
int
|
优化过程中打印的信息量。较高的值包含较低值的信息。0. 无 1. 进度条 2. 评估进度条 3. 最佳个体 4. 警告
|
0
|
periodic_checkpoint_folder |
str
|
定期保存种群的文件夹。如果为 None,将不进行定期保存。如果提供,训练将从该检查点恢复。 |
None
|
callback |
CallBackInterface
|
回调对象。未实现 |
None
|
rng |
(生成器, None)
|
用于实验复现性的对象。此值将传递给 numpy.random.default_rng() 以创建生成器实例,用于传递给其他类
|
None
|
属性
| 名称 | 类型 | 描述 |
|---|---|---|
population |
种群
|
个体种群。使用 population.population 访问当前种群中的个体。使用 population.evaluated_individuals 访问所有已探索个体的 dataframe。 |
源代码位于 tpot/evolvers/base_evolver.py
88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 | |
evaluate_population() ¶
评估种群中尚未评估的个体。
源代码位于 tpot/evolvers/base_evolver.py
evaluate_population_full(budget=None) ¶
评估种群中所有尚未评估的个体。这是评估个体时没有使用任何个体评估函数早停(例如,没有阈值或选择早停)的正常/默认策略。基于代数的早停仍然可能发生。
源代码位于 tpot/evolvers/base_evolver.py
evaluate_population_selection_early_stop(survival_counts, thresholds=None, budget=None) ¶
此函数通过部分评估个体,然后根据部分评估的结果选择哪些个体进行进一步评估,以节省计算资源。
实现了两种策略:1. 选择早停:在评估的每个步骤中选择一部分种群进行评估。例如,一种策略是逐个评估交叉验证的不同步骤,并且仅选择最佳的 N 个个体进行后续步骤。这样可以节省计算,避免对所有个体进行所有交叉验证步骤的评估。默认情况下,此选择使用 NSGA2 选择器完成。2. 阈值早停:在评估的每个步骤中,根据先前的评估计算一个阈值。所有性能低于该阈值的个体将不再进行后续步骤的评估。例如,如果阈值设置为先前评估结果的第 90 百分位数,则所有低于第 90 百分位数的个体将不再进行进一步评估。这样可以节省计算,避免对所有个体进行所有交叉验证步骤的评估。
这两种策略可以同时使用。个体必须通过选择和阈值两个标准才能进一步评估。
参数
| 名称 | 类型 | 描述 | 默认值 |
|---|---|---|---|
survival_counts |
整数列表
|
在评估的每个步骤中要选择用于生存的个体数量。如果为 None,将不使用选择早停。例如:[10, 5, 2] 表示第一步选择 10 个个体,第二步选择 5 个,第三步选择 2 个。 |
None
|
thresholds |
浮点数列表
|
在评估的每个步骤中用于早停的阈值。如果为 None,将不使用阈值早停。 |
None
|
budget |
浮点数
|
评估个体时使用的预算。具体使用取决于目标函数。(在 TPOTEstimator 中,这对应于采样数据百分比。) |
None
|
源代码位于 tpot/evolvers/base_evolver.py
765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 | |
generate_offspring() ¶
从当前种群中创建 population_size 个新个体。这包括选择亲本、应用变异和交叉,以及将新个体添加到种群中。
源代码位于 tpot/evolvers/base_evolver.py
get_unevaluated_individuals(column_names, budget=None, individual_list=None) ¶
此函数用于获取当前种群中尚未评估的个体列表。
参数
| 名称 | 类型 | 描述 | 默认值 |
|---|---|---|---|
column_names |
字符串列表
|
检查未评估个体的列名称(通常是目标函数)。 |
必需 |
budget |
浮点数
|
检查未评估个体时使用的预算。如果为 None,将不检查预算列。查找在给定列名称上未使用给定预算进行评估的个体。 |
None
|
individual_list |
个体列表
|
要检查未评估个体的列表。如果为 None,将使用当前种群。 |
None
|
源代码位于 tpot/evolvers/base_evolver.py
optimize(generations=None) ¶
创建初始种群并运行进化算法指定的代数。如果 generations 为 None,将使用 self.generations 的值。
参数
| 名称 | 类型 | 描述 | 默认值 |
|---|---|---|---|
generations |
int
|
要运行的代数。如果为 None,将使用 self.generations 的值。 |
None
|
源代码位于 tpot/evolvers/base_evolver.py
442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 | |
step() ¶
运行进化算法的一个世代。这包括选择生存个体、生成后代以及评估后代。
源代码位于 tpot/evolvers/base_evolver.py
ind_crossover(ind1, ind2, rng) ¶
调用 ind1.crossover(ind2, rng=rng)
参数
| 名称 | 类型 | 描述 | 默认值 |
|---|---|---|---|
ind1 |
BaseIndividual
|
|
必需 |
ind2 |
BaseIndividual
|
|
必需 |
rng |
int 或 生成器
|
用于复现性的 numpy 随机生成器 |
必需 |
源代码位于 tpot/evolvers/base_evolver.py
ind_mutate(ind, rng) ¶
对个体调用 ind.mutate 方法
参数
| 名称 | 类型 | 描述 | 默认值 |
|---|---|---|---|
ind |
BaseIndividual
|
要进行变异的个体 |
必需 |
rng |
int 或 生成器
|
用于复现性的 numpy 随机生成器 |
必需 |