核心功能 Core Functions
1. 训练
极简使用:只需要传入数据集路径即可进行训练
自定义使用:可传入AutoML(**kwargs)
,参见API部分
Simple training method, only need to pass in the data set path for training
Source code in function\train.py
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
|
2. 预测
极简使用:只需要传入数据集路径与模型路径即可进行预测
Simple predicting method, only need to pass in the data set path and model path for predicting
Source code in function\predict.py
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
|
3. 预设预处理
去除重复样本,使用平均值填充缺失值,进行标准化
请注意!
- 此功能推荐但非必须,若不手动进行预处理,AutoML会自动进行预设好的简单预处理
Remove duplicate samples, fill missing values with mean, standardize :param missing_method: Missing value filling strategy
Source code in function\preprocessing_simply.py
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
|
4. 数据集平衡
可选功能,使用欠采样等方式对数据集进行平衡,使各个分类的样本尽可能均衡
请注意!
- 此功能推荐但非必须,若不手动进行,AutoML不会自动平衡数据
- 若不平衡现象严重,会影响所得模型的性能
请注意!
- 请小心使用此功能,数据集的平衡策略与程度会大幅影响所训练的模型的性能
Perform under-sampling on the input data using specified techniques.
Parameters:
Name | Type | Description | Default |
---|---|---|---|
data_input |
str
|
Path to the input data file. |
required |
data_output |
str
|
Path to the output file to save the balanced data. |
required |
mode |
int
|
Mode to determine the under-sampling technique to apply. Default is 0. |
0
|
**kwargs |
Additional keyword arguments for the RepeatedEditedNearestNeighbours. |
{}
|
Returns:
Type | Description |
---|---|
None |
Source code in function\under_sampling.py
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 |
|
5. 自训练
输入带有标签的数据集,不带有标签的数据集,以及模型存放路径,进行自训练
请注意!
- 请谨慎使用自训练功能,使用前务必对数据进行全面分析,并仔细设置相关参数
Auto-self-training function Please use this function with caution, make sure to conduct a comprehensive analysis of the data, and carefully set the relevant parameters
Source code in function\self_training.py
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 |
|
6. 数据分析
输入数据集的路径,输出HTML形式的分析报告
- 单数据集分析报告:
Source code in function\profile_report.py
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
|
- 双数据集分析报告:
Source code in function\profile_report.py
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
|
- 三数据集分析报告:
Source code in function\profile_report.py
59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 |
|
其他功能请查阅功能详述栏目、API栏目