当前位置：首页 > news >正文

专做和田玉的网站背景墙素材高清图片免费

news 2026/5/26 7:48:55

专做和田玉的网站,背景墙素材高清图片免费,兰州建设网站的公司,wordpress 自定义菜单设置#AI夏令营 #Datawhale #夏令营本项目为Datawhale 2024 年 AI 夏令营赛事#xff0c;零基础入门 AI 数据挖掘竞赛-速通学习手册配套的代码项目。项目链接#xff1a;https://aistudio.baidu.com/bd-cpu-02/user/2961857/8113198/home#codelab 任务目标根据给的test…#AI夏令营 #Datawhale #夏令营本项目为Datawhale 2024 年 AI 夏令营赛事零基础入门 AI 数据挖掘竞赛-速通学习手册配套的代码项目。项目链接https://aistudio.baidu.com/bd-cpu-02/user/2961857/8113198/home#codelab 任务目标根据给的testtrain数据集训练模型从而预测PROTACs的降解能力在demo中用label表示0表示差1表示好 DC50100nMDmax80% -》Label0 DC50100nM||Dmax80%-》Label1。解题思路 1.选用机器学习方法能达到和深度学习相同的结果且更方便简捷 2.这里从逻辑回归和决策树中选择哪一个模型更加合适逻辑回归的适用条件目标变量类型逻辑回归主要用于处理二分类问题即目标变量是二元的如是/非、成功/失败等。输入变量类型逻辑回归可以处理连续变量、类别变量以及二进制变量。数据分布假设逻辑回归通常假设数据服从伯努利分布即目标变量服从二项分布。线性关系逻辑回归假设自变量与对数几率的关系是线性的。解释性逻辑回归模型相对简单模型的输出可以解释为概率因此在需要理解影响因素和解释模型结果时比较有优势。决策树的适用条件目标变量类型决策树既可以处理分类问题也可以处理回归问题。输入变量类型决策树可以处理数值型数据分类型数据序数型数据和类别变量不需要对数据做过多的预处理工作。 1.数值型数据例如连续的浮点数或整数。 2.分类型数据例如名义变量通常是有限个数的离散取值比如颜色、性别等。 3.序数型数据具有顺序关系的分类型数据比如教育程度小学、中学、大学。非线性关系决策树能够处理非线性关系不需要对数据做线性假设。解释性决策树的决策路径比较直观易于理解和解释能够呈现特征的重要性。处理缺失值决策树能够自动处理缺失值不需要额外的数据预处理步骤。总结比较逻辑回归适合于简单的二分类问题当数据满足线性关系假设时表现较好适合作为基线模型进行比较和解释。决策树则更适合处理复杂的非线性关系能够处理多分类问题和回归问题同时具备一定的解释性和容错性。选择决策树决策树能够处理非线性关系并且可以自动捕获特征之间的交互作用。它可以生成可解释的规则有助于理解模型如何做出决策。决策树能够处理不同类型的特征包括分类和数值型。决策树基本代码 # 导入必要的库 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score# 1. 准备数据 # 假设有一个名为 data.csv 的数据集包含特征和标签# 读取数据集 data pd.read_csv(data.csv)# 分离特征和标签 X data.drop(target_column_name, axis1) # 特征列 y data[target_column_name] # 标签列# 2. 划分数据集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 3. 创建决策树模型 model DecisionTreeClassifier()# 4. 训练模型 model.fit(X_train, y_train)# 5. 预测 y_pred model.predict(X_test)# 6. 评估模型 accuracy accuracy_score(y_test, y_pred) print(fAccuracy: {accuracy})# 可选步骤可视化决策树 # 如果需要可解释性可以将训练好的模型可视化 # 可以使用 Graphviz 和 export_graphviz 方法 # 例如from sklearn.tree import export_graphviz# 注意上述代码中的 target_column_name 是你数据集中的目标列名需要根据实际情况替换为正确的列名。 LGB树模型 1.[LightGBM]是个快速的分布式的高性能的基于决策树算法的梯度提升框架。可用于排序分类回归以及很多其他的机器学习任务中。 2.LightGBM跟之前常用的XGBoot在不降低准确率的前提下速度提升了10倍左右占用内存下降了3倍左右。 LightGBM通过引入高效的直方图算法来优化决策树的训练过程。传统的梯度提升算法如GBoost是按层生长level-wise growth的而LightGBM则采用了按叶子生长leaf-wise growth的策略这样能够更快地生成深度较少但分裂质量较高的决策树。 -LightGBM在构建每棵决策树时还利用了特征的直方图信息有效地减少了内存使用并提高了训练速度。这种优化对于处理大规模数据和高维特征特别有用。原理机器学习—LightGBM的原理、优化以及优缺点-CSDN博客示例代码 # 导入必要的库 import lightgbm as lgb import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score# 1. 准备数据 # 假设有一个名为 data.csv 的数据集包含特征和标签# 读取数据集 data pd.read_csv(data.csv)# 分离特征和标签 X data.drop(target_column_name, axis1) # 特征列 y data[target_column_name] # 标签列# 2. 划分数据集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 3. 创建LightGBM模型 params {boosting_type: gbdt, # 使用gbdt提升器objective: binary, # 二分类任务metric: binary_logloss, # 使用logloss作为评估指标num_leaves: 31, # 每棵树的叶子节点数learning_rate: 0.05, # 学习率feature_fraction: 0.9, # 训练每棵树时使用的特征比例bagging_fraction: 0.8, # 每轮迭代时用来训练模型的数据比例bagging_freq: 5, # bagging的频率verbose: 0 # 不显示训练过程中的输出信息 }lgb_train lgb.Dataset(X_train, y_train) lgb_eval lgb.Dataset(X_test, y_test, referencelgb_train)# 4. 训练模型 gbm lgb.train(params,lgb_train,num_boost_round100, # 迭代次数valid_setslgb_eval,early_stopping_rounds10) # 当验证集的性能不再提升时停止训练# 5. 预测 y_pred gbm.predict(X_test, num_iterationgbm.best_iteration)# 将预测概率转换为类别 y_pred_binary [1 if pred 0.5 else 0 for pred in y_pred]# 6. 评估模型 accuracy accuracy_score(y_test, y_pred_binary) print(fAccuracy: {accuracy})# 可选步骤特征重要性分析 # gbm.feature_importance() 可以获取特征重要性完整代码 # 1. 导入需要用到的相关库 # 导入 pandas 库用于数据处理和分析 import pandas as pd # 导入 numpy 库用于科学计算和多维数组操作 import numpy as np # 从 lightgbm 模块中导入 LGBMClassifier 类 from lightgbm import LGBMClassifier# 2. 读取训练集和测试集 # 使用 read_excel() 函数从文件中读取训练集数据文件名为 traindata-new.xlsx train pd.read_excel(./data/data280993/traindata-new.xlsx) # 使用 read_excel() 函数从文件中读取测试集数据文件名为 testdata-new.xlsx test pd.read_excel(./data/data280993/testdata-new.xlsx)# 3 特征工程 # 3.1 test数据不包含 DC50 (nM) 和 Dmax (%)将train数据中的DC50 (nM) 和 Dmax (%)删除 train train.drop([DC50 (nM), Dmax (%)], axis1)# 3.2 将object类型的数据进行目标编码处理 for col in train.columns[2:]:if train[col].dtype object or test[col].dtype object:train[col] train[col].isnull()test[col] test[col].isnull()# 4. 加载决策树模型进行训练 model LGBMClassifier(verbosity-1) model.fit(train.iloc[:, 2:].values, train[Label]) pred model.predict(test.iloc[:, 1:].values, )# 5. 保存结果文件到本地 pd.DataFrame({uuid: test[uuid],Label: pred} ).to_csv(submit.csv, indexNone)model LGBMClassifier(verbosity-1) model.fit(train.iloc[:, 2:].values, train[Label]) pred model.predict(test.iloc[:, 1:].values, )#1. LGBMClassifier(verbosity-1) 创建了一个 LightGBM 分类模型并设置了 verbosity-1表示禁止输出训练过程中的信息。#2. model.fit(train.iloc[:, 2:].values, train[Label]) 使用训练集 train 的特征列从第三列开始即 train.iloc[:, 2:]和标签列train[Label]来训练模型。#3. pred model.predict(test.iloc[:, 1:].values) 对测试集 test 的特征列从第二列开始即 test.iloc[:, 1:]进行预测并将预测结果存储在 pred 变量中。所以这段代码的作用是利用 LightGBM 模型对测试集进行预测并且假设测试集中的特征列是从第二列开始因为使用了 test.iloc[:, 1:]。

查看全文

http://www.eeditor.cn/news/123733/