专栏名称: 机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

机器学习模型的保存与加载，完全指南

机器学习算法与Python实战 · 公众号 · · 2025-02-11 17:50

正文

机器学习模型的保存与加载完全指南

一、引言

在机器学习项目的生命周期中，模型的保存（序列化）和加载（反序列化）是至关重要的环节。本指南将全面介绍各种模型存储格式、方法及其最佳实践。

1.1 为什么需要保存模型？

避免重复训练，节省时间和计算资源
便于模型部署和迁移到生产环境
支持模型版本控制和回滚
便于模型共享和协作开发
实现模型的持久化存储

1.2 关键考虑因素

存储格式的选择
跨平台兼容性
加载性能
文件大小
可维护性
安全性

二、常用序列化方法详解

2.1 pickle（Python 内置）

优点：

Python 标准库，无需额外安装
使用简单，API 友好
可序列化 Python 中的大多数对象
支持自定义序列化规则

缺点：

不同 Python 版本间可能不兼容
存在安全风险（不要加载不信任的 pickle 文件）
对大型数据处理效率较低
不支持跨语言使用

使用示例：

import pickle

# 保存模型
def save_model_pickle(model, filepath):
    try:
        with open(filepath, 'wb') as f:
            pickle.dump({
                'model': model,
                'version': '1.0.0',
                'metadata': {
                    'creation_date': '2025-02-10',
                    'framework_version': model.__class__.__module__
                }
            }, f)
        return True
    except Exception as e:
        print(f"保存模型失败：{e}")
        return False

# 加载模型
def load_model_pickle(filepath):
    try:
        with open(filepath, 'rb') as f:
            data = pickle.load(f)
            return data['model'], data['metadata']
    except Exception as e:
        print(f"加载模型失败：{e}")
        return None, None

2.2 joblib

优点：

专为科学计算设计
对 numpy 数组处理效率高
支持内存映射
提供更好的压缩效率

缺点：

需要额外安装
仅适用于 Python
文件格式可能随版本变化

使用示例：

from joblib import dump, load

# 保存模型
def save_model_joblib(model, filepath):
    try:
        dump({
            'model': model,
            'metadata': {
                'creation_date': '2025-02-10',
                'framework_version': model.__class__.__module__
            }
        }, filepath, compress=3)
        return True
    except Exception as e:
        print(f"保存模型失败：{e}")
        return False

# 加载模型
def load_model_joblib(filepath):
    try:
        data = load(filepath)
        return data['model'], data['metadata']
    except Exception as e:
        print(f"加载模型失败：{e}")
        return None, None

三、主流机器学习框架的模型保存方法

3.1 Scikit-learn 模型

from




    
 sklearn.ensemble import RandomForestClassifier
import joblib

# 创建和训练模型
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)

# 方法 1：使用 joblib（推荐）
joblib.dump(rf_model, 'rf_model.joblib')
rf_model = joblib.load('rf_model.joblib')

# 方法 2：使用 pickle
import pickle
with open('rf_model.pkl', 'wb') as f:
    pickle.dump(rf_model, f)
with open('rf_model.pkl', 'rb') as f:
    rf_model = pickle.load(f)

3.2 XGBoost 模型

import xgboost as xgb

# 创建和训练模型
xgb_model = xgb.XGBClassifier()
xgb_model.fit(X_train, y_train)

# 方法 1：XGBoost 原生格式（推荐）
# 保存
xgb_model.save_model('xgb_model.json')  # JSON 格式
xgb_model.save_model('xgb_model.ubj')   # 二进制格式

# 加载
xgb_model.load_model('xgb_model.json')
xgb_model.load_model('xgb_model.ubj')

# 方法 2：使用 pickle
with open('xgb_model.pkl', 'wb') as f:
    pickle.dump(xgb_model, f)

3.3 LightGBM 模型

import lightgbm as lgb

# 创建和训练模型
lgb_model = lgb.LGBMClassifier()
lgb_model.fit(X_train, y_train)

# 方法 1：LightGBM 原生格式（推荐）
# 保存
lgb_model.save_model('lgb_model.txt')      # 文本格式
lgb_model.booster_.save_model('lgb_model.txt', 
                             num_iteration=lgb_model.best_iteration_)

# 加载
lgb_model = lgb.Booster(model_file='lgb_model.txt')

3.4 CatBoost 模型

from catboost import CatBoostClassifier

# 创建和训练模型
cat_model = CatBoostClassifier()
cat_model.fit(X_train, y_train)

# 方法 1：CatBoost 原生格式（推荐）
# 保存
cat_model.save_model('cat_model.cbm')           # 二进制格式
cat_model.save_model('cat_model.json', format='json')  # JSON 格式

# 加载
cat_model.load_model('cat_model.cbm')
cat_model.load_model('cat_model.json', format='json')

四、深度学习框架的模型保存

4.1 PyTorch 模型

import torch

# 保存完整模型
torch.save(model, 'model.pth')
# 仅保存模型参数（推荐）
torch.save(model.state_dict(), 'model_params.pth')

# 加载完整模型
model = torch.load('model.pth')
# 加载模型参数
model = YourModelClass()
model.load_state_dict(torch.load('model_params.pth'))

4.2 TensorFlow/Keras 模型

import tensorflow as tf

# 保存完整模型
model.save('model_folder')
# 仅保存权重
model.save_weights('model_weights')

# 加载完整模型
model = tf.keras.models.load_model('model_folder')
# 加载权重
model = YourModelClass()
model.load_weights('model_weights')

五、最佳实践与建议

5.1 模型保存的完整方案

def save_model_complete(model, filepath, model_info=None):
    """完整的模型保存方案"""
    import json
    from datetime import datetime
    
    # 基本信息
    save_info = {
        'model_type': model.__class__.__name__,
        'framework': model.__class__.__module__,
        'save_time': datetime.now().isoformat(),
        'version': '1.0.0',
    }
    
    # 添加自定义信息
    if model_info:
        save_info.update(model_info)
    
    # 保存模型
    try:
        # 选择合适的保存方法
        if hasattr(model, 'save_model'):
            # 使用模型原生保存方法
            model.save_model(filepath)
        else:
            # 使用 joblib 作为默认方法
            joblib.dump(model, filepath)
        
        # 保存元数据
        meta_filepath = filepath + '.meta.json'
        with open(meta_filepath, 'w') as f:
            json.dump(save_info, f, indent=2)
            
        return True
    except Exception as e:
        print(f"保存模型失败：{e}")
        return False

5.2 版本控制建议

使用语义化版本号
保存模型时包含训练数据的版本信息
记录所有依赖包的版本
使用 git-lfs 管理大型模型文件

机器学习模型的保存与加载，完全指南

正文

机器学习模型的保存与加载完全指南

一、引言

1.1 为什么需要保存模型？

1.2 关键考虑因素

二、常用序列化方法详解

2.1 pickle（Python 内置）

优点：

缺点：

使用示例： (adsbygoogle = window.adsbygoogle || []).push({});

2.2 joblib

优点：

缺点：

使用示例：

三、主流机器学习框架的模型保存方法

3.1 Scikit-learn 模型

3.2 XGBoost 模型

3.3 LightGBM 模型

3.4 CatBoost 模型

四、深度学习框架的模型保存

4.1 PyTorch 模型

4.2 TensorFlow/Keras 模型

五、最佳实践与建议

5.1 模型保存的完整方案

5.2 版本控制建议

请到「今天看啥」查看全文

使用示例：