专栏名称: 廖雪峰
业余马拉松选手廖雪峰的公众号,各种鸡汤混杂负能量,心理承受能力不强者慎重订阅。
目录
相关文章推荐
数据中心运维管理  ·  探索数据中心的多模光纤距离限制 ·  4 天前  
数据中心运维管理  ·  DeepSeek加速大马数据中心发展 ·  3 天前  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
太格有物  ·  品牌故事|茶酔:推广清醒好奇文化 ... ·  4 天前  
数据分析与开发  ·  为 DeepSeek 辟谣:五大误解与真相解读 ·  4 天前  
51好读  ›  专栏  ›  廖雪峰

《Python 数据科学加速》电子书开源了!

廖雪峰  · 公众号  ·  · 2024-05-14 09:19

正文

📚 《Python 数据科学加速》电子书开源了!🎉

链接 👉🏻 https://scale-py.godaai.org/

这是一本面向下一代数据科学和人工智能的开源电子书。

本书内容

在这本电子书中,我们将深入探讨以下四个关键框架:

  • Dask - 一个并行计算的利器,它让 Python 能够处理超出内存大小的大型数据集,是数据科学家处理大规模数据的得力助手。

  • Ray - API 简单,面向深度学习训练推理,GitHub 30k stars。AI 时代的基础设施,OpenAI 基于 Ray 训练 ChatGPT!

  • Xorbits - 一个高性能的分布式计算和推理框架,简单易上手。

  • mpi4py - MPI 的 Python 实现,它让 Python 开发者能够利用 MPI 强大的并行计算能力。本书探讨了 mpi4py 如何与大模型训练相结合。

Python pandas、NumPy、scikit-learn 只能在单机运行,如果你还还在困扰如何将这些任务横向扩展,这本书正适合你!

数据科学经常反复试验,Ray 提供了丰富的超参数调优功能,轻松选出最优超参数。

训练好的模型如何部署?Ray Serve、Xinference 帮你快速部署大模型。

实战案例

本书强调实战和案例,数据源代码可复现,可以在 colab 或您自己的服务器上运行。帮助您在数据科学的征途上,更快地分析数据,更高效地构建模型,更便捷地实现分布式计算和模型部署。

🔬 无论你是数据科学的初学者,还是资深的研究人员,这本电子书都将是你的宝贵资源。







请到「今天看啥」查看全文