专栏名称: 数据STUDIO

点击领取《Python学习手册》，后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享，内容以 Python 为核心语言，涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

全球掀DeepSeek复现狂潮，这个爬虫神器出圈了！

数据STUDIO · 公众号 · · 2025-02-14 10:30

正文

请到「今天看啥」查看全文

网上已经出现了一波复现DeepSeek的狂潮。

UC伯克利、港科大、HuggingFace等纷纷成功复现 ，只用强化学习，没有监督微调，30美元就能见证「啊哈时刻」！

全球最大开源平台HuggingFace团队，1月26日官宣复刻DeepSeek R1所有pipeline。

复刻完成后，所有的训练数据、训练脚本等等，将全部开源。 这个项目叫做Open R1，当前还在进行中。发布到一天，星标冲破1.9k，斩获142个fork。（项目地址：https://github.com/huggingface/open-r1）

研究团队以DeepSeek-R1技术报告为指导，将整个复刻过程划分为三个关键步骤。

步骤 1：通过从DeepSeek-R1蒸馏高质量语料库，复现R1-Distill模型。
步骤 2：复现DeepSeek用于创建R1-Zero的纯强化学习（RL）流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。
步骤 3：展示我们如何通过多阶段训练，从基础模型发展到经过RL调优的模型。

复现模型，除了硬件资源外，最重要的还是需要高质量语料库，首先看下DeepSeek的数据来源，主要包括以下几个方面：

公开文本数据集 ：

包括公共领域的经典书籍（如Project Gutenberg）、学术论文（如arXiv、PubMed）、开放版权的小说等。
特点：语言规范，知识密度高，适合提升模型的逻辑性和知识储备。

网络爬取数据 ：

包括新闻网站（如BBC、纽约时报）、博客、论坛（如Reddit、Quora）、社交媒体（如Twitter、微博）等。
特点：语言多样化，包含日常对话、网络用语，但需清洗噪声（广告、重复内容）。

问答平台数据 ：

包括Stack Overflow、知乎、Yahoo Answers等。
特点：包含问题与答案对，增强模型的问答能力。

多语言语料库 ：

包括联合国文件、欧盟法律文本等官方多语言对照数据。
特点：支持多语言翻译和跨语言理解。

代码与技术文档 ：

包括GitHub、GitLab等平台的开源代码（需遵守许可证）。
特点：帮助模型理解编程逻辑和代码生成。

对话与交互数据 ：

包括客服对话记录（需合规处理隐私）、人工合成对话（如通过模板生成的对话数据或通过强化学习模拟用户交互）。
特点：提升模型对话流畅性和实用性。

专业领域数据 ：

包括医学、法律、金融等，如医学期刊（PubMed）、法律案例库、财经新闻、上市公司财报。
特点：增强模型在垂直领域的专业性和准确性。

用户生成内容（UGC） ：

包括评论（如亚马逊、豆瓣）、短视频字幕、播客转录文本。
特点：贴近真实语言使用场景，但需过滤低质量内容。

政府与公共机构数据 ：

包括政府公开报告、统计局数据、公共政策文件。
特点：提供权威信息，增强模型对公共事务的理解。

这些多样化的数据来源共同构成了DeepSeek的丰富数据集，使其能够在多个领域提供高质量的服务。

此外，如需要特定专属的高质量语料，我想到的最快捷的方法还是通过爬虫的方式获取。

说起爬虫，它可是个让人又爱又恨的小家伙啊！有时它就像个勤劳的小蜜蜂，在网络的百花园里忙得不亦乐乎，为我们采集那些甜美的数据花朵。但，小蜜蜂有时候也不是那么好伺候的，时不时会遇到些头疼的问题，让人哭笑不得。

网络世界可不是个自由市场，到处都有“守门员”（服务器管理员）。他们为了保护自己的数据不被随意抓取，设置了各种防爬策略，比如限制访问频率、验证码验证、IP封锁等等。

但，我们聪明的爬虫工程师们可不会轻易放弃。他们开始施展各种“魔法”—— 使用代理IP、模拟用户行为、验证码识别 等等，试图绕过这些障碍。

但是， 这些“魔法”也不是万能的 ，有时候反而会弄巧成拙，比如被识别为恶意攻击而遭到更严厉的封锁。

除了“守门员”的阻挠，网络世界还充满了各种“陷阱”。有些网站为了吸引爬虫，故意发布一些虚假信息或者设置一些诱饵链接。

爬虫一不小心就会中招，抓取到一堆垃圾数据或者陷入无限循环。这就像是在森林里迷路的旅人，越走越偏，最后连回家的路都找不到了。

爬虫技术就像是一场充满挑战和乐趣的冒险之旅。虽然会遇到各种困难和问题，但是只要我们保持一颗勇敢和好奇的心，就一定能够找到解决问题的方法，获取到那些宝贵的数据宝藏！

这里我向大家推荐一个非常好用、安全的平台 ：亮数据

链接直达：https://www.bright.cn/?promo=RESIYEAR50/?utm_source=brand&utm_campaign=brnd-mkt_cn_wechat_shujustudio202502

有小伙伴会有疑问，我想用数据，但又不会写爬虫代码怎么办？那我如何使用代理 IP去爬取我们所需的数据呢？

别担心，下面来解决你这个问题。

自动化工具

一个浏览器，实现批量数据抓取，非常强大！点击免费试用即可。

点击查看代理IP产品

选择亮数据浏览器

添加新代理：名字可自定义。

点击查看代码集成示例

输入目标网站，和国家。

可以看到，选好语言 Python 模块后，这边自动生成了对应的脚本，在执行前，这里需要安装一下 亮数据的第三方 Python 模块 。

pip3 install playwright

安装成功后，将案例代码复制到python编辑器中执行。

import asyncio
from playwright.async_api import async_playwright

SBR_WS_CDP = 'wss://brd-customer-hl_4565ddce-zone-scraping_browser1-country-cn:[email protected]:9222'

async def run(pw):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating to https://baidu.com...')
        await page.goto('https://baidu.com')
        # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
        # client = await page.context.new_cdp_session(page)
        # print('Waiting captcha to solve...')
        # solve_res = await client.send('Captcha.waitForSolve', {
        #     'detectTimeout': 10000,
        # })
        # print('Captcha solve status:', solve_res['status'])
        print('Navigated! Scraping page content...')
        html = await page.content()
        print(html)
    finally:
        await browser.close()

async def main():
    async with async_playwright() as playwright:
        await run(playwright)

if __name__ == '__main__':
    asyncio.run(main())

数据集服务

这是该平台一个非常棒的功能，如果你不想费时费力的去获取想要的数据，或者说对代码的运行不太专，我建议你不妨试一试它。

访问亮数据官网，点击 菜单网络数据 - 数据集 - 获取免费样本 ，即可体验数据集服务了。

也可在之前的代理配置页面直接点击左侧的数据收集器，然后选择定制数据。

下面的选项大家可以按需选择（左：全方位，右：定制化）

开始创建代理端口

开始填写所需的数据，比如这里我要爬取百度的，填写如下：

点击下一页之后，会自动去抓取内容

抓取完成

你也可以根据你的需求进行相关的筛选

点击确定筛选

我们可以对抓取到的数据进行下载，内置提供有 JSON 和 CSV 两种数据保存格式。

更多详细的功能，大家可以 登录亮数据官网 慢慢体验，总体感觉操作非常简单，完全傻瓜式，没有任何难度。

最近他们在动态住宅代理产品搞活动。动态住宅代理的5折大促！

动态住宅代理 IP

这类动态 IP 网络位于世界上每个国家、州和市，完全属于真人住宅IP，能非常安全、高效的采集所需数据。

促销适用： 本次促销适用于所有新注册用户及老客户。
促销范围： 本次促销适用于所有动态住宅代理产品的套餐（随用随付及包月套餐）。
折扣代码： RESIYEAR50
代码使用有效期： 至2025年5月14日
折扣有效期： 1年（自折扣代码使用日开始计，1年后自动恢复原价）
折扣链接： https://www.bright.cn/?promo=RESIYEAR50/?utm_source=brand&utm_campaign=brnd-mkt_cn_wechat_shujustudio202502.

以下是折扣使用方法：（建议以下步骤在电脑上完成！）

新注册用户

新用户注册成功并登录后，点击左下角导航栏里的【支付】，进入“计费”页面。此式可在右边看到 Apply a promo code字样。

点击Apply a promo code，即可看到五折促销已生效。

已有账户的老用户直接登陆后，促销亦可直接生效。

现在就享受超值的动态住宅代理半价折扣：注册及登录，请点击 【阅读原文】 获得进入专用促销链接！

🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO 』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳 👉 Python ｜ MySQL ｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！

长按👇关注- 数据STUDIO -设为星标，干货速递

全球掀DeepSeek复现狂潮，这个爬虫神器出圈了！

正文

请到「今天看啥」查看全文

自动化工具

数据集服务

动态住宅代理 IP

新注册用户

已有账户的老用户 直接登陆后，促销亦可直接生效。

请到「今天看啥」查看全文

已有账户的老用户直接登陆后，促销亦可直接生效。