专栏名称: 数据STUDIO
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。
目录
相关文章推荐
51好读  ›  专栏  ›  数据STUDIO

全球掀DeepSeek复现狂潮,这个爬虫神器出圈了!

数据STUDIO  · 公众号  ·  · 2025-02-14 10:30

正文

请到「今天看啥」查看全文



网上已经出现了一波复现DeepSeek的狂潮。

UC伯克利、港科大、HuggingFace等纷纷成功复现 ,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!

全球最大开源平台HuggingFace团队,1月26日官宣复刻DeepSeek R1所有pipeline。

复刻完成后,所有的训练数据、训练脚本等等,将全部开源。 这个项目叫做Open R1,当前还在进行中。发布到一天,星标冲破1.9k,斩获142个fork。(项目地址:https://github.com/huggingface/open-r1)

研究团队以DeepSeek-R1技术报告为指导,将整个复刻过程划分为三个关键步骤。

  • 步骤 1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。
  • 步骤 2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。
  • 步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。

复现模型,除了硬件资源外,最重要的还是需要高质量语料库,首先看下DeepSeek的数据来源,主要包括以下几个方面:

  1. 公开文本数据集
  • 包括公共领域的经典书籍(如Project Gutenberg)、学术论文(如arXiv、PubMed)、开放版权的小说等。
  • 特点:语言规范,知识密度高,适合提升模型的逻辑性和知识储备。
  • 网络爬取数据
    • 包括新闻网站(如BBC、纽约时报)、博客、论坛(如Reddit、Quora)、社交媒体(如Twitter、微博)等。
    • 特点:语言多样化,包含日常对话、网络用语,但需清洗噪声(广告、重复内容)。
  • 问答平台数据
    • 包括Stack Overflow、知乎、Yahoo Answers等。
    • 特点:包含问题与答案对,增强模型的问答能力。
  • 多语言语料库
    • 包括联合国文件、欧盟法律文本等官方多语言对照数据。
    • 特点:支持多语言翻译和跨语言理解。
  • 代码与技术文档
    • 包括GitHub、GitLab等平台的开源代码(需遵守许可证)。
    • 特点:帮助模型理解编程逻辑和代码生成。
  • 对话与交互数据
    • 包括客服对话记录(需合规处理隐私)、人工合成对话(如通过模板生成的对话数据或通过强化学习模拟用户交互)。
    • 特点:提升模型对话流畅性和实用性。
  • 专业领域数据
    • 包括医学、法律、金融等,如医学期刊(PubMed)、法律案例库、财经新闻、上市公司财报。
    • 特点:增强模型在垂直领域的专业性和准确性。
  • 用户生成内容(UGC)
    • 包括评论(如亚马逊、豆瓣)、短视频字幕、播客转录文本。
    • 特点:贴近真实语言使用场景,但需过滤低质量内容。
  • 政府与公共机构数据
    • 包括政府公开报告、统计局数据、公共政策文件。
    • 特点:提供权威信息,增强模型对公共事务的理解。

    这些多样化的数据来源共同构成了DeepSeek的丰富数据集,使其能够在多个领域提供高质量的服务。

    此外,如需要特定专属的高质量语料,我想到的最快捷的方法还是通过爬虫的方式获取。

    说起爬虫,它可是个让人又爱又恨的小家伙啊!有时它就像个勤劳的小蜜蜂,在网络的百花园里忙得不亦乐乎,为我们采集那些甜美的数据花朵。但,小蜜蜂有时候也不是那么好伺候的,时不时会遇到些头疼的问题,让人哭笑不得。

    网络世界可不是个自由市场,到处都有“守门员”(服务器管理员)。他们为了保护自己的数据不被随意抓取,设置了各种防爬策略,比如限制访问频率、验证码验证、IP封锁等等。

    但,我们聪明的爬虫工程师们可不会轻易放弃。他们开始施展各种“魔法”—— 使用代理IP、模拟用户行为、验证码识别 等等,试图绕过这些障碍。

    但是, 这些“魔法”也不是万能的 ,有时候反而会弄巧成拙,比如被识别为恶意攻击而遭到更严厉的封锁。

    除了“守门员”的阻挠,网络世界还充满了各种“陷阱”。有些网站为了吸引爬虫,故意发布一些虚假信息或者设置一些诱饵链接。

    爬虫一不小心就会中招,抓取到一堆垃圾数据或者陷入无限循环。这就像是在森林里迷路的旅人,越走越偏,最后连回家的路都找不到了。

    爬虫技术就像是一场充满挑战和乐趣的冒险之旅。虽然会遇到各种困难和问题,但是只要我们保持一颗勇敢和好奇的心,就一定能够找到解决问题的方法,获取到那些宝贵的数据宝藏!

    这里我向大家推荐一个非常好用、安全的平台 :亮数据

    链接直达:https://www.bright.cn/?promo=RESIYEAR50/?utm_source=brand&utm_campaign=brnd-mkt_cn_wechat_shujustudio202502

    有小伙伴会有疑问,我想用数据,但又不会写爬虫代码怎么办?那我如何使用代理 IP去爬取我们所需的数据呢?

    别担心,下面来解决你这个问题。

    自动化工具

    一个浏览器,实现批量数据抓取,非常强大!点击免费试用即可。

    点击查看代理IP产品

    选择亮数据浏览器

    添加新代理:名字可自定义。

    点击查看代码集成示例

    输入目标网站,和国家。

    可以看到,选好语言 Python 模块后,这边自动生成了对应的脚本,在执行前,这里需要安装一下 亮数据的第三方 Python 模块

    pip3 install playwright

    安装成功后,将案例代码复制到python编辑器中执行。

    import asyncio
    from playwright.async_api import async_playwright

    SBR_WS_CDP = 'wss://brd-customer-hl_4565ddce-zone-scraping_browser1-country-cn:[email protected]:9222'

    async def run(pw):
        print('Connecting to Scraping Browser...')
        browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
        try:
            page = await browser.new_page()
            print('Connected! Navigating to https://baidu.com...')
            await page.goto('https://baidu.com')
            # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
            # client = await page.context.new_cdp_session(page)
            # print('Waiting captcha to solve...')
            # solve_res = await client.send('Captcha.waitForSolve', {
            #     'detectTimeout': 10000,
            # })
            # print('Captcha solve status:', solve_res['status'])
            print('Navigated! Scraping page content...')
            html = await page.content()
            print(html)
        finally:
            await browser.close()

    async def main():
        async with async_playwright() as playwright:
            await run(playwright)

    if __name__ == '__main__':
        asyncio.run(main())

    数据集服务

    这是该平台一个非常棒的功能,如果你不想费时费力的去获取想要的数据,或者说对代码的运行不太专,我建议你不妨试一试它。

    访问亮数据官网,点击 菜单网络数据 - 数据集 - 获取免费样本 ,即可体验数据集服务了。

    也可在之前的代理配置页面直接点击左侧的数据收集器,然后选择定制数据。

    下面的选项大家可以按需选择(左:全方位,右:定制化)

    开始创建代理端口

    开始填写所需的数据,比如这里我要爬取百度的,填写如下:

    点击下一页之后,会自动去抓取内容

    抓取完成

    你也可以根据你的需求进行相关的筛选

    点击确定筛选

    我们可以对抓取到的数据进行下载,内置提供有 JSON 和 CSV 两种数据保存格式。

    更多详细的功能,大家可以 登录亮数据官网 慢慢体验,总体感觉操作非常简单,完全傻瓜式,没有任何难度。

    最近他们在动态住宅代理产品搞活动。动态住宅代理的5折大促!

    动态住宅代理 IP

    这类动态 IP 网络位于世界上每个国家、州和市,完全属于真人住宅IP,能非常安全、高效的采集所需数据。

    促销适用: 本次促销适用于所有新注册用户及老客户。
    促销范围: 本次促销适用于所有动态住宅代理产品的套餐(随用随付及包月套餐)。
    折扣代码: RESIYEAR50
    代码使用有效期: 至2025年5月14日
    折扣有效期: 1年(自折扣代码使用日开始计,1年后自动恢复原价)
    折扣链接: https://www.bright.cn/?promo=RESIYEAR50/?utm_source=brand&utm_campaign=brnd-mkt_cn_wechat_shujustudio202502.

    以下是折扣使用方法:(建议以下步骤在电脑上完成!)

    新注册用户
    1. 新用户注册成功并登录后,点击左下角导航栏里的【支付】,进入“计费”页面。此式可在右边看到 Apply a promo code字样。
    1. 点击Apply a promo code,即可看到五折促销已生效。
    已有账户的老用户 直接登陆后,促销亦可直接生效。

    现在就享受超值的动态住宅代理半价折扣:注册及登录,请点击 【阅读原文】 获得进入专用促销链接!


    🏴‍☠️宝藏级🏴‍☠️ 原创公众号『 数据STUDIO 』内容超级硬核。公众号以Python为核心语言,垂直于数据科学领域,包括 可戳 👉 Python MySQL 数据分析 数据可视化 机器学习与数据挖掘 爬虫 等,从入门到进阶!

    长按👇关注- 数据STUDIO -设为星标,干货速递







    请到「今天看啥」查看全文