专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
人工智能与大数据技术  ·  因一条1分钟的视频,工程师被OpenAI封禁 ... ·  3 天前  
数据派THU  ·  提升数据科学工作流效率的10个Jupyter ... ·  4 天前  
数据派THU  ·  时间序列平稳性的双重假设检验:KPSS与AD ... ·  3 天前  
大数据D1net  ·  2025年数据治理趋势与成功策略全解析 ·  2 天前  
国家数据局  ·  2024年“数据要素×”大赛优秀项目案例集— ... ·  2 天前  
51好读  ›  专栏  ›  CDA数据分析师

用Deepseek处理复杂数据效果好吗?小白搞得定吗?

CDA数据分析师  · 公众号  · 大数据  · 2025-02-12 09:00

正文

在数据预处理、数据可视化、业务分析的时候,数据量太大或者结构复杂的问题,想要让数据更易用或者更直观。在处理大数据时遇到性能问题,或者需要向非技术人员展示数据结果,需要简化数据的同时保持关键信息。


一行一行地处理数据实在太枯燥,这个时候让deepseek处理复杂数据能不能更快点?


呃,呃,为啥说Deepseek不能取代数据分析师?因为只有懂数据分析的专业人员,用正确的专业术语提问才能得到更准确的答案, 才能理解Deepseek给的答案 ,一个外行还是要学习专业术语,学习专业技能才能 精准提问 ,得到正确答案。


首先,你得会处理多维数据,就是好多张表格的数据,用透视表之类的工具把它们汇总分析。最后,你得知道不同业务场景下用什么分析方法,比如分析电商流量转化率就得用 漏斗分析 ,两次营销活动的效果差异就要用到 对比分析



这些内容都是CDA数据分析师一级考试中的重点,CDA一级考察业务数据分析,Excel,SQL,多维数据处理,统计学以及PowerBI数据可视化。如果你对其中的一些内容很熟悉,想了解自己的真实水平,可以在CDA认证小程序中找到模拟题进行测试。


数据预处理 中有这样一个知识点叫 概化处理 ,概化处理这个词你可能听的比较少,那么这项技术是如何实施,又为何需要呢?本文来带你详细学习。这是CDA数据分析师Level II新教材《量化策略分析》第六章的一个知识点。

一、为什么概化如此重要

在当今数据科学和人工智能的浪潮下,我们需要处理海量且复杂的数据。这些数据不仅包含连续变量,也包含分类变量,甚至是非结构化的数据。面对如此庞杂的信息,如何让机器学习模型更高效地从数据中学习,并在各种场景下保持稳健性?


其中有一种手段就是 技术-概化处理 ,针对 分类型数据的简化技术

概化处理的目标主要解决的是 单变量数据 问题中 分类变量含有稀有水平或错误值问题。


二、数据如何概化处理

概化处理 是数据预处理的一项重要技术,尤其在处理复杂数据时能够有效提高模型的稳定性与准确性。它通过简化数据的层级结构或合并数据中的不必要细节,帮助我们构建更高效的模型。接下来,我将详细解释 三种常见的概化处理方法 :简单合并、基于事实合并和基于算法的合并。





1、简单合并

简单合并是最基础、最直观的一种概化处理方法。它的核心思想是将原始数据中的一些类别或区间直接合并成较大类别。合并的原则可以非常简单,通常是根据某些 相似性 可操作性 来决定哪些类别或区间可以合并。要求合并后要求大类样本占比 ≥5% ,且 样本量不少于50个


使用场景:

• 当数据集中某些类别的 占比极小 ,可能会影响模型的 稳定性 时,直接 进行合并。

• 例如,在用户分类、产品类别分析中,某些低频类别可以合并为“其他”类别,以减少类别数量,提高分析效率。



典型例子如: 地理位置 可能包含很多小区域(比如城市或县区),通过简单合并,可以将小区域归类为更大的区域(例如,省份级别),来减少分析时的复杂性。

这种方法简单易操作,常用于数据初步预处理阶段,特别是在面对分类变量数量较多时。适用于那些类别间差异不大且合并后不会影响分析结果的情况。




2、根据事实合并

这种合并的 主要思想 是先计算每个类别的 P值 (p-value,指统计显著性指标)以及Logit值(对数几率),然后按P值大小进行排序,合并相近类别。


目的是尽量将 样本量较小的类别合并到样本量较大的类别 ,保证合并后的分组仍具有统计意义,并且样本数仍然满足 大于5%且不少于50个 的要求。


如图:

B11、B4、B19 被合并,它们的 Logit 值计算后为 0.85,表示这一组的特征较为一致。

B18、B2、B13、B15 组合在一起,这一组的 Logit 值为 -0.67。

B6 及其他类别 在另一个组合中,Logit 值为 -0.99。


在这里Logit 值是通过 log(p / (1 - p)) 计算得出的,它用于衡量一个类别的事件发生概率。在极端情况下,某些类别可能会导致 Logit 值无法计算(如 p 值为 0 或 1),因此 P 值的适用性更广,可用于决定如何合并类别。

这种方法适用于 信用评分建模、医疗风险评估 等对数据精度要求较高的领域。




3、基于算法的合并

最后一种方法是基于算法的合并,该方法常与分箱方法结合使用,分箱方法是用于常用的 消除异常值、离群值、极端值的做法 。分箱算法包括对 连续型变量 进行 等距等频分箱, 也包括对 分类变量 进行 合并

基于算法的合并,常采用机器学习或统计算法自动决定如何合并类别,常见的方法包括:

卡方分箱法(ChiMerge)

基于 卡方检验 ,计算不同类别的显著性差异,并合并P值接近的类别。

比如我们有一个关于用户购买某商品的数据集,记录了不同年龄段用户的购买情况(1表示购买,0表示未购买)。

首先, 卡方分箱法会对不同类别之间的频次进行 卡方检验。 对于上述数据,假设年龄段为“18-25”,“26-35”,“36-45”和“46-60”四个类别,卡方检验将计算这些类别与“购买情况”之间的关系。


根据卡方统计量,计算每个类别与目标变量(购买情况)之间的P值。P值较低表示这些类别与目标变量之间的关系显著。

通过排序P值,卡方分箱法会合并P值接近且不显著的类别。在我们的例子中,可能会发现“36-45”与“46-60”这两个年龄段的P值较高,差异不显著,因而可以合并为一个新的年龄段(比如“36-60”)。

合并后的数据:


卡方分箱法有效地合并了差异不显著的类别,减少了数据维度,同时保持了重要的统计信息。

决策树分箱法(Decision Tree Binning)

决策树分箱法通过决策树模型自动选择最佳分箱方式。它通过构建一个决策树来判断如何将连续变量划分为多个区间,从而使得每个区间内的数据样本具有较高的纯度(即在目标变量上具有较大的一致性)。


在决策树分箱法中,选择分箱点的核心目标是 最大化目标变量的纯度 ,即让每个分箱(区间)中的数据点在目标变量(如贷款批准=1或0)上尽可能一致。通常使用 信息增益 (Information Gain) 或 基尼指数 (Gini Index) 来衡量纯度,并决定最佳分箱点。


如下演示基于信息增益的最优分割:

信息增益基于 熵(Entropy) 的减少量来衡量纯度。熵越小,纯度越高。

比如我们有以下贷款数据:

  1. 计算未分箱前的熵:

• 总共有 7 个客户,其中 3 个贷款批准(1),4 个贷款未批准(0)。

• 计算整体熵:

2. 计算以 收入=50K 为分箱点后的加权熵:

• 左侧(收入 ≤ 50K):客户(1,2,5)→ 贷款批准(1,1,0)

• 右侧(收入 > 50K):客户(3,4,6,7)→ 贷款批准(0,1,0,0)


如果 50K 的信息增益是最大值,则 50K 作为最佳分箱点。

决策树分箱方法适用于连续变量,通过决策树模型自动选择最佳的分箱点,确保每个区间内的数据具有较高的一致性。

这种通过算法自动优化类别合并,避免主观决定可能带来的误差。适用于大规模数据处理,特别是当类别众多且类别间关系复杂时。


如果你渴望在这个充满机遇和挑战的领域中有所作为,想做一个数据分析师,那么不妨加入 CDA数据分析脱产就业班, 与志同道合的伙伴一起,开启一段全新的职业之旅。

CDA数据分析师就业班 2025.02.15 脱产班和在职周 末班 开班 ,欢迎大家扫码咨询。

图片

扫码回复" 就业班 ",咨询课程 优惠


| 课程分级

一个科学完善的课程体系分级可以帮助学习者更加有效地掌握数据分析的知识和技能,提高学习效果和实际应用能力。


图片

| 讲师团队

与智者同行,与高人为伍,让大师成为你的私人智库

在这个快速变化的世界中,与智者同行、与高人为伍,成为了我们追求成长和智慧的捷径。智者以他们的深厚学识和独特见解,为我们指明前行的方向;高人则以其卓越的能力和非凡的成就,激励我们不断超越自我。


图片

| 课程案例

高标准师资团队,课程与时俱进,不断融入热门技术

选择智慧启航,就是选择了一个高标准师资团队、前沿技术和优质课程的结合。在这里,你将获得最专业、最全面、最前沿的学习体验,为你的未来奠定坚实的基础。


图片
图片

| 学习平台

四大智能学习系统,高效辅助全程

一线行业大咖,实战业务经验分享,优质学长实用求职方法传授。每月3-4次


图片


| 权威教材

行业权威教材及知识体系

CDA数据分析师就业培训班所使用的教材及相关讲义 (电子版) ,均由CDA数据科学研究院独家支持研发!


图片


10大行业 300+ 套完整行业案例


图片


CDA数据科学研究院是国内率先成立的专注于数据科学领域的专业研究团队,团队具有专业的学术素养、精湛的研究水平,扎实的企业实战经验,丰富的行业资源,通过对各类企业、社会组织等进行全面、系统、深入的调查和访问,从而获得紧跟技术发展的经验与数据,并结合数据行业的未来发展方向进行系统的研究,不断研发新的知识体系和技术应用。

| 职业路径

全流程“沉浸式”精准个性化职业解决方案,坚决抵制过度承诺!

精准个性化指导,为你量身定制职业发展路径。我们的专业团队将根据你的兴趣、能力和职业目标,为你提供个性化的建议与方案,帮助你在职业道路上少走弯路,更快地实现自己的梦想。

坚决抵制过度承诺。我们深知,每个人的职业发展都是一个长期而持续的过程,需要不断的努力与积累。因此,我们承诺为你提供真实、可靠的职业指导与支持,帮助你实现自己的职业目标,而不是仅仅为你描绘一个美好的蓝图。

选择全流程“沉浸式”精准个性化职业解决方案,就是选择了一个真实、可靠的职业发展伙伴。让我们携手共进,共同开创属于你的美好未来!


图片


| 学员案例


图片


| 培训成果

专注数据科学前沿技术、人才培养17年、往期学员超百人成为数据科学家,培训学员10万+吸引世界名校学员总数超5000 (哥伦比亚大学、清华大学、北京大学、人民大学等)全国30万+的数据分析从业者,有10万在CDA,行业大咖师资203位、名企内训合作118家、公益直播730场沙龙会议318期。


图片


| 课程大纲

完善系统的教学体系,紧跟时代需求, 在瞬息万变的时代里,教育不再是一成不变的灌输,而是需要与时俱进,紧密贴合时代的脉搏。完善系统的教学体系,是我们对教育的坚持和追求,确保每一位学习者都能获得全面、深入、实用的知识和技能。


基于CDA的新大纲的改版,2025年1月对 课程大纲做了较大更新,就业班和脱产班增加了以下内容:

脱产班:
  • 新增企业需要的数据能力、数据分析思维、指标体系管理内容
  • 新增标签体系与用户画像内容,及其相应案例
  • 新增归因分析内容
  • 新增进阶数据分析思维、量化策略分析框架与流程内容
  • 新增数据管理与数据安全内容
  • 新增时间序列建模内容
  • 新增人工智能商业应用内容,录播
  • 数据架构与ETL改为SQL授课
  • 案例优化为沙盘模拟的形式授课
  • 删除Hive SQL内容
  • 删除精准营销与金融风控案例内容删除深度学习内容

周末班:
  • 新增企业需要的数据能力、数据分析思维、指标体系管理内容
  • 新增标签体系与用户画像内容,及其相应案例
  • 新增归因分析内容
  • 新增人工智能商业应用内容数据架构与ETL改为SQL授课
  • 案例优化为沙盘模拟的形式授课
  • 删除Hive SQL内容

    (未新增前的课表)

图片
图片
图片
图片
图片
图片
图片
图片
图片
CDA数据分析就业班02月15日开课








请到「今天看啥」查看全文