专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
人工智能与大数据技术  ·  阿里云通义灵码 AI 程序员全面上线,宣称 ... ·  昨天  
数据派THU  ·  【AAAI2025】SAIL:面向样本的上下 ... ·  2 天前  
大数据分析和人工智能  ·  各省女生长相排行榜 ·  2 天前  
大数据分析和人工智能  ·  振奋人心!东京大学入学式的一段演讲 ·  3 天前  
数据派THU  ·  【AAAI2025】多层次最优传输用于语言模 ... ·  5 天前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

解析滴滴算法大赛---GBDT进行数据预测

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-02-19 21:16

正文



数据挖掘入门与实战  公众号: datadw


按照前面文章的方法进行数据预测,完全不使用POI,天气,交通情况的数据,可以达到0.43的成绩。
不过如果想要获得更好的成绩,简单的预测方法显然无法满足要求了。


GBDT

网友说可以使用GBDT的方法来进行数据预测。所以,我们先来聊聊GBDT算法的一些基础知识。

凡是说到算法,人工智能,机器学习的文章,多半一定要说到 熵 这个概念的。什么是熵?


百度一下:

熵(entropy)指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。熵由鲁道夫·克劳修斯(Rudolf Clausius)提出,并应用在热力学中。后来在,克劳德·艾尔伍德·香农(Claude Elwood Shannon)第一次将熵的概念引入到信息论中来。

一个体系越是单调,则熵越低,反之亦然。


这里我们引用数据挖掘大神的文章来接单说一下熵。

这个很容易计算
H(X)= 1.5

P(Math) = 1/2  P(History)= 1/4 P(CS)= 1/4
log(0.25,2) = - 2   log(0.5,2) = - 1
H(X) = - (1/2) log(0.5,2)  - (1/4) log(0.25,2) - (1/4) * log(0.25,2) =  0.5 + 0.5 + 0.5 = 1.5;

H(Y)= 1
P(Yes) = 1/2  P(No) = 1/2
H(Y) = - (1/2) log(0.5,2)  - (1/2) log(0.5,2)  = 0.5 + 0.5 = 1;

  • 如果说,我们的计算范围只是 X = Math 的数据。那么这个时候 H(Y | X = Math) 是多少呢?是多少呢?答案是1。(一共4条记录,但是Y有两种可能性)

  • 如果说,我们的计算范围只是 X = Histroy 的数据。那么这个时候 H(Y| X = Histroy)是多少呢?答案也是 0 。(一共2条记录,但是Y只是一种可能性)

  • 如果说,我们的计算范围只是 X = CS 的数据。那么这个时候 H(Y| X = CS)是多少呢?答案也是 0 。(一共2条记录,但是Y只是一种可能性)

H(Y | X ): 条件熵 Conditional Entropy

现在我们考虑一个问题,如果我们需要将Y传输出去。当然,如果直接传输的话, H(Y)= 1。
如果我们在传输的时候,双方都知道X的值,则需要熵定义为H(Y | X )。

例如:大家都知道X=History,则 Y 必然是 NO, H(Y ) = 0 , Histroy的可能性是1/4 ,需要的传输量是 0(CS同理)
大家都知道X=Math,则 Y 可能是 Yes或者No,H(Y ) = 1 ,Math的可能性是1/2  ,需要的平均传输率是 1/2 1 = 0.5
Math的概率  P(Math) = 1/2 ; History的概率 P(Histroy)= 1/4; History的概率 P(CS)= 1/4;
则我们定义H(Y | X ) =  H(Y | X = Math)
 P(Math) +  H(Y| X = Histroy)  P(Histroy) + H(Y| X = CS) P(CS) = 0.5

Information Gain 信息增益 和 Relative Information Gain

从上文可知,比起直接传输Y,条件熵则更加划算了。这些划算的部分,我们称为信息增益IG。
IG(Y|X) = H(Y) - H(Y | X)
上面的例子,IG(Y|X) = H(Y) - H(Y | X) = 1 - 0.5 = 0.5
进一步,这样划算的部分,占原来所需部分的比重是多少呢?
RIG= IG(Y|X) / H(Y)  = 0.5  / 1  = 0.5   (节省的部分占了50%)

信息增益是什么,我们先从它的用处来了解它:
信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。



离散化

回到滴滴算法的问题,我们应该挑选哪些指标作为GBDT的参考呢?
所有的这些指标在使用之前都进行一下离散化。


关于离散化的好处:数据处理:离散化好处多

http://blog.sina.com.cn/s/blog_652090850100ynds.html


例如,在滴滴算法大赛里面,天气中的PM值,交通拥堵状况都是一些具体的数值,这里用离散化后,才能放入决策树中。

GBDT实现(C#)

  1.    ///

  2.    /// 回归分类树节点

  3.    ///

  4.    class TreeNode

  5.    {

  6.        ///

  7.        /// 节点属性名字

  8.        ///

  9.        public string attrName { set; get; }

  10.        ///

  11.        /// 节点索引标号

  12.        ///

  13.        public int nodeIndex { set; get; }

  14.        ///

  15.        /// 包含的叶子节点数

  16.        ///

  17.        public int leafNum { set; get; }

  18.        ///

  19.        /// 节点误差率

  20.        ///

  21.        public double alpha { set; get; }

  22.        ///

  23.        /// 父亲分类属性值

  24.        ///

  25.        public string parentAttrValue { set; get; }

  26.        ///

  27.        /// 孩子节点

  28.        ///

  29.        public TreeNode[] childAttrNode { set; get; }

  30.        ///

  31.        /// 数据记录索引

  32.        ///

  33.        public List dataIndex { set; get; }

  34.    }



(隐)马尔可夫模型的思考

在滴滴算法问题中,你需要预测的是第4个时间片,前3个时间片的状态是已经知道的。
如果我们知道第一个时间片和第二个时间片的GAP是呈现上升或者持平或者下降的状态变化,记作 C1,第二和第三个时间片变化记作 C2。
是不是可以通过C1 ,C2 ,拟合出 C3呢?

社会工程学

在拟合的时候,不可避免的会考虑各种天气对于订单的影响,但是官方并没有给出天气的类型和天气描述之间的关系。
通过对于数据的分析,我们可以知道采样数据是来自上海市(感谢某位做天气研究的同学)
然后通过查阅历史资料,我们也可以初步获得所有天气类型值和天气描述的关系,这个是无法用程序和算法完成的,所以我认为这也是社会工程学的一部分。

  1.        public static string GetWeatherType(int type)

  2.        {

  3.            string des = "未知";

  4.            switch (type)

  5.            {

  6.                case 1:

  7.                    des = "雾";

  8.                    break;

  9.                case 2:

  10.                    des = "晴";

  11.                    break;

  12.                case 3:

  13.                    des = "轻雾";

  14.                    break;

  15.                case 4:

  16.                    des = "降水";

  17.                    break;

  18.                case 6:

  19.                    //2016-01-22上海雨夹雪

  20.                    des = "雪";

  21.                    break;

  22.                case 8:

  23.                    des = "雷暴";

  24.                    break;

  25.                case 9:

  26.                    des = "霾";

  27.                    break;

  28.                default:

  29.                    des = "未知";

  30.                    break;

  31.            }

  32.            return des;

  33.        }



决策树(分类)

组委会是要求测算GAP值,是个定量问题。在这之前,我们看一下是否能够限定性分析一下GAP的高低呢?

从滴滴算法大赛的数据可以知道,数据的特征值大约有这些:

有一些特征需要自己去发现

整理出来的表格大概像这个样子的(不完全,示例)

天气类型交通状态工作日GAP分类
拥挤
雷暴轻度拥挤
拥挤
拥挤
重度拥挤

这个时候,我们到底先用哪个条件作为优先决策的依据呢?答案就是上文提到的信息增益。


Information Gain 信息增益 和 Relative Information Gain

  • IG(GAP分类 | 天气类型) = H(GAP分类) -  H(GAP分类 | 天气类型)

  • IG(GAP分类 | 交通状态) = H(GAP分类) -  H(GAP分类 | 交通状态)

  • IG(GAP分类 | 工作日) = H(GAP分类) -  H(GAP分类 | 工作日)

哪个数字最大就挑选哪个作为第一优先分类条件。
现在我们假设工作日是最高信息增益的,作为第一个决策条件
第一次分组之后就是这个样子了:

天气类型交通状态工作日GAP分类
拥挤
重度拥挤
天气类型交通状态工作日GAP分类
雷暴轻度拥挤节假日
拥挤
拥挤

按照理论(大神的文章,以后会翻译的),工作日组的GAP分类都一致了,所以就无需决策了。
对于节假日组,根据交通状态进行再分类

天气类型交通状态工作日GAP分类
雷暴轻度拥挤
拥挤
拥挤

交通状态再分类结果如下

天气类型交通状态工作日GAP分类
拥挤
拥挤
天气类型交通状态工作日GAP分类
雷暴轻度拥挤

这里无需天气类型就可以完成分类决策了。
(当然还有一种情况是所有特征都用完了,还是不能完全分类,这个时候可以使用多数表决的方式决定分类)

决策树(定量)

上面是一个定性的过程,下面我们来看一下,如果需要定量怎么处理呢?

天气类型交通状态工作日GAP数
拥挤893
雷暴轻度拥挤375
拥挤542
拥挤437
重度拥挤753
天气类型交通状态工作日GAP数误差
拥挤893293
雷暴轻度拥挤375225
拥挤54258
拥挤437167
重度拥挤753153

第一次分类怎么处理呢?
分裂的时候选取使得误差下降最多的分裂
如果我们选择工作日作为分裂条件

工作日的均值是:(893 + 753 )/ 2 = 823

天气类型交通状态工作日GAP数误差
拥挤893+70
重度拥挤753-70

误差的方差是: 70 × 70  +  70 × 70 = 9800

节假日的均值是:(375 + 542 + 437 )/ 3 = 451

天气类型交通状态工作日GAP数误差
雷暴轻度拥挤375-76
拥挤542+91
拥挤437-14

误差的方差是: 76 × 76  +  91 × 91 + 14  × 14 = 14253

按照是否为工作日分裂之后的总误差是 9800 + 14253 = 24053

当然标准做法是计算所有的总误差,然后选取最小的总误差的特征作为分类特征
(如果在这里结束,则认为工作日的预测是823,节假日的预测是541当然这还没有完)

第一颗树:
工作日:+823
休息日:+451

天气类型交通状态工作日GAP数误差
拥挤893+70
重度拥挤753-70
雷暴轻度拥挤375-76
拥挤542+91
拥挤437-14

第二颗树:
如果按照拥挤分类呢?
注意这里我们使用的输入值是误差!!

天气类型交通状态工作日误差
拥挤+70
拥挤+91
拥挤-14
雷暴轻度拥挤-76
重度拥挤-70

首先计算均值:

(这些数字的意思是,如果你认为工作日的预测是823,节假日的预测是541,两者都需要根据拥挤程度根据上述值进行修正)

天气类型交通状态工作日误差交通状态误差
拥挤+70+21
拥挤+91+  42
拥挤-14- 63
雷暴轻度拥挤-760
重度拥挤-700

第三颗树:

天气类型交通状态:拥挤
+21
+ 42
- 63

晴天:+ 31
雪:- 63

在交通状态为拥堵的时候,如果是晴天,修正 31,雪:修正 -63

预测一下

天气类型交通状态工作日GAP数
拥挤

工作日 +823
拥挤:+49
拥挤 且 雪天:-63
预测:809

天气类型交通状态工作日GAP数
拥挤809

C#代码

回归分类树节点

  1.    ///

  2.    /// 回归分类树节点

  3.    ///

  4.    class TreeNode

  5.    {

  6.        ///

  7.        /// 节点属性名字

  8.        ///

  9.        public string attrName { set; get; }

  10.        ///

  11.        /// 节点索引标号

  12.        ///

  13.        public int nodeIndex { set; get; }

  14.        ///

  15.        /// 包含的叶子节点数

  16.        ///

  17.        public int leafNum { set; get; }

  18.        ///

  19.        /// 节点误差率

  20.        ///

  21.        public double alpha { set; get; }

  22.        ///

  23.        /// 父亲分类属性值

  24.        ///

  25.        public string parentAttrValue { set; get; }

  26.        ///

  27.        /// 孩子节点

  28.        ///

  29.        public TreeNode[] childAttrNode { set; get; }

  30.        ///

  31.        /// 数据记录索引

  32.        ///

  33.        public List dataIndex { set; get; }

  34.    }



数据挖掘入门与实战

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘


长按图片,识别二维码,点关注



  公众号: weic2c   
据分析入门与实战

长按图片,识别二维码,点关注