专栏名称: 大数据挖掘DT数据分析

实战数据资源提供。数据实力派社区，手把手带你玩各种数据分析，涵盖数据分析工具使用，数据挖掘算法原理与案例，机器学习，R语言，Python编程，爬虫。如需发布广告请联系： hai299014

绝对公平？用数据分析破解北京机动车摇号的秘密

大数据挖掘DT数据分析 · 公众号 · 大数据 · 2017-02-05 17:48

正文

数据挖掘入门与实战公众号： datadw

几年过去了，在帝都辛苦挤地铁的你，是否有同样的疑问？

现在摇号到底有多难？
哪些人摇到了号？平均摇了几回？
有没有提升摇号概率的方法？
摇号算法是什么？是绝对公平的吗？

下面用真实的数据，告诉你答案。

摇到号的概率是多少？

2016到2017年，北京每年各有15万个小汽车指标。新能源比例达到40%，普通号只剩9万个，一年6次，每次15000个。

但是！2016年第3次摇号， 摇号池总数量是9917981！总摇号人数270.7万！如果你摇号次数在24次之内，那么本次摇到的概率为千分之一！ 花166年摇一千次都不中的概率是37%！

每摇12次没中签，真的会像官方的说法，可能性增加一倍么？太天真！因为你增加，别人的也在增加。 除非你是第一批参加摇号的人，否则会有更多的人比你增加更高的概率。 因此，号是越来越难摇的。

五年间，摇到号的人数总共94万人。2011年时，每隔10个人就会有一个幸运儿，几年前买车确实比现在买车容易太多。看看这张图：

2012年和2014年算是摇号黄金期，每期都有接近两万人摇到号，可是到了2016年，这个数字降为1.3万。然而，下面这张图绝对让你哭晕！

当然，每年增加的摇号人数基本是线性的：

从第一期的18万，到2016年6月份的270万，每年增加五十万人。我们难以确定新增加的是哪些人数，按照政策，学生可能占了相当大的比重（可参考附录）。

那么，那些摇到号的人，总共摇了多少次呢？下面这张图回答你：

有接近九万人第一次就摇到号了，还有190人摇了整整51次才拿到号，这个曲线非常地光滑，几个凸起点正好是调整中签率的门限，非常符合数学的美感。

有14201人，51次摇号没有一次成功。真正的幸运儿是这些人：在最近的这一期，以1/1000的概率第一次抽签就拿到了号，一共90人。

摇号程序是否公平？

作为程序员，被激发了昂扬的斗志，我们来验证一下摇号程序是否公平。

通过使用自己开发的 Hawk爬虫程序 （见备注），采集了从2011年到2016年51期每期的摇号池列表和随机种子。同时，我还下载了它的摇号程序，用于分析其摇号算法。程序使用C#编写，沙漠君破解它的源代码简直不要太容易。

为了能让不懂程序的读者也能理解，我用尽量简明的语言描述其摇号方法：假设有5人摇号，每个人都有唯一的ID，1-5，用户2,4有两倍中签率，用户3有3倍中签率，那么摇号池排列如下：

第一轮，把所有人都按次序排列，即上面的序号1-5；
第二轮，把所有中签率大于等于2倍的按次序排列，即上面的6-8
第三轮，把大于等于三倍的按次序排列，上面只有9

现要求从池中随机抽取三个序号。计算机能通过一个种子，可以生成一串看似随机的伪随机序列。在一般程序中，种子通常是当前运行的时间。因每次运行时间不同，所以结果也不一同。

而摇号程序有趣的地方就在这里， 种子是事先提供好的一串6位数字，一旦你知道它，那么你在摇号前就能预测哪些人被抽中。 每个人的中签倍率和ID都是确定的，因此分析6位的随机数种子是如何产生的，成了解决问题的关键。

6位随机种子是如何产生的？

研究首都之窗上用于公示随机数的2013年某期的视频。

公证人员事先从市民中选出12位代表人。主持人在鱼缸中随机抽出6个球，每个球都是一个市民代表人的号码。之后，6个代表人会依次敲击键盘，随机产生出0-9的随机数作为随机数种子。有趣的地方就在这里！！

主持人说，请每一位代表摇出号码，我一帧帧地分析了视频，从市民代表在键盘上的操作位置来猜测，点击的多半是是回车键，但代表按键盘都是背对摄影机的。你可以简单理解为，每按一次回车，电脑产生出一个新的0-9的数字，总计6个。

网站提供了随机产生摇号号码的程序，却没有提供随机产生六位种子的程序。 这个随机数种子本身，会不会事先保存，一定能保证随机吗？ 。看下面这张图：

如果你感兴趣的话，可以去参考本文的附录， 附录详细地给出了如何从申请编码入手，探索摇号系统的可能破绽 。但能不能探索出来就不知道了。

那我们该怎么办？

一种方法是购买新能源汽车，中签率约为12分之一。开着新能源，六环可能都出不去就没电了(>_

按照非官方说法，摇号政策可能在未来退出，并引入家庭单位摇号和征收拥堵费。但发出去的车牌不会回收，而一旦放开限购会导致疯狂购车，因为拥堵费太贵，大家塞满小区就是不出门：先把坑占上。这肯定也不是政府愿意看到的。至于之前传言的24次摇号没中者自动分配一个号码，我都不想告诉你24次以上没摇中的人有多少！传谣也要讲基本法啊。

通过以上分析，解决了沙漠君之前的疑惑，这套系统设计是符合规范的，抽签是随机和公平的。各位亲爱的读者，安心摇号，洗洗睡吧~/(ㄒoㄒ)。以后多绿色出行，为首都交通做出贡献。

备注和源代码

1.数据来源

来自bjhjyd.com，截至2016年6月摇号人数共计4394613人。但目前不确定学生是否能摇号。

对北京来说600万辆是一个红线，而北京作为全国示范，更愿意用行政而非经济手段来限制机动车数量，以表现公平。我国人口已经进入负增长，50年以后人口严重老龄化，我们老了之后开车可能会容易一些。

几年前可以网上查到每个中签人的名字，还有下面的新闻：

2. 假如系统真的有破绽呢？

（本段仅作为思想实验，开脑洞而已，请任何人不要对号入座。水表在门外，谢谢！）

通过控制种子，可以保证特定号码中签。但这样可能没法让所有要中签的都中签，策略是插入一些无效号。无效号能将特定的号码挤到对应必中的位置。

因为我们也无法判断参与抽签的每个号码都是有效的。而且你注意到了吗？2016年，每次摇号应该有15000个，但每次摇中的数量都差了一百多个，剩下的哪里去了？

通常计算机产生无效号，都是在短时间内集中产生的。如果能发现给每个用户分配编码的规则，就能反推用户的基本信息和注册时间，如果在统计上发现异常，就能找到这些无效号码，进而搜索随机种子。

沙漠君盯着这些长度都是13位的号码，统计了每一位上0-9字符出现的频率，发现它们都是等概率出现的。说明编码是按照某种随机算法生成的。什么工具的随机算法产生的字符长度是13位呢？我花了五六个小时破解这个逻辑：

我通过摇号程序签名，发现开发这套系统的公司叫taiji。我通过该公司网站的招聘信息和项目介绍，了解了验证软件是2014年1月6号下午开发开发，用了一个半月开发完，后台语言多半是C#。

据我猜测，每次会从后台随机产生不在数据库里的一个13位的随机数，作为新申请人的编码ID。 理论上说，如果其系统用的是C#默认的随机生成器，那么就能通过暴力搜索的方法，找出每个编码生成的时间，也就是号码注册的时间 ，当然，这种计算的复杂度非常高，靠一己之力是很难完成的。

但我相信，以上这些推测都是瞎扯，这套系统一定是公平而完美的。

3.Hawk数据抓取工具

这是笔者耗时四年开发的数据抓取软件，目前已经开源，详情可参考历史文章《如何从互联网抓取海量数据》。

4.生成真实摇号数据源代码

   /// 
        /// 代表一个抽签序号
        /// 
        public class Slot
        {
            public int Index { get; set; }
            public string ID { get; set; }
             
        }

        public class Period
        {
            public string Date { get; set; }
            public int Total { get; set; }
            public int Quota { get; set; }
            public string ID { get; set; }
            public string MD5 { get; set; }
            public int Seed { get; set; }
        }
        static void Main(string[] args)
        {
            var root = @"北京摇号\";
            var table= File.ReadAllLines(root + "摇号列表.txt")
           .Skip(1).Select(d=>d.Split('\t')).Select(d=>new Period()
              {ID=d[0],MD5=d[1],Seed=int.Parse(d[2])}).ToList();

            foreach (var period in table)
            {
                Console.WriteLine(period.ID);
               List slots=new List();
                var folder = $"{root}摇号文件\\PersonCommonNumberPeriod{period.ID}";
                foreach (var file in Directory.GetFiles(folder)) 
                {
                    if (file.Contains("_"))
                        slots.AddRange(
                            File.ReadAllLines(file)
                                .Select(d => d.Split(','))
                                .Select(d => new Slot {Index = int.Parse(d[0]), ID = d[1]}));
                    else if(file.Contains("csv"))
                    {
                       var datas= File.ReadAllLines(file);
                        period.Date = datas[3];
                        period.Total = int.Parse(datas[5]);
                        period.Quota = int.Parse(datas[6]);
                    }

                }   
                Random random=new Random(period.Seed);
                SortedDictionary selecteddict=new SortedDictionary(); 
                while (selecteddict.Countd.Key+'\t'+d.Value));
            }
            Console.WriteLine("fuck the world");
        }

文http://www.cnblogs.com/buptzym/p/5705752.html#3477354

新浪微博名称：