小编无意中发现了这篇文章,忍不住感慨,竟然可以一(hu)本(shuo)正(ba)经(dao)得如此图文并茂,这位男同学,没白瞎了四年人大时光。还望接下来的三年里,这位作者同学继续好好学习发奋图强,在学术的山峰上努力攀登,力争三年后完成《数据可视化之我在人大单身七年的原因》
一、起因
在家被长辈问的最多的问题就是“怎么还没找女朋友啊?”,我一般就从“找了找不到啊”,“作业太多没时间找”,“班上(学校)女生少啊”中随机选一个回答。被问多了之后,并没有感到烦,反倒是激起了我对这个问题认真的思考和探索,于是便有了此文来对此做一个初步的分析和回答。当然,考虑到我还要继续在人大读三年,这篇文章还为我将来写《数据可视化之我在人大单身七年的原因》打下坚实的基础。
二、方法论:为何选择数据可视化?
(略)
三、 不患贫而患不均
大一第一个学期的时候,有高中同学寄明信片给我,主要内容如下:
讲真,我当时填志愿的时候真的是只知道人大经济学科好,并不知道人大女生多这个情况。其实我也没怎么觉得在一所女生比男生多的学校读书有什么特别的感受,只是非常不理解那些在理工科学校读书的高中好友为什么在路上、课堂偶遇了个女生就要发条朋友圈嗷嗷叫上半天?也不知道为什么他们来我校参观的时候会如同老鼠掉进米缸那般激动得手舞足蹈,高中男女比例2:1的时候也没见他们这样啊,后来我去了他们学校之后才大概知道极端的环境可能的确会改变一个人吧。
人大女生多是事实大家都知道,而且都是美貌与智慧并重,但凭女生多这一点就认定一定能找到女朋友就错了。不信我们看看人大女生分布的热力图:
原图见此👆
这是利用我在人大四年生活目测的数据在百度地图上画出来的,红色越深,代表女生分布密度越高。乍一看,感觉一片红红火火,形势喜人。但是你知道我住哪里吗!!????
大家肯定注意到了图的左上部分那个位于深红区域中心的白色方块了吧,那是知行区唯一的男生宿舍。放心(* ̄︶ ̄),我当然不可能住那里。
你有没有看到到西1门?没看到?没关系仔细找找。找不到?好吧, 我提示一下,它就在地图最左边偏下的地方,在人大校园的最最最最西南角,自古
女生
人迹罕至。
美国著名革命家马丁·路德·金说过:
One hundred years later, the PinYuan1er lives on a lonely island of poverty in the midst of a vast ocean of material prosperity.One hundred years later, the PinYuan1er is still languished in the corners of RUC society......
一百年后的今天,品园一楼的人民仍生活在物质充裕的海洋中一个穷困的孤岛上,100年后的今天,品园一楼的人民仍然蜷缩在人大社会的角落里……
以后大家就请大家不要再说人大这么多女生你还找不到女朋友这种话了,谢谢理解。
我觉得这是个值得深入研究的问题,我想起了我导指派给我的尚在构思中(也就是还一字没写)的毕业论文题目《全球经济失衡与美元流动》,作为一个本科学国际经济与贸易、硕博读世界经济专业的学生来说,我感觉这个问题太大了,不妨先从细节切入,比如说可以先写《人大男女比例失调与女生分布——基于我的胡说八道》
四、我到底有多宅?
有人肯定会说,你们寝室没有女生
这特么不是废话吗
,但你又不是没有脚,不会去有女生的地方?
不会
其实我大三之前还算是一个认真的学生,按时起床上课写作业复习考试。自从保了研,我就过上了腐朽堕落的退休生活,典型表现为一觉睡到
七八九
十点。这样很不好(但是真的很舒服),师弟师妹不要学我,然后又没什么课了,于是就一直
躺
待在寝室了。
口说无凭,我决定用去年12月份数据来说话,我的手机上的计步软件会记录我每个时间段的行走步数,一张典型的全天宅寝室的步数分布图如下:
可以看到,基本就早中晚三个时间点出去吃了一下饭(可以晚起,但是早饭不能不吃,饿得慌)。
实习时典型的步数分布如下:
步数分布的特点是早晚步数多(上下班需要走路),而其余时间步数很少。
而在外浪的步数分布图是这样的:
再结合我的回忆,课表等等,我绘制了我去年十二月每天各项活动所花时间的饼图,如下:
原图见此
可以看出,除了周三周五这两天需要实习外,我在寝室的时间基本都在20小时左右。
噫吁嚱,注孤身
五、明修栈道,暗度陈仓?
我狗儿子说过,有的宅男在寝室见过的女生不比他人少,虽然我不太懂这句话的原因,但我猜他是指在用微信撩妹吧,于是我就分析了一下我的微信好友和聊天情况,我把认识的303个微信好友进行了分类,结果如下:
原图见此
注:
看到这幅图,发现几个我没有意识到的问题:
可以看出,我的好友列表非常正常,即便这样,我爸妈还是逼问我有没有背着他们找女朋友,在这种情况下,我只好使出绝招了:
公布我所有的聊天记录
Dogson听到这个消息急忙赶来制止我
Dogson:你赶紧把聊天记录里我的靓照删掉。
我:好,你先把刀放下。Dogson你是指哪张?这一张?
我:咦,照片怎么过不了扫黄打黑办的审核?
Dogson:哦,通不过审核啊,那就没事了,刀还给你。
鉴于出现了这种情况,我决定换种思路,大家分析聊天记录都是集中于文字,用自然语言处理(Natural Language Process)的方法,余以为没必要那么麻烦,微信聊天中最重要,最能体现情感的聊天材料是什么?不就是红包吗?试想,一句多喝热水和一个520的红包孰轻孰重?线上尬聊和线下吃喝(由转账红包反映)哪个更能增进感情?
于是我统计了2017年我的红包收发情况(不包括群发)
红包金额排第一二的自然是我的金主妈妈和金主爸爸,其次是室友张,室友孙和Dogson,这反映了我们平时经常在一起吃喝**。总而言之, 前八名里面除了我老妈和某位亲戚外,就没有异性。
经鉴定,是真宅。
六、内忧外患
我人的姑娘内慧外秀是全北京城都知道的(引得我都好想把横亘在我和姑娘之间的那个“人”去掉),自然少不了外面高校的觊觎,品知人大尚存的时候,经常能看到海淀区的那一片理工科高校男生来此发交友贴。而当我搜集了每个高校的一届本科生人数和男女比例之后,更是忧心忡忡,大家看图:
哦,不好意思传错了,是这张:
原图见此
注
:在南丁格尔图中,男女人数之比映射为扇形的半径之比
情况不言而喻,一目了然
最幸福的应该是北邮的男生了,周围有三所女生远多于男生的高校。
大家都知道,现在写论文,没个计量模型都不好意思发出去,我也免不了俗,决定弄个模型来量化一下这种外患。
每一个优美的模型都会有几个简单而明了的假设,为了让我的模型看起来像模型,我也要有几个假设,如下:
-
Assumption 1:所有学生都有谈恋爱的意愿。分析就业市场时我们对劳动力的定义中有一点就是没有劳动意愿的人没有工作是不能称失业的,同理,没有谈恋爱意愿的人理论上来说也不应该纳入分析,为了分析简便,我们做此假定。
-
Assumption 2:所有的学生都首先偏好本校的异性,且视外校异性是同质的,不会对某个学校的异性有更大的偏好。
-
Assumption 3:无外部力量介入恋爱市场,如父母干预等。
我觉得比起很多经济学模型中的假设来说,这三条假定非常的reasonable。
我决定采用一个类似于重力模型(Gravity Model)的模型来研究这个问题。
学校 i 的质量 m
i
定义为:
m
i
=male
i
-female
i
学校 i 和学校 j 之间的距离 r
ij
定义为:
r
ij
=两校之间公交所花时间
距离为什么要用时间而不是物理距离来衡量?我们这种单身狗就不用操异地恋的心了。
最后,外患程度 d
ij
就等于:
d
ij
=m
i
*m
j
/ r
ij
为什么是这个形式呢?我们比照着万有引力模型来理解,引力是与两者质量之积成正比,与距离成反比。在这里,分子不可能为两校总人数之积,因为对于
绝大部分
男生(女生)来说,男生(女生)是不会产生吸引力的。同时根据假定2,一个学校的男生(女生),只有当超过本校女生(男生)数量时,才会对外校女生(男生)产生吸引力。
为了减轻我画图时的代码量,我只选取人大,北大,北理,北航,清华,中财,政法七所学校进行计算,结果如下:
原图见此
注
:红色代表女生有盈余,深蓝色代表男生有盈余,圆圈大小和盈余人数成正比,绿色线代表互相吸引,橙色代表排斥,线的粗细映射吸引力或排斥力的大小。
这幅图里最引人注目的就是北航了,贵校男生真多,是所有“女性学校”最大的“外患”,同时差不多是所有“男性学校”最大的“排斥”对象,这是要上天的节奏啊。
还记得有次北航的大师兄邀我去他们学校,碰到下课,成千的男生从教学楼鱼贯而出,我已经很久没见过这种宏大的场面了。
对于人大而言,外患程度的大小是北航>北理>清华>北大。
感觉压力好大。
七、学习到底忙不忙?
我回答怎么还没找女朋友的一个借口是人大学业重,这可不是乱说,是有历史典故的:
当然,时代一直在变,而且具体到学科、个人,学业的繁重也是不一样的,还是得具体分析。于是我找出了我七个学期所修的学分和成绩:
有同学马上指出问题来:你这个图怎么GPA的那根轴没有标刻度啊?
我觉得你这个问题提得很好,来来来,你站起来我们出去
练练
讨论讨论。
站一旁的狗儿子也出来帮我说话:“这位同学你难道不知道问人成绩就如同问男生的长……”,打住打住,我这是在写学术论文,狗儿子你别开车。
可以看出,第二三四个学期的学习任务还是不少的,成绩也都在平均线左右,这个时候用学业重来作为搪塞的理由还是说得过去的,但是第六七个学期,学分只修了一点点,成绩又那么低,可见学习压力和谈恋爱没什么关系。