专栏名称: 大数据分析和人工智能
以传播大数据、解读行业趋势、数据化运营为核心的新媒体平台,已有150多万行业人士关注,荣获2013年新浪微博百强自媒体、2016年中国十大大数据领域影响力平台,关注我就是关注数据
目录
相关文章推荐
软件定义世界(SDX)  ·  10%的企业正开始数字化转型 ·  2 天前  
人工智能与大数据技术  ·  雷军不忍了!发文澄清骂人视频!抖音疯传相关视 ... ·  1 月前  
数据派THU  ·  数据派志愿者招募 | 寻找最志同道合的你! ·  5 天前  
数据派THU  ·  一文解读:时序基础模型的缩放定律 ·  1 周前  
51好读  ›  专栏  ›  大数据分析和人工智能

手把手教你用数据分析帮~~~女神学姐选婚房

大数据分析和人工智能  · 公众号  · 大数据  · 2017-05-02 16:59

正文

摘自:微信公号“沙漠之鹰”    已获作者授权

下午,有一位学姐在微信上找我,“看到你微信公共号发的分析房价的文章了,挺有意思的,能不能帮我在北京选一套婚房啊?”学姐求我,焉有不应!于是我们约了晚上在北邮校园的零壹咖啡见面。

学姐一身漂亮的装束,香水扑鼻,是实验室比我大两级的女神,追求者众,据说只找BAT的高富帅。毕业三年,就准备买婚房了。

我开始询问她对婚房具体需求,同时为了保证准确,我重新抓取今天所有的二手房数据。

学姐说,要找面积在70平以上,130平以下的房子。现在两家人拿出了180万的首付。我帮她算了一下,她男友的工资一个月两万,按照贷款三十年,每个月还款不超过收入的51%计算,总共能贷大概140万。因此,预算在320万左右。15分钟后数据采完了。

所有二手房总共10W套

我按照学姐的要求,选择了70到130平,价格在350万以下,260万以上的所有房子。

按面积和价格筛选:5892套

她突然又说,不喜欢太老的房子。

房子确实不能太老,否则水暖电都会老化,也很难出手。于是,我用正则表达式抽取房子的年份。

1997年以后待出售的有906套

“让我再想想,哦,上班最好不要太远,所以位置不要太偏。“

我心想,恩,要离老公近一点。我打开了地图,告诉她,你来选一个区域范围吧!

学姐用纤纤手指,在屏幕上画了一个框,我仔细看了一下,大概是这个样子:

这个区域,西至玉泉路,东到东五环,南到长安街,北到立水桥。

我觉得很有意思,问学姐,长安街以南有好多单价较低的东西城区的房子,为什么不考虑呢?

她说,“男朋友在北边,这样上班方便。再说,宁要北边一张床,不要南边一间房,所以当然要买长安街以北的房子啦!”

她选的其实还挺有道理,北边过了立水桥,就是昌平的天通苑了,我的听过天通苑国出入境极其困难的传言,没有二十分钟进不去。她男朋友怎么舍得让她早高峰在天通苑地铁站挤地铁呢,那个情景,大概是下面这个样子:

我分析了一下坐标,这个矩形范围大约在东经116.25到116.53度,北纬39.91到40.059度之间。

位置筛选表达式跑下来,剩804套

按照不同区域进行划分,就能看到下面的柱状图:

学姐瞄了一眼这张图,傲娇地说,我只想买东城西城,朝阳海淀的房子。

我感到很吃惊,1997年后,居然还有单价在5W以内的西城区的房子?西城有10套,东城有3套。如果能买到西城的房子,学姐真是赚大了!于是我赶紧把那些西城的房子出来:

单价才三万八!这怎么可能,随便找了两个仔细一看,原来一个是地下室,另外一个是商住两用的房子。

学姐问我,什么是商住两用?我告诉她,所谓商住两用就是商水商电,小产权,不能落户口。

学姐说,坚决不要地下室,而且要能落户口。

这个也难不倒我,中介当然不会傻到在标题上标注地下室和商住两用。但通常商住两用,会标明“不限购”,各种“大厦”,“中心”,“投资”的关键字,都是无法落户的,用关键字筛掉它们!

学姐眉头一皱,“忘了告诉你了,我要两室或者三室的房子,一定要带客厅”。我想了几秒钟,看来还得正则表达式出马:

housetype = re.compile(u'(2|3)室(1|2)厅');

这样,西城东城的房子彻底干掉了。我告诉学姐,你现在只能选择朝阳和海淀的房子了。

海淀朝阳,不要小产权,商住两用和地下室,两室/三室带客厅:572套

接下来按照区域选房子。我们按照区域排序分组并求数量,得到了下面这张表:

学姐往我这边凑了凑身子,才看清图表上的那些小字,”这么多地方,好多听都没听过,怎么选?“

我把数据导入到可视化工具里绘制出所有可选的位置。集中在北苑,清河,望京和十里堡附近。

学姐想了想说,“男朋友所在的公司在西边,我在东边,所以北苑应该是个不错的选择”

北苑正好是两个人的上班的中点,酒仙桥地铁并不方便,所以暂时先不考虑。

选择北苑,106套

我们将地图缩放到北苑,每个小区有多少套合适的房子一目了然。

”这个不错啊,那每个小区的价格和年份呢?我想买尽量新的房子。”

我很快导出了下面的表格,顺便把2014到2015年每个小区的涨价/跌价数量也显示出来,并按数量排序:

(笔者后来才知道, 跌价的两个小区,旭辉奥都基本都是商住两用,美立方小区很新,但基本都不满两年)

她对比了一下每个小区的价格,“这价格差别还是挺大的,从2.7W到3.9W都有。为什么呢?”

我说,这可能和房子年份有关,我猜越新的小区,房子肯定会越贵(附录证明了我的猜测)。买较新的房子也有缺点,就是可能卖家房本不足两年或五年,因此税费会较高。

学姐吃惊的说,原来成交价不是网上的挂牌价啊!

我偷笑了一下,心想,“看来学姐是完全不懂啊”。中介当然要收中介费的啊,某著名中介一般是成交价的2.7%。我拿出之前整理的各类费用的表格,列在下面:

我接着说道,这是普通商品房的税率,如果是经济适用房,需要交纳10%的综合地价款,如果是公房,还需要交纳土地出让金…

学姐打断我,“这个太复杂了!”

这些政策足够写好几张纸,我自己也不是很清楚。

这时,学姐拿出手机,一脸兴奋的说,啊,“我男朋友一会开车来接我,咱们尽量快一点结束”。

心塞啊,为了简单先不管公房和经适房。根据中介给出的隐含信息,结合附录中给的方法,重新计算最终成交价。

根据手续费占原价的百分比,可以看到不同百分比二手房的数量:

学姐说,希望所有的最终费用不超过330万。

最终费用不超过330万,总共95套

“我想要性价比较高的房子!”

我回答,这看你怎么定义性价比了。基本上,一分价钱一分货,能从下面几个角度来考虑:

· 户型:仅次于位置的最重要因素

· 采光:即使做不到明厨明卫,也最少做到明室明厅。

· 学区:旁边是否有不算太差的幼儿园和小学

· 升值空间:房子未来是否好出手

学姐问,90多套房子,这个让我怎么选啊,能让机器帮我选择一下吗?

这可让我犯了难,户型图都可以查到,但让程序去做自动识别,并计算采光,这实在是太难了,只能让学姐自己来选了。

采光也没法自动识别,但能通过中介给出的评论中提取关键词,绘制词图,提高筛房效率。

学区和升值空间相对比较容易,把北苑所有的学校,幼儿园,以及未来地铁的建设情况绘制出来,即可作为直接的参考。

检索2020年北苑位置的地铁

即使在2020年,北苑的地铁线路依旧不够发达,只增加了勇士营一站。勇士营站的位置,靠近来春园和北京青年城,可以认为未来有较好的升值空间。

绘制北苑所有的幼儿园

以学姐的情况,估计以后还会换学区房,我们姑且将附近的幼儿园绘制出来:

(时间所限,笔者没有标注每个幼儿园的情况,之后有专门的学区房专题进行分析)

提取中介点评关键字,做成词云,方便观察

由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词。

按综合评价排序表格

为了方便学姐快速地从90套房子中选取自己中意的房子,我生成了这些房子的词图,坐标图和房型图。

另一方面,考虑对这些房源进行排序,但如何评价房子的综合好坏呢?

一般来说,看房的人越多越火,但不排除挂出来很久都没人看上,因此用每月平均看房次数比较合适。另外,更好的房子会有更多的中介小哥对其进行评价,房评热度较高。因此,使用下面的公式来计算房子的评价:

综合评价=(总看房人数/已挂出时间)∗0.2+经纪人评论数量∗0.8

(获取挂出时间的方法请参考附录,公式的权重参数是我瞎编的)

我花了五分钟生成了一个word文档,能非常方便地进行对比,选择恐惧症福音,就像下面这个样子:

我接着说,接下来就靠你和你男朋友对户型进行筛选,选出20-30套觉得不错的房子,综合地铁商场幼儿园地图,制定看房计划,联系中介,最后确定最合适的房子,这样会比较有效率。

学姐看完以后,非常开心,说道,太棒了太棒了,这样我选房就一目了然,你把你生成的这份文档拷到我U盘上吧!

这时,学姐掏出了一个非常精致的爱心优盘,说道“不要随便乱看哦,这里面有我和我男票的爱之皂片”。

心塞啊。。。我把优盘插在电脑上准备拷贝,顺便问学姐,你难道不考虑酒仙桥,清河的房子吗?好像中关村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。

学姐表情一变,啊啊啊啊,是啊,我到底该怎么选啊,你知道我有选择恐惧症。。。你再帮我选一下吧。。。

我:。。。。。。

这时,外面有汽车鸣了两下笛,学姐的电话也响了,应该是她的BAT男友来了。

她一看手机,啊,我男朋友来接我了,学弟今天谢谢你!于是拿起包包转身急匆匆地就出门了。。。

哎,准备回家吧。正要收拾电脑,

“学姐,你的优盘!”

关注我就是关注数据的一切!长按下图扫一扫....