专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【Defisheye:快速修正鱼眼镜头畸变, ... ·  昨天  
新智元  ·  Transformer推理天花板被谷歌打破? ... ·  3 天前  
宝玉xp  ·  推理规模扩展定律(inference ... ·  1 周前  
宝玉xp  ·  //@时蝇喜箭:Repost-2024091 ... ·  1 周前  
歸藏的AI工具箱  ·  必看:Open AI AMA ... ·  1 周前  
歸藏的AI工具箱  ·  必看:Open AI AMA ... ·  1 周前  
51好读  ›  专栏  ›  机器学习研究会

【学习】用Spark和DBSCAN对地理定位数据进行聚类

机器学习研究会  · 公众号  · AI  · 2017-01-26 23:17

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自: OReillyData

机器学习,特别是聚类算法,可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能,比如基于地理位置的推荐系统,先进的安全系统,或更通常来说,提供更个性化的用户体验。

在这篇文章中,我会确定对每个人来说特定的地理活动区域,讨论如何从大量的定位事件中(比如在餐厅或咖啡馆的签到)获取用户的活动区域来构建基于位置的服务。举例来说,这种系统可以识别一个用户经常外出吃晚饭的区域。


使用DBSCAN聚类算法

首先,我们需要选择一种适用于定位数据的聚类算法,可以基于提供的数据点的局部密度确定用户的活动区域。DBSCAN算法是一个不错的选择,因为它自下而上地选择一个点并在一个给定的距离寻找更多的点。然后通过重复这个过程扩展寻找新的点来扩展类簇,直到无法再扩大为止。


原文链接:

https://mp.weixin.qq.com/s?__biz=MzIyODE5MTcxNw==&mid=2650372439&idx=1&sn=5fe3a9378e3d2081060976cdfbf2b889&chksm=f05865ddc72feccbcb7ec515ae39c686c2d1a5b6d934788af6dbf78853090aad24b5c0d2952c&scene=0&pass_ticket=e6vedguHfRpEncrYO7H5zRWTlZPTNH%2FB0WRPND0sOVE%3D#rd

“完整内容”请点击【阅读原文】
↓↓↓