专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
中金策略  ·  中金 | 资金流向:哪些外资是流入主力? ·  2 天前  
中金策略  ·  中金 | 资金流向:哪些外资是流入主力? ·  2 天前  
合规社  ·  工信部通报21款APP(SDK)侵害用户权益 ·  3 天前  
合规社  ·  工信部通报21款APP(SDK)侵害用户权益 ·  3 天前  
51好读  ›  专栏  ›  待字闺中

那时候,我们在做实时新闻聚合和推荐

待字闺中  · 公众号  · 程序员 科技自媒体  · 2016-09-25 07:14

正文

今天,看到了Techmeme,一个深度阅读的实时新闻聚合和推荐平台,想起了2005-2006年的时候,好几个硅谷的项目都在做新闻的聚合和推荐,利用博客的引用和相互的引用,采用类似PageRank的算法来发现和排名头条新闻。我的项目,Megite,也是其中一个。可是,当时除了Techmeme,其他的人都没有坚持下来。


实时新闻聚合和推荐平台,有几个技术难点需要解决,才能达到好的质量和效果。今天的今日头条,赶上了移动互联网和智能手机的爆发,在这些方面就做得不错。


第一,需要实时的新闻发现和采集系统。一般是指定一些新闻或自媒体网站,爬虫会监控这些网站的新闻主页的变化,一旦发现有新的信息,马上启动抓取。爬虫会根据网站的历史更新频率,自动的学习出最优的监控周期,不至于浪费资源,同时提高命中率。


第二,新闻信息的抽取。需要抽取新闻的主标题,副标题,发表时间,作者,图片,视频,和主体内容。还需要抽取或是自动产生摘要,关键词。最后,还需要对新闻进行大分类,小分类,尽可能打更多的标签。这时,还可以进行一些情感分析。


第三,新闻聚类。将讲同一件事的新闻聚合成一个类,每个类给出一个最好的代表,其它的作为广度和深度阅读的扩展。


第四,发现一段时间内的头条和所有新闻排序。当初我们是根据博客,新闻之间的互相引用,再根据第三条抽出的种子,然后采用类似于PageRank的算法,给一段时间内的所有新闻计算重要性,然后排序。


第五,个性化推荐。收集用户阅读时的implicit和explicit反馈,比如,用户是否点击标题进入,阅读时间长短,是否滑屏,是否分享,是否收藏,等等,自动学习用户的兴趣,然后使用content based recommendation,和collabarative filtering,基于标签和知识图谱的推荐,来给用户推荐个性化的内容。


第六,内容管理平台。对于算法有问题的新闻,人工可以编辑。对于违法的,涉黄的,不宜的新闻,能人工干预屏蔽。对于突发新闻,没有足够数据支持算法排序的,人工提权。等等。


解决或是部分解决了这些问题,我们当初的Megite做得还不错,代码和系统现在依然可以使用,只要部署在云上。看看当时的一些报道。


当时,很热闹的关于新闻聚合和推荐的市场,很多的竞争者,做法各异。




著名的Techcrunch的创始人Michael Arrington写的一篇关于Megite的文章。



著名的Mashable的创始人Pete Cashmore写的一篇文章。



著名博客readwrite的创始人Richard Macmanus写到。



Michael写的另一篇,是的,那时Megite也能发现和排序视频。




Cashmore 写的另一篇,关于Megite的视频聚合和排序。



当初,Megite和Mashable还合作开发了一个项目Mashtracker。




其实,当初还有好几个著名的博客报道了Megite,一些博客也慢慢从读者的视野消失了。


现在想想,当初没有坚持下来,也没有随着移动和智能手机的流行而及时转型,还是蛮遗憾的。