专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
楼主说楼市  ·  曾经以为在做梦,现在真的来了 ·  19 小时前  
楼主说楼市  ·  曾经以为在做梦,现在真的来了 ·  19 小时前  
李楠或kkk  ·  俄美会谈,俄国给了美国什么??? ... ·  昨天  
每天学点HR  ·  刚刚!马斯克,重大宣布! ·  2 天前  
每天学点HR  ·  刚刚!马斯克,重大宣布! ·  2 天前  
OSC开源社区  ·  李彦宏:DeepSeek让我们明白要将最优秀 ... ·  4 天前  
51好读  ›  专栏  ›  待字闺中

那时候,我们在做实时新闻聚合和推荐

待字闺中  · 公众号  · 程序员 科技自媒体  · 2016-09-25 07:14

正文

今天,看到了Techmeme,一个深度阅读的实时新闻聚合和推荐平台,想起了2005-2006年的时候,好几个硅谷的项目都在做新闻的聚合和推荐,利用博客的引用和相互的引用,采用类似PageRank的算法来发现和排名头条新闻。我的项目,Megite,也是其中一个。可是,当时除了Techmeme,其他的人都没有坚持下来。


实时新闻聚合和推荐平台,有几个技术难点需要解决,才能达到好的质量和效果。今天的今日头条,赶上了移动互联网和智能手机的爆发,在这些方面就做得不错。


第一,需要实时的新闻发现和采集系统。一般是指定一些新闻或自媒体网站,爬虫会监控这些网站的新闻主页的变化,一旦发现有新的信息,马上启动抓取。爬虫会根据网站的历史更新频率,自动的学习出最优的监控周期,不至于浪费资源,同时提高命中率。


第二,新闻信息的抽取。需要抽取新闻的主标题,副标题,发表时间,作者,图片,视频,和主体内容。还需要抽取或是自动产生摘要,关键词。最后,还需要对新闻进行大分类,小分类,尽可能打更多的标签。这时,还可以进行一些情感分析。


第三,新闻聚类。将讲同一件事的新闻聚合成一个类,每个类给出一个最好的代表,其它的作为广度和深度阅读的扩展。


第四,发现一段时间内的头条和所有新闻排序。当初我们是根据博客,新闻之间的互相引用,再根据第三条抽出的种子,然后采用类似于PageRank的算法,给一段时间内的所有新闻计算重要性,然后排序。


第五,个性化推荐。收集用户阅读时的implicit和explicit反馈,比如,用户是否点击标题进入,阅读时间长短,是否滑屏,是否分享,是否收藏,等等,自动学习用户的兴趣,然后使用content based recommendation,和collabarative filtering,基于标签和知识图谱的推荐,来给用户推荐个性化的内容。


第六,内容管理平台。对于算法有问题的新闻,人工可以编辑。对于违法的,涉黄的,不宜的新闻,能人工干预屏蔽。对于突发新闻,没有足够数据支持算法排序的,人工提权。等等。


解决或是部分解决了这些问题,我们当初的Megite做得还不错,代码和系统现在依然可以使用,只要部署在云上。 看看当时的一些报道。


当时,很热闹的关于新闻聚合和推荐的市场,很多的竞争者,做法各异。




著名的Techcrunch的创始人Michael Arrington写的一篇关于Megite的文章。



著名的Mashable的创始人Pete Cashmore写的一篇文章。



著名博客readwrite的创始人 Richard Macmanus写到。









请到「今天看啥」查看全文