点击上方蓝色字体关注。
您还可以搜索公众号“D1net”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO,企业协作,网络数通,信息安全,企业移动应用,系统集成,服务器,存储,呼叫中心,视频会议,视频监控等)的子公众号。
=======
拉里·佩奇和塞吉·布林于1998年创建了搜索引擎巨头谷歌公司,他们是大数据的先驱,甚至是一件事情。谷歌的算法多年来发生了巨大变化,但大数据一直发挥着关键作用。如今,谷歌公司正在使用大数据来应对日益增长的网络垃圾邮件的威胁。
谷歌大数据应用的演变
在20世纪末期,大多数搜索引擎通过关键字密度和付费支持来确定其排名。搜索引擎结果的质量很差。Larry Page和Sergey Brin在1998年发明了pagerank算法,为用户提供了更高质量的搜索结果。对于搜索引擎广告优化,有一篇非常精辟的文章阐述了大数据在谷歌搜索算法中的作用。虽然其发布已经有几年的时间,但其结果至今仍然很适用。
新的pagerank算法评估了来自其他网站的超级链接,以确定客户排名。新的算法在互联网上抓取可索引页面,这需要当时最先进的大数据工具。
新模式是完全依赖于关键字密度的搜索引擎的巨大改进,这有助于谷歌成为世界上最受欢迎的搜索引擎。但是,它创建了一个新的问题- 垃圾链接。
被称为“黑帽SEO”的特定群体的垃圾邮件发送者抓住了新的变化。使用以前的搜索引擎,他们提高排名的策略是将他们的网页填充到他们想要定位的关键字。当他们开始尝试在谷歌中排名时,他们将通过互联网从许多不同的网页生成垃圾链接。他们使用基于Hadoop的工具来提取数亿个网站上的数据,并使用它们几乎实时地分配网站排名。
谷歌公司网站垃圾邮件小组负责人Matt Cutts已经承诺会找到新的打击垃圾邮件的方法。他表示,谷歌公司会惩罚那些因销售链接而违反其他内容指南的网站。他们还更新了他们的算法,以识别具有很多非自然链接结构的网站。这些网站经常受到惩罚,以阻止垃圾邮件。
Cutts概述了他们用来打击垃圾邮件的算法。
“谷歌公司对其工程师在收到新的垃圾邮件数据时,能够快速推出应对新的垃圾邮件数据方法表示赞赏,这种方法可以在几分钟内识别创建新的垃圾邮件。这说明谷歌做了什么?想想最近对链接网络的打击。谷歌公司可以快速发现并识别垃圾邮件,至于Penguin的更新,他们可以在全球范围内迅速推出。谷歌公司实施下一个打击垃圾邮件的方法就说明了一切。”
大多数大数据系统需要服务器从许多来源中吸收数据。谷歌也不例外。他们从自己的搜索引擎和用户报告中聚合网络垃圾数据。Matt Cutts曾经表示,很多关于网络垃圾邮件的数据来自用户的报告,他们呼吁更多的人提交。
“我们有几种方法来使用这些数据。我们当前的算法检测到上面的付费链接很好,但是这些外部报告是一个很好的方法来测量(然后改进)现有的算法在独立数据上的精确度和召回率。接下来,这些报告有助于为未来的算法建立数据集。因此,这些数据有助于我们建立新一代的算法来提高质量。它还允许我们研究新的工具和技术,以改进我们如何检测付费链接。最后,我们可以调查,并对我们收到的许多报告采取直接行动。”Cutts写道。
搜索引擎优化(SEO)经销商表示,这正在改变搜索引擎优化的未来。企业必须明白,谷歌的算法游戏会更加困难,这意味着他们必须寻找白帽优化策略。
新的大数据解决方案将帮助谷歌消除更多的网络垃圾邮件
针对垃圾邮件链接是Matt Cutts及其同事在谷歌公司面临的最大挑战之一。尽管网络垃圾邮件越来越普遍,但近年来他们已经取得了重大进展,因为他们使用了一些世界上最尖端的大数据工具。
由于新的基于Hadoop的算法可以帮助他们识别网络垃圾邮件并相应地对网站进行惩罚,因此这种实施过程将更容易。HERO译
(来源:企业网D1Net)
企业网D1net已推出企业应用商店(www.enappstore.com),面向企业级软件,SaaS等提供商,提供陈列,点评功能,不参与交易和交付。现可免费入驻,入驻后,可获得在企业网D1net 相应公众号推荐的机会。欢迎入驻。
扫描下方“二维码”即可注册,注册后读者可以点评,厂商可以免费入驻。
如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿,投稿邮箱:[email protected]