专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
科技阿水  ·  这款插件真特么的猛啊!!! ·  昨天  
科技阿水  ·  这款插件真特么的猛啊!!! ·  昨天  
牲产队  ·  这把绝对高端局,只有中国人才懂 ·  昨天  
牲产队  ·  这把绝对高端局,只有中国人才懂 ·  昨天  
李楠或kkk  ·  #新款Macmini与iMac不支持USB- ... ·  5 天前  
电脑报  ·  女玩家为“乙游”疯狂:爱他就得多花钱 ·  6 天前  
电脑报  ·  女玩家为“乙游”疯狂:爱他就得多花钱 ·  6 天前  
地球资源与地质活动  ·  清华大学:郭子熙-深度学习在油气产量预测中的 ... ·  1 周前  
地球资源与地质活动  ·  清华大学:郭子熙-深度学习在油气产量预测中的 ... ·  1 周前  
51好读  ›  专栏  ›  待字闺中

谈谈百度原创内容识别算法的缺陷

待字闺中  · 公众号  · 程序员 科技自媒体  · 2016-08-29 12:46

正文

    近日一个做网站的朋友向我吐槽了百度排名算法的致命缺陷。 他的网站都是原创内容请了好几个编辑来创作内容并发布。网站无论从用户体验还是从原创内容角度看都不差但流量一直很小。上个月他在原创内容中加了版权信息找到了网站流量起不来的根本原因就是网站内容几乎全部被转载转载的网站的排名全部在他的网站前面。搜索内容标题他的网站不见缩影转载网站却排在第一页。


       这些转载网站没有高质量外链内容全部采集。版面不美观非法广告很多。谈不上用户体验有多好。但搜索标题时仍然是它在的前面朋友的原创网站在后面。


  我们对这一问题进行了讨论


  (1)所谓的品牌站百度都是把它们当干儿子养着。什么原创星火计划他们自动可以加入排名他们占前面的位置。实在这些站也没内容了才会排一些小站。这样造成的结果并不是百度希望的原创内容和好内容越来越多、事实恰恰相反。大家想想假如复制别人的内容一样可以获得大量的流量的话还会有品牌站去做内容吗?花一分的功夫赚十块钱与花百分的功夫赚十块钱相信大部份人都是选择前者。而事实也证明了这样的情况。很多大站不再自创内容而是采用所谓的用户产生内容或是转载。而且用户产生的内容会是原创的吗?事实上也都是大量的复制。


  品牌站产生大量的重复内容而百度还把它们当宝贝。而另一方面很多踏实做内容的小站并没有获得流量。从而越来越对原创内容不感兴趣。 长此以住百度赖以生存的内容特别是精品内容越来越少。目前看精品内容慢慢都转移到微信公众号上了。


  可能有的人会说百度现在推出了原创星火计划原创内容是受到鼓励的。但据朋友了解一般小站长即使是原创内容也没有机会加入这个星火计划的能加入的也是大站。比如小网站上的原创文章发布在16收录也是16大网站转载可能是在19号以后。内容完全相同。但百度仍然是把大网站排在前面。这里面有星火计划的影子吗?


  (2)百度原创算法的技术水平值得怀疑。百度对原创内容的识别技术太差小网站通过采集复制内容获得的流量并不比原创内容的网站获得的少造成无人愿意去原创内容了都去学爬虫了。


  最后给百度的两条建议


  (1)在原创内容方面无论是大站还是小站百度应该一视同仁。就如同星火计划就应该让所有网站处于同一起跑线上至少要让50%以上的网站处于同一起跑线上。同一篇内容并不是大网站出现的就是原创的百度可以通过抓取收录时间和建库时间来确定哪篇是原创。并给予原创内容比复制内容好的排名。(百度现在认为大网站的用户体验就比小网站好事实也并非如此的)


  (2)在给原创内容好的排名的同时应该坚决打击复制内容。同样的内容在第一页的搜索结果中出现了很多次并没有什么意义。