------文末赠书------
我有个表弟喜欢刷抖音,打开都是性感小姐姐的那种。有一天他好奇地问我为什么。
在移动互联网时代的今天,“信息流”早已深入到了我们的日常生活:
这些在我们习以为常的生活和娱乐方式的背后,就是那个“比你还了解你自己”的信息流推荐系统。
依托大数据算力和人工智能,推荐系统“毫秒级”地响应用户偏好,为其量身定制内容,提供沉浸式的内容体验,从而也为App带来海量的高粘性用户群体和稳定的商业变现场景。
如果你想深入了解这套个性化算法背后的运作逻辑,又或是对互联网大厂海量用户群和庞大业务体系下,如何抽丝剥茧的厘清算法体系和产品脉络感兴趣,那么《信息流推荐算法》不失为一个很好的选择。
《信息流推荐算法》并不是一本纯理论和公式推导的书,而是从大厂实际业务场景的视角切入,为读者解剖主流推荐算法的设计思想和链路架构。
推荐算法伴随着这些年全屏短视频的盛行,实际上发生了很大的范式变化:精排到混排的链路基本形成了深度多任务学习模型+进化学习/强化学习的主流范式,破除了列表页时代的单任务重CTR预估的建模范式,同时,端云协同、图学习、大规模预训练模型、多模态建模、因果推断、Debias都有了全面的升级和应用。
为了更清晰明了、结构化地阐述这些技术问题,本书紧扣信息流关键业务问题,沿着信息流推荐算法的框架设计、线索挖掘、评估实验、特征工程、全链路算法机制,递进式地阐述这些技术在千万甚至亿级DAU规模下的应用、实施方法。
特别是本书还专门以独立章节的篇幅,阐述了如何应用进化学习、强化学习对多重精排目标进行“宏观业务目标”建模的参数寻优方法,阐述了如何应用Encoder-Decoder的list-wise方法建模推荐序列的多样性,这些在市场上其他的推荐算法书中是不多见的。
本书两位作者历经过阿里、腾讯等国内一线大厂和多家独角兽级公司10多年的实战洗礼,对于大规模推荐系统有着最真实的实践经验,同时对于创业公司强约束小数据条件下的冷启挑战也有着第一手的经验体会。同时,两位作者也勤于技术总结、理论实践并重、乐于交流分享,多次在国内一线技术论坛(Qcon、DataFun等)担任讲师嘉宾。
赵争超,成长于阿里电商体系。曾任阿里巴巴高级算法专家,腾讯PCG算法副总监,曾负责淘宝第一代推荐系统核心算法设计研发、腾讯微视小视频推荐算法、阿里新零售场景AI应用,有着将近20年的大数据、机器学习和推荐系统实践经验,并曾在多家独角兽级公司担任AI负责人。
黄帆,成长于腾讯体系。现腾讯公司专家研究员。负责过腾讯微视、应用宝、QQ短视频等多个腾讯旗下大规模工业级推荐系统的核心算法设计和研发工作。并先后在SIGKDD、SIGIR和IET Communications等知名国际会议和期刊发表学术论文20余篇,申请发明专利40余项。
本书适合当前搜推广行业的一线从业者(包括一线的算法工程师、与工程师协同合作的信息流产品运营人员和产品经理),以及希望未来从事搜推广行业的广大在校学生朋友。
在校学生朋友通过学习本书内容,可以提前体系化地从业务、产品、数据、算法的全视角感受和理解推荐算法,结合学校实验室中的项目实践,对工业级推荐系统有一个更加全面的认知,以此作为未来工作的预演;
初入职场的算法工程师,因为工作分工的精细化,往往无法总览系统全貌,通过阅读本书,不仅可以从全链路理解推荐建模,还可以从产品和算法的双重视角理解信息流产品及其生态,培养产品和商业敏感度、培养将业务问题转化为数学问题的建模能力,从而更全面地规划自己的技术成长路径;对于还在中小厂的工程师朋友,本书也不失为面试互联网大厂推荐算法岗的全面攻略。
产品和运营相关的从业人员可以从业务视角理解推荐系统的设计框架,理解推荐系统在内容分发中的所长和所短,掌握推荐系统的业务价值评估方法和算法、产品协同互补的合作机制。
本书受到了包括腾讯PCG AI委员会负责人、阿里数据大学(前)校长、新华智云(前)首席科学家、数据智能开发者社区DataFun创办人、阿里个性化平台(TPP)发起人等业界专家的一致推荐。
同时,本书还是机械工业出版社2024年1024程序员节特别企划:“预见2025 编织未来数字世界的经纬”重磅推荐的IT类书籍之一。
精彩书评
本书以信息流产品为切入点,深入浅出地介绍了推荐算法的pipeline架构、理论和业务实践,是作者十数年从事推荐算法工作宝贵沉淀和总结。无论想要深入理解和应用推荐算法的学生读者,还是一线推荐算法工程师这都是一本非常实用的书籍。
——李传福 前阿里巴巴资深总监、阿里数据大学校长
本书汇聚了两位在阿里和腾讯深耕多年的资深推荐专家的经验,详尽地梳理了推荐算法的发展脉络与各个阶段的算法体系。更值得一提的是,本书紧密结合业务实践,展示了如何针对数据预处理、信息茧房、冷启动、消偏以及内容分发价值评估等问题提供系统性的解决方案。相信无论是信息流算法工程师还是产品经理,都能从这本实用性强的书中获得启示和指导。
——李奘 腾讯PCG大数据平台部和AI委员会负责人
本书系统介绍了业界主流信息流推荐系统的主要模块和经典算法,同时对系统在大规模用户产品落地过程中遇到的典型问题进行了探讨。本书内容全面,非常适合希望深入了解推荐系统的从业者,也适合与推荐算法团队有深入协作的产品经理、数据分析师和后台工程师等上下游团队人士阅读学习。
——阮超 腾讯高级总监,腾讯微视&QQ短视频负责人,前Airbnb中国技术负责人
本书以清晰而生动的方式,紧贴信息流产品的内容分发业务场景,介绍了个性化推荐的全联链路算法,包括前序的数据洞察、线索挖掘,到召回、粗排、精排、重排设计,再到冷启动、消偏、保量策略等平台生态建设问题,内容详实,对一线算法工程师极具参考价值。
——魏虎 阿里巴巴技术总监、阿里个性化推荐平台(TPP)发起人
从电商平台的商品推荐,到新闻的个性化推送,再到短视频的内容分发,推荐算法已经成为现代信息流产品的核心技术之一。本书理论与实践相结合,详细介绍了推荐系统的关键技术和实现方法,不仅涵盖了推荐算法的基本原理,还深入探讨了诸如冷启动、消偏、评估等复杂问题。
——吴书 中国科学院自动化研究所副研究员
本书围绕推荐算法在信息流产品中的工业化实践,深入浅出地展开讨论,本书的章节内容叙述融入了作者在淘宝、腾讯及多家独角兽级公司中的多年实践经验,对推荐建模中的经典业务问题抽丝剥茧,并给出了详实的算法设计,推荐相关从业者阅读参考。
——张伟 Shopee电商数据智能部负责人、前阿里巴巴资深算法专家
都说自然语言是人工智能皇冠上的明珠,但推荐算法绝对是上一轮人工智能浪潮中名利双收的大明星。为什么这么说?一方面,应用的潜力引领业界和学界竞相争奇斗艳,推动了算法和工程上一系列创新;另一方面,这些创新又驱动了移动互联网信息分发革命,创造了巨大无比的商业收益。本书作者亲历了推荐算法在技术和产品应用上的迭代,并将其汇集成这本新作,希望启迪那些想继续在这个领域耕耘与精进的伙伴们。
——王大川 数据智能开发者社区DataFun创办人
【读者朋友可点击上方链接购买,也可以在淘宝、京东上搜索书名:“信息流推荐算法”(认准,机械工业出版社,蓝皮书)购买】
【读者朋友可点击上方链接购买,也可以在淘宝、京东上搜索书名:“信息流推荐算法”(认准,机械工业出版社,蓝皮书)购买】
本书希望从算法工程师和产品经理的双重视角来阐述推荐算法体系,因此在书的第1章系统性地介绍了信息流产品的内容生态、对用户体验和商业价值的重构,以及推荐算法作为信息流内容分发的“利器”的作用。
本书第2章,结合我们过往的实践经验,介绍了对于复杂的工业级推荐系统,如何通过系统性的产品运营分析、用户画像分析、行为路径分析挖掘推荐算法优化的线索,如何解读业务数据,如何通过用户画像、用户行为路径提升算法特征工程的广度和深度。
本书第3到7章,详细介绍推荐算法的召回、粗排、精排、重排各个阶段的算法体系,从过往的经典算法到当前较前沿的建模思想,并结合业务实践阐述算法推导过程和实例说明,包括用户行为序列挖掘多峰兴趣;多任务/多目标融合建模应对信息流多维复杂交互、即时和宏观目标并重;list-wise建模推荐列表整体转化率;端云一体建模实时响应用户反馈及兴趣变化等等。这几章是本书最核心的部分,也是推荐算法的技术核心。
本书第8章,介绍了召回和排序模型的数据预处理及特征工程相关的工作内容,以及在推荐算法需要联动上下游产品时,针对排序模型的打分校准方法。
本书第9章,我们针对信息流产品中的经典问题,比如信息茧房、冷启动、消偏等,具体分析这些问题在信息流产品中的前因后果以及综合性的解决方案。包括,通过DroupoutNet、Cold & Warm Net等方法、通过用户表征“迁移”思想,更好的挖掘冷启用户兴趣信号;通过对抗学习的思想消除流行度偏置,通过曝光建模消除位置偏置等方法,使得模型不被热门样本“绑架”,让个性化学习更加充分。
本书第10章,分析如何从宏观和微观角度评判推荐系统对平台的价值,并介绍价值评估的离/在线指标体系,以及A/B测试作为在线评估技术的主要概念和落地实践的流程。
本书第11章,总结展望推荐算法的未来,阐述当前阶段推荐算法与业务价值息息相关的几个重要且亟待解决的命题。同时对于推荐算法工程师从入门到成长,如何提升自身的各项技能方面给予合理的建议。
作为将近20年的人工智能行业的从业者,在我过往的经历中,推荐算法几乎占了一半多的时间,我强烈建议所有的算法工程师,不管你当前是否从事推荐相关的工作,都可以在日常多关注一下推荐算法。
毫不夸张地说,在移动互联网时代,推荐系统恐怕是迄今为止AI技术最成熟,也是商业影响力最大的应用(重点体现在搜推广中的变现能力和营销/投放中的引流能力)。如果以现代化战争来类比,推荐系统就是AI武器库的一个最佳战场,这里蕴藏着对AI最前沿和最丰富的技术挑战。
首先,推荐算法的落地实施是一个系统性的工程,个性化推荐本身是个复杂的自闭环系统,而不是单模块下输入和输出的工程串联。它是一个高度精密的多模块协同的算法体系,是为了满足一个应用目标而构建的包含表示学习、用户画像、召回、粗排、精排、重排、生态建设等算法模块的一个综合性应用系统。
其次,推荐系统服务和交互的对象是这个星球上最复杂的对象:人脑,而且是有着多元分布的大规模人脑群体。而推荐系统的终极使命是最大化服务对象的满意度,但我们都知道,人的感官复杂性,使得这个终极目标背后的建模维度非常高,影响因素异常复杂,这也是鲜有直接以留存和人均时长等为学习预测目标的算法的原因。
再次,因为推荐系统问题的难度和维度规模,其涉及到的挑战因素和层面非常多,比如推荐建模中经典的E&E问题、Debias问题、冷启动问题、Fairness问题、预训练和表示学习问题、价值度量和长程(long term)价值优化问题、信息茧房问题等等。概括的说,几乎AI在其他领域遇到的技术挑战推荐系统都会遇到,同时还存在推荐系统独有的一些挑战。因此,推荐系统确实是AI技术最好的练兵场之一,而我们从近年来AI在其他领域的技术突破第一时间被迁移应用到推荐系统中也可见一斑。
最后,除推荐系统自身是一个闭环系统之外,它实际上也同时从属于一个更大的、包含产品设计、内容运营、流量经营在内的“生态圈”,也就是我们的信息流产品本身。因此,除在推荐系统的模块内部目前基本上有明确共识的可直接优化的量化目标外(如粗排、精排、混排的目标),“生态圈”中的系统之间,以及推荐与产品、内容、运营的整体协同配合中,很大程度上还是一个依赖人工设计的空间。因此,从信息流内容分发的顶层设计的角度,推荐系统的设计很难科学严密地定义和推导出最优解,很大程度上还是需要依赖工程师的实践经验和创造性的设计能力,并通过端到端的实验评估来择优解决方案。因此,推荐系统是一个专家经验融合启发式算法、最优化算法的工程体系,是一个局部模块较明确量化,模块间整体耦合依赖经验和直觉的一个非常有意思的,科学融合艺术的领域。
本书内容既有理论公式的推导,又有业务建模的实践介绍,期望这本书对大家的日常工作和学习能有所帮助,也期望未来能和大家有更加深入的探讨和交流。(作者邮箱:[email protected]。遇到任何问题,欢迎来信交流)
【读者朋友可点击上方链接购买,也可以在淘宝、京东上搜索书名:“信息流推荐算法”(认准,机械工业出版社,蓝皮书)购买】
赠书领取方式:
在文末“写评论”留言(30字以上),小编选择五位赠书!
截止时间:
2024年11月15日
【读者朋友可点击上方链接购买,也可以在淘宝、京东上搜索书名:“信息流推荐算法”(认准,机械工业出版社,蓝皮书)购买】
赠书领取方式:
在文末“写评论”留言(30字以上),小编选择五位赠书!
截止时间:
2024年11月15日