大禾视角:推荐算法研究体会
来源: 发布时间:  2022-07-06

过去一段时间,在对互联网行业的研究中,我们投入了较多精力在推荐算法上。研究过程中也有一些体会,做个简单的记录和分享。


01

为什么要研究推荐算法?



推荐算法涉及到了互联网平台的核心价值之一,匹配。匹配效率的高低是各平台竞争力强弱的关键因素,从长远看,甚至会影响平台的生死。如果我们想真正看懂一家互联网平台的竞争力,并对其未来有相对准确的判断,就一定要回答清楚:相比于其它平台,它能否从根本上以更高的效率实现更精准的人与信息的匹配,在此关键环节上创造出更高的社会价值?而推荐算法在其中起到了至关重要的作用。



事实上,近些年随着深度学习的发展,个性化推荐已经逐渐发展为主流的信息分发方式,这也非常符合用户在使用主要平台型APP时,最直观的感受。我们非常好奇:技术原理上,推荐算法是如何在这些APP内起作用的?把个性化推荐做到足够“好”的难点在哪里?A公司的推荐水平比B公司具体高在哪些点上?其中每个点的分量和难度如何?哪些才是真正的壁垒?如果不能回答好上述问题,而只是去跟踪不同平台的基本面的变化,就始终不得不追在结果后面跑,而难以真正理解驱动变化的原因。

02

我们如何研究?


虽然意识到这个课题的重要性,但在着手研究的初期,我还是低估了它的研究难度,难度最主要在于推荐算法技术本身的专业性。在刚开始做调研的时候,经常会听到LR、Wide&Deep、DeepFM、DIN、SIM、MMOE、双塔、Transformer、激活函数、成本函数、梯度下降等一系列专业词汇,这时如果不掌握其含义和原理的话,很难与业内人士进行同频和高质量的交流。在没有真正的从原理上去理解推荐算法技术本身如何起作用之前,急于去对不同公司的推荐算法能力进行对比的话,会有点像在没有地基的土地上盖房子,始终难以得出干净、高确定性的结论

如何补充专业知识?

补充专业知识的方法是听课、读书、读论文。这里可能没有捷径,从我的经验(可能更准确的说是教训)来看,欲速则不达,在初期尽量少接触从业人员在网络上发表的一些总结性内容,而多接触从基本原理出发、更体系化的内容,反而可以更高效的吸收知识。这其中杨立昆(Yann Le Cun)的《科学之路》、王喆的《深度学习推荐系统》、李宏毅的机器学习课程、吴恩达的机器学习课程、国内外大厂的主要推荐模型论文对我们理解推荐算法的技术原理都有比较大的帮助。实事求是地讲,这些技术知识相对晦涩难懂,很多时候独自钻研会难以理解。事实上,对于推荐算法这一相对重要的课题,我们团队有几位研究员都投入了相当精力、从不同角度切入进行研究,相互之间的讨论也提升了我们整体的研究效率。通过相对系统性的学习和探讨,我们逐渐理解了深度学习的工作原理、其在推荐领域的应用(业界主流的推荐模型的结构和用途)、微观来讲哪些输入信息对推荐模型至关重要等基础的技术原理。

推荐算法的关键要素

在对推荐算法技术本身有了一定基础理解之后,我们想要进一步研究的是,在不同的细分互联网领域内,业界公认推荐水平很高的公司,是否真的名副其实?与同领域的其它公司相比,其推荐水平更高的主要原因在于哪些点?哪些点是竞争对手很容易就可以追上的?哪些点是竞争对手很难赶超的?模型、数据、算力、基建等因素中,哪些最能拉开不同公司推荐能力的差距? 还是实际上,有比上述都更为关键的要素存在?

我们的研究主要围绕上述问题进行,随着一些关键事实的发现,一些问题的答案逐步变得清晰。在研究过程中,我们也看到不同公司在做事风格上存在较为明显的差异,有的公司会非常强调技术角度的优化和论文的发表,有的公司则更注重推荐系统与实际业务的结合,也会抽象出更多、更好地反映用户体验的目标,进而更有效地提升用户体验。有的公司搭建了更靠谱、易用的模型训练和实验平台,提升了算法工程师的生产效率和推荐系统的优化迭代速度;而有的公司在这方面的表现乏善可陈。另外我们发现,在推荐系统细节设计的合理性上,不同公司的表现也显著不同。除此之外,我们也大致体会到了在影响推荐能力的要素资源中,哪些是随着业内人员流动容易被复制的、哪些是可以部分被模仿并需要一定时间去与特定业务适配的、哪些是很难被复制的,也因此会比较欣赏一些公司的战略眼光,在早期看清了一些要素资源的重要性,并形成了当前阶段的竞争壁垒。

工程师的底层思维

在研究推荐算法的过程中,与团队其它成员协作较多,也会更明显的感受到,虽然身处金融行业,但我们整个团队,其实会更偏向于工程师思维。对于对生意影响较大的关键技术能力,我们注重从底层去理解它的原理,判断不同公司对它的掌握和应用程度;相比于业界主流权威的观点,我们更看重通过研究所掌握的关键数据和事实;相比于商业竞争呈现出的阶段性结果,我们会更关注其背后的驱动因素,哪些企业在做的哪些事情,有助于其实实在在地做出更好的产品,带来更好的用户体验。

【风险提示】本内容仅为帮助投资者了解大禾投资使用,不构成对产品的任何宣传推介材料或者法律文件。内容中如涉及对市场、行业、公司和产品的展望性陈述,均为本公司基于现行估计及预测而做出。虽然本公司相信这些展望性陈述所反映的期望是合理的,但本公司不能保证这些期望被实现或将会证实为正确,故不构成本公司的实质承诺,投资者不应对其过分依赖并应注意投资风险。