什么是好工程

雷帅快与慢 · 公众号 · · 2024-08-29 20:03

正文

第一原则，别错。

很多人会开发模型，但这其实一点用都没有，实习生也会开发模型，稍微会写代码的学过数学的都会开发模型。拿一个现成的数据集，按照某些流程训练一个模型，太容易了。

然后忘了生产。离线做了一堆乱七八糟的特征处理，没想过线上生产的问题，例如 /n 和 /(n-1) 的问题，例如类别变量的 mapping ，例如各种异常值的处理。还有，网格搜索调参，找到了非常离谱的模型结构，其实都是不懂。

怎么解决呢？你得先有这个意识，知就会行，最后通过一致性验证来保证。开发是一套数据处理和模型打分的逻辑，生产是另一套，只有通过真实的样本验证两种打分的一致性，你才能无限接近 100% 地杜绝错误。

第二呢， 异常的处理 ，包括性能不足的超时。

异常返回什么，超时返回什么，通过还是拒绝，不同的环节可能都不一样。不是特别强的风险拦截环节其实可以通过，留给决策流中的关键环节去拦截。但关键环节，拿不准的你得拦截。

还有模型所用的字段，解析出现异常，或者接口未查询到，如何处理，不难，但你最好心里有数。

很多时候，你要兼顾某些你当前未知的异常情况，也要优化取数、计算的逻辑，至少得满足超时的性能要求吧。

第三， 数据的存储 ，要考虑到数据的分析、利用、排查问题等各种用途。

如果一切都好，模型分是对的，分布是稳定的，效果又好又稳定，业务指标也很好，什么都不做当然也可能没啥问题。但没有人能保证，不，我保证一定不会这样好。

任何环节出现波动，你一定免不了要来分析模型。分布也好，效果也好，意味着线上调用的模型分需要存储。不仅如此，模型分所用到的字段也应该存储。

推荐文章

国家外汇管理局 · 李强在福建调研时强调以开拓创新精神做好稳外贸工作加快构建高水平对外开放新优势

18 小时前

国家外汇管理局 · 习近平：解放思想改革创新奋发进取真抓实干在中国式现代化进程中开创云南发展新局面

昨天

国家外汇管理局 · 习近平在贵州考察时强调坚持以高质量发展统揽全局在中国式现代化进程中展现贵州新风采

3 天前

肌肉男训练营 · 死神来了——他们是阎王都不收的人···

7 年前

战略前沿技术 · DARPA最新动态：探测和跟踪潜艇的技术、安全自主应用技术、小型无人机自主导航技术、神经工程系统设计项目、电子产业振兴计划……

7 年前

全球能源观察 · 【石油观察家·润民看油价】国际原油价格每周评论与预判（2017年8月28日～9月1日）

7 年前

素智 · 后来，你结婚有孩子了

7 年前

Linux中国 · 【每日安全资讯】新论文指出全世界核武计算机系统过时且具严重安全隐患

7 年前