专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
机器之心  ·  英伟达RTX ... ·  21 小时前  
爱可可-爱生活  ·  【[44星]OpenCoder-llm/op ... ·  昨天  
结构先声  ·  DeepSeek学习笔记(2)——怎么做到的 ·  昨天  
结构先声  ·  DeepSeek学习笔记(2)——怎么做到的 ·  昨天  
机器之心  ·  视觉强化微调!DeepSeek ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究会

聊一聊「特征工程」的最佳实践

机器学习研究会  · 公众号  · AI  · 2017-07-29 20:12

正文

特征工程 是指为机器学习算法创造新特征的过程,这是提高模型预测表现的有力手段。

创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。

——Andrew Ng

通过特征工程,我们可以将数据中的关键信息分离出来,让数据中的模式浮现,并且可以结合自己的专业知识更有效的进行处理和分析。但特征工程的开放性使得这个过程不容易顺利的进行下去。

在这份指南中,我们将为大家呈现20个在特征工程中最为有效和启发式的知识点,伴你畅游特征工程的世界。




1

什么“是”特征工程?


特征工程是机器学习界一个非正式的术语,由于机器学习的快速发展,出现了各种各样对于特征工程的定义,至今没有统一的标准答案。我们在这里给出了我们对于特征工程的理解和定义:


特征工程是基于已有特征创造新的特征并改善模型性能的过程。

一个典型的数据科学处理流程长这样:

  • 项目调研/数据收集

  • 探索性分析

  • 数据清洗

  • 特征工程

  • 模型训练(包括交叉验证和超参数的精调)

  • 项目交付和见解


2

什么“不是”特征工程?








请到「今天看啥」查看全文