专栏名称: 老司机聊数据
互联网+行业,数字化落地,包含IT数据管理、数据资产、数据应用、最佳企业数据案例实践分享等
目录
相关文章推荐
51好读  ›  专栏  ›  老司机聊数据

数据清理利器—SSIS入门与实践

老司机聊数据  · 公众号  ·  · 2025-02-13 09:38

正文

请到「今天看啥」查看全文


一、SSIS是什么?

SSIS(SQL Server Integration Service)是微软的一个 智能 解决方案,通俗点和ASP .NET 程序差不多,它也设计了很多的类似控件的东西,不过叫任务,这些任务的主要功能是将数据从数据源转到数据目的,中间也会有查询,聚合等等更加具体的任务。如图:

二、SSIS怎么用?

那么SSIS是一个智能的解决方案,怎么使用呢?接下来就根据实例进行详细的说明:

题干:如图两张表结构

解释:

(1)employee(员工表):店面员工信息

employee:id(主键 自增)name(员工姓名)birthday(出生日期)idCard(证件号码)idType(证件类型 1为身份证) empNo为员工编号

(2 )employee_internet(网络员工表):网络员工信息

employee_internet:id(主键 自增)name(员工姓名)birthday(出生日期)idCard(证件号码)idType(证件类型 为中文身份证) empNo为员工编号

ETL过程:请将employee_internet表信息根据idCard(证件号码)合并到employee表中。解决方案的过程:

分析:首先根据题干得到根据idCard合并两个表,但是两个表中idType的类型不一样,这就是问题的关键,所以先根据证件类型不同派生出另一个字段,然后进行合并

过程:

1、创建SSIS项目文件

(1)在开始菜单中,找到SQL 数据库 文件下的SQL Server BusinessIntelligence Development Studio程序,单击运行程序。

(2)在打开的页面中,点击左上角的“文件→新建→项目”,在”商业智能”项目目录下选择”IntegrationService”项目,填入名称和位置,点击确定。


2、打开现有的SSIS项目文件

找到需要打开SSIS项目的文件夹,打开文件。找到文件后缀名为.sln的文件,并运行该文件

3、页面介绍

菜单栏、工具箱、设计区、连接管理器、解决方案资源管理器等

菜单栏:所有的菜单选项

工具箱:所有的 组件

设计区:开发组件区域

连接管理器:当前SSIS包所用到的数据源

解决方案资源管理器:可以查看数据源和项目文件

补充:整体风格和微软的C/S页面类似

4、创建SSIS包

SSIS所有的开发都是在包中完成的。

创建包步骤:在右侧的解决方案资源管理器中,右键SSIS包文件夹,选择新建SSIS包,这样就可以开始ETL了

5、接下来就根据上面的题目来别建控制流和数据流

6、双击数据流任务进入数据流的设置

现在对以上的数据流结合题目进行详细的介绍:

(1)OLE DB源是源数据表的数据在题目中是employee_internet

(2)查找是根据源数据查找需要连接的表employee,并根据idCard进行连接

(3)派生列是根据查找无匹配输出来将idType的身份证类型派生出一个不同的列

(4)OLE DB目标将派生出的列及两个表的信息输出到OLE DB目标employee

(5)点击执行就会看到成功,从数据库里查找就会发现连个表的信息合并完成

通过以上的操作就完成了这个小实例哦!很简单的,大家试试看!

三、特点

1.SSIS不仅仅用来简单的传输和转换数据,还可以用来对建立Business Intelligence 平台的数据进行集成、转移、扩展、过滤和修正。

2.SSIS 不但具有很多内置的数据清理功能,而且还可以通过第三方控件来扩充功能,可以使用户通过 Visual Studio .net 开发自定义的控件。

3.SSIS可以将数据直接导入到SQL Server 分析服务(Analysis Services) 的 Cube中。

4.SSIS可以与SQL Server 报表服务 (Reporting Services) 无缝集成,即 SSIS 包可以作为报表服务的数据源。

四、总结

以上就是对SSIS的简单介绍,并根据一个小实例来进行讲解,从而更好的理解!从这里感受最深的就是,如果想更好的实现ETL的过程就必须对SQL语句有熟练的掌握,将SQL语句用图形来展现出来,从而更方便快捷的构建目的数据源。但是它也提供了编写脚本的方式来实现需要的功能,但是在后期很难维护,所以要慎重用脚本。

- E N D -
❤ 原创不易,喜欢内容就点个赞吧!❤

01 近期热门

> 为什么数据治理项目越做越虚

> 数据治理的本质是“治人”

> 数据行业六大相关岗位,总有一个适合你

> 一文读懂数据血缘分析原理与建议方法

> 数据精细化管控时代的新范式----数据血缘

> 数据资产价值 评估的三种方式以及优劣


02 方法实践

> 一文讲透数据治理难点与应对策略(建议收藏)

> 数据治理项目为什么会失败【深度剖析】

> 数据血缘分析~全网最全原创精华(建议收藏)

> 关于SAP-MDG的主数据治理理论概述

> 区块链技术对数据治理的一些思考及启发

> 主数据治理工作八大难点

> 浅谈数据分析中的数据清洗方法策略

> 数据资产入表难点解析(三)【数据质量提升】

> 数据资产入表难点解析(二)【数据确权】

> 数据资产入表难点解析(一)【数据定价】

> 全国一体化政务大数据体系建设指南(建议收藏)


03 观点分析


更多优质内容,持续输出中~

新书发售👇

听说你也是做数据的? 👇








请到「今天看啥」查看全文