专栏名称: 连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。

Stata小白系列之二：数据拆分与合并

连享会 · 公众号 · · 2025-02-21 22:00

正文

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata： Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题： SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果： DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

作者：谢作翰 | 连玉君 | (知乎 | 简书 | 码云)

编者按：从本期开始，Stata 连享会将推出「Stata 小白系列」推文，介绍数据导入、命令语法等 Stata 入门知识，以帮助各位尽快掌握 Stata 的基本操作。需要注意的是，本文所有数据可通过 lxhget xzhstata.pkg, replace 命令获取。

1. 数据拆分

1.1 数据的横向拆分
1.2 数据的纵向拆分
1.3 savesome 命令

2. 数据合并

2.1 数据的横向合并
2.2 数据的纵向合并
2.3 合并多个 csv 文件

3. 相关推文

1. 数据拆分

如果把内存中的数据集视为一个矩阵，则我们对数据的基本操作包括两类：删除列或行。对于 Stata 而言，命令的主要操作对象是变量 (矩阵的列)，而有些时候我们也需要删除特定的观察值 (矩阵的行)。这些操作都可以配合使用 drop 和 keep 命令来实现。

1.1 数据的横向拆分

原始数据有时包含过多的变量，但在实际应用中可能根据需要将原始数据拆分为不同的数据表，这时就要实现数据的横向拆分。数据的横向拆分用到的两个命令为 drop 和 keep 。

. sysuse auto.dta, clear
. drop weight length
. save auto_sim01.dta, replace

我们调入数据后，使用 drop 命令删除了两个变量，进而把处理后的数据文件另存到文件夹中。若该文件夹下已经存在一个名称为 auto_sim01.dta 则自动覆盖，这是 replace 选项的作用。

按照上述思路，也就不难理解如下命令的含义了：

. sysuse auto.dta, clear
. keep make price mpg rep78 foreign
. save auto_sim02.dta, replace

一般而言，除非数据文件非常大导致每次调入耗时较长，我们很少另存数据文件。我们会将主要的修改动作都保留于 dofile 中。每次分析时，只需修改 dofile 或执行 dofile 中的特定语句即可实现对子样本的处理。毕竟，dofile 本质上是文本文件，文件大小通常不超过几十 k。

1.2 数据的纵向拆分

原始数据有时包含过多的样本观测值，但在实际应用中可能根据需要将其按某种特征拆分为不同的数据表，这是就要实现数据的纵向拆分。此时，仍然可以使用 drop 和 keep 命令。例如，将 auto.dta 数据文件拆分为两个数据文件：auto_domestic.dta 和 auto_foreign.dta，操作如下：

. sysuse auto.dta, clear
. keep if foreign==0
. save auto_domestic.dta, replace 

. sysuse auto.dta, clear
. keep if foreign==1
. save auto_foreign.dta, replace

1.3 savesome 命令

通过上述范例可以看出，使用 Stata 自带的 keep 和 drop 命令可以快捷地删除变量或观察值，但在命令写法上较为繁琐。我们可以使用外部命令 savesome 来提高效率 (该命令是 Stata 官方命令 save 的扩展版)。

*命令安装
cnssc install savesome, replace

*命令语法
savesome [varlist] [if exp] [in range] using filename [, old
         save_options]

其中，

using filename ：表示要保存的子集文件名及文件路径；
old ：是较为重要的选项，可以将数据保存为较低版本的文件格式，如 Stata15 用户可以将数据另存为在 Stata14 或以下版本的数据文件。类似的命令还有 Stata 官方命令 saveold 。

对于前文提到的例子，我们可以使用 savesome 来实现相同的功能：

. sysuse auto.dta, clear
. savesome make price mpg rep78 foreign using auto_sim02.dta, replace

. sysuse auto.dta, clear
. savesome if foreign==0 using auto_domestic.dta, replace

2. 数据合并

2.1 数据的横向合并

数据的横向合并是横向拆分的逆操作，但是其要比拆分复杂。对于时间序列资料而言，要保证同一时点的两个变量的观察值对接到同一行；而对于截面个体资料而言，要保证同一个人的年龄数据与该人的收入数据在同一行。而对于面板数据资料，则需数据中有两个变量能够唯一标示每一行观察值，以保证 A 数据文件中的 “张三疯-2016” 与 B 数据文件中的 “张三疯-2016” 处于同一行。合并所使用的命令语句为 merge ，具体语句如下所示：

merge [varlist] using filename [filename ...] [, options]

其中， merge 为合并的命令语句， [varlist] 代表用以合并的变量， using filename 指的是与原文件进行合并的文件。 options 具体选项如下：

keep(varlist) ：只保留 filename 中特定的变量；
_merge(newvar) ：合并之后生成的新变量，默认名称为 _merge；
nolabel ：不要复制 filename 中所定义的标签；
nonotes ：不要复制 filename 中所定义的注释；
update ：用 filename 中的数据代替内存中的缺失值；
replace ：用 filename 中的数据代替内存中中的非缺失值；
nokeep ：删除数据库中不能匹配的观测值；
nosummary ：删除 summary 变量；
unique ：匹配变量在原文件与合并文件中都是唯一的；
uniqmaster ：匹配变量在原文件中必须是唯一的；
uniqusing ：匹配变量在用以合并文件中必须是唯一的；
sort ：合并前进行排序。

利用数据文件 waterinput 和 wateroutput 实现数据的横向合并，匹配变量为 year ，生成新的数据文件命名为 waternew。

. use wateroutput.dta, clear
. sort year
. save wateroutput.dta, replace

. use waterinput.dta, clear
. sort year
. merge year using wateroutput.dta
. save waternew.dta, replace

2.2 数据的纵向合并

数据的纵向合并为数据纵向拆分的逆操作，使用的主要命令为 append 命令，具体语句如下：

append using filename [, options]

在这个命令语句中， append 是进行纵向合并的命令语句， using filename 是进行纵向合并的文件路径， [, options] 的内容与 merge 相似，但更为简化。例如，利用数据文件 auto_domestic.dta 和 auto_foreign 实现数据的纵向合并，生成的数据文件命名为 autonew.dta。

. sysuse auto.dta, clear
. keep if foreign==0
. save auto_domestic.dta, replace 
. sysuse auto.dta, clear
. keep if foreign==1
. save auto_foreign.dta, replace

. use auto_domestic.dta, clear
. append using auto_foreign.dta
. save autonew.dta, replace

2.3 合并多个 csv 文件

csvconvert 命令用于将多个 csv 格式文件合并为一个 .dta 格式文件，比较适合处理具有时间周期性特点的变量。

*命令下载
cnssc install csvconvert, replace

*命令语法
csvconvert input_directory, replace [options]

其中， options 选项如下：

output_file(file_name) ：设置输出文件名；
output_dir(output_directory) ：设置输出路径；
input_file(.csv file list) ：选择要合并的文件。

3. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 拆分合并清洗, m
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题： Stata入门

Stata小白系列之二：数据拆分与合并