import delimited
命令在推文
用infix读入不完整?
用import delimited试试吧中已经详细介绍了它的用法,这里着重强调一下
encoding("encoding")
这个选项,其可以指定要导入的文本文件的编码。比如说我们知道上述temp.txt文件的编码为gb2312。我们用import delimited读入的时候就可以用encoding("gb2312")指定文件的编码,这样就可以避免乱码的产生。这里需要注意的是,gb2312是汉字的一种编码,常见的汉字编码还有GBK、gb18030。那么它们有什么区别呢?
GB 2312
是中国国家标准简体中文字符集,是对 ASCII 的中文扩展。。GB 2312 标准共收录 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。对于人名、古汉语等方面出现的罕用字,GB 2312 不能处理,这导致了后来 GBK 及 GB 18030 汉字字符集的出现。
GBK
即汉字内码扩展规范,K 为汉语拼音 Kuo Zhan(扩展)中“扩”字的声母。GBK 共收入 21886 个汉字和图形符号,GBK 向下与 GB 2312 完全兼容,向上支持 ISO 10646 国际标准,在前者向后者过渡过程中起到的承上启下的作用。
GB18030
,全称:国家标准 GB 18030-2005《信息技术中文编码字符集》,是中华人民共和国现时最新的内码字集,GB 18030 与 GB 2312-1980 和 GBK 兼容,共收录汉字70244个。
它们的关系可以用下图表示:
所以在设置文件的编码时,汉字的编码最好设置为gb18030,当设置为gb2312时,有些字符会转码时会出现错误。
copy"http://vip.stock.finance.sina.com.cn/corp/go.php/vCI_CorpManager/stockid/600900.phtml" temp.txt, replace
import delimited using temp.txt, clear delimiters("faufqnw25fe1w1gw,eo;g,1j3o", asstring) encoding("gb18030")