专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
程序员的那些事  ·  世界上最伟大最邪恶的软件发明,超过 10 ... ·  3 天前  
程序员的那些事  ·  已离职!网易此前网传反腐名单“全灭” ·  6 天前  
OSC开源社区  ·  MySQL亿级数据平滑迁移实战 ·  5 天前  
51好读  ›  专栏  ›  OSC开源社区

大数据、机器学习和深度学习类命令行工具

OSC开源社区  · 公众号  · 程序员  · 2017-03-02 08:30

正文

#点击图片,报名深圳源创会#


握紧你的键盘!在 OSX 和 LInux 上无需使用鼠标或 GUI ,也可以完成大量的操作。


极具人气的面向各类NX系统的命令行工具目前已经扩展至Python、Go、NodeJS 乃至各类混合型工具当中。


即使您并不打算通过命令行来运行整条数据处理管道,这些工具依旧可以带来很大的帮助。


《 Data Science at the Command Line》一书与 GitHub 统计了大量高质量用于预处理和后处理类的工具,并且根据需要可以进行适当的转换。在本文中,将为大家推荐一些工具。



CSVKit (https://www.oschina.net/p/csvkit)是如此神奇!它使用逗号分隔值执行所需的一切。 


您可以通过 cvs cut 剪切列,使用 cvsgrip 过滤列,通过 sql2csv 将数据从 Postgresql 提取到 CSV,使用 cols 获取列的子集,并使用 in2cv 将 Excel 转换为CSV。


agate

Python 数据分析库


agate 原名为 journalism。是针对人而不是机器优化的 Python 数据分析库。它是 numpy 和 pandas 的一种替代方法,它用可读的代码解决现实中的问题。

详细介绍:https://www.oschina.net/p/agate


ImageMagick

从命令行编辑,创建,转换,翻转和更改图像


ImageMagick 是一个用来创建、编辑、合成图片的软件。它可以读取、转换、写入多种格式的图片。


图片切割、颜色替换、各种效果的应用,图片的旋转、组合,文本,直线, 多边形,椭圆,曲线,附加到图片伸展旋转。


ImageMagick 的大多数功能的使用都来源于命令行工具。

详细介绍:https://www.oschina.net/p/imagemagick


json2csv

JSON 转换成 CSV


用json2csv我们可以轻松把JSON转换成CSV

详细介绍:https://www.oschina.net/p/json2csv


XML2JSON


xml2json 是一个 header-only 的 C++ 库,用来将 XML 文档转成 JSON 格式。它是高性能的--在商业硬件上3ms可以转换一个150KB的字幕文件。

详细介绍:https://www.oschina.net/p/xml2json


IMGKit

将网页转换成图片的 Python 库


IMGKit 是一个 Python 2/3 的库,使用它我们可以将网页转换成图片,输入可以是网址,HTML 文件或者字符串。

详细介绍:https://www.oschina.net/p/imgkit


wkhtmltopdf

HTML到PDF的文档转换


wkhtmltopdf 是一个使用 WebKit 网页渲染引擎开发的用来将 HTML 文档转成 PDF 文档的工具,可以跟多种脚本语言进行集成来转换文档。

详细介绍:https://www.oschina.net/p/wkhtmltopdf

使用方法:wkhtmltopdf www.myhomepage.com myhomepage.pdf


wu 

一个快速命令行天气应用程序


wu 是一个小型,快速的命令行应用程序,从 Weather Underground 检索天气数据

详细介绍:https://github.com/sramsay/wu


Gatling 

服务器性能测试工具


Gatling是一款基于Scala 开发的高性能服务器性能测试工具,它主要用于对服务器进行负载等测试,并分析和测量服务器的各种性能指标。


Gatling主要用于测量基于HTTP的服务器,比如Web应用程序,RESTful服务等。

详细介绍:https://www.oschina.net/p/gatling-stresstool


kp

一个 Kafka 工具


一个利用 CLI 直接生成数据到 Kafka 的工具

详细介绍:https://github.com/echojc/kp


KT 

Kafka 命令行工具


基于 JSON 的 Kafka 工具

详细介绍:https://github.com/fgeller/kt


jsonify

快速创建 JSON 对象


根据命令行参数快速生成JSON输出;解析字符串或任意 JSON 值的简单语法;支持读取文件内容,方便转义。

详细介绍:https://github.com/fgeller/jsonify


Exiv2

图像数据提取


Exiv2 是一个用来提取图片中的EXIF、LPTC 和 XMP 元数据信息的C++类库。同时还提供了命令行工具

详细介绍:https://www.oschina.net/p/exiv2


osquery 

操作系统监控工具


osquery 是 SQL 驱动的分析和监控操作系统的工具,是操作系统分析框架,支持 OS X 和 Linux 系统。


osquery 能帮助监控和分析低水平的操作系统,提供更直观的性能监控。


osquery 在操作系统中就像是一个高性能的关系数据库,允许你编写基于 SQL 的查询语句来洞察操作系统的数据。

详细介绍:https://www.oschina.net/p/osquery


Tesseract OCR 命令行使用方法

详细介绍:https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage


Hadoop / HDFS 命令行工具汇总

详细介绍:ttps://dzone.com/articles/hdfs-cheat-sheet


curl

字符界面下的下载工具


curl 是一款著名的字符界面下的下载工具,支持HTTP、HTTPS、FTP、FTPS、DICT、TELNET、LDAP、FILE,和 GOPHER。


此外还具有cookies支持、断点续传、FTP上传、密码支持、SSL支持和代理支持等特性。curl同时还提供了一套libcurl的库,开发者可以基于这个库开发其他下载工具。

详细介绍:https://www.oschina.net/p/curl


wget

命令行文件下载工具


wget 是一个从网络上自动下载文件的自由工具。它支持 HTTP,HTTPS 和 FTP 协议,可以使用 HTTP 代理。


wget 可以跟踪 HTML 页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。

详细介绍:https://www.oschina.net/p/wget


mqtt-cli


一个通过 mqtt 代理发送 mqtt 消息的节点命令行应用程序。也可以用于订阅和收听有关主题的传入邮件。


除此之外,还可以编写一些简短的 Python 脚本来通过命令行实现数据处理。

from nltk.sentiment.vader

import SentimentIntensityAnalyzer

import sys

sid = SentimentIntensityAnalyzer()

ss = sid.polarity_scores(sys.argv[1])

print('Compound {0} Negative {1} Neutral {2} Positive {3} '.format(ss['compound'], ss['neg'], ss['neu'], ss['pos']))

只需五行 Python 脚本即可实现情绪分析。


甚至可以通过命令行调试 TensorFlow(由于目前是 beta 测试版本,执行过程中可能会出现一些问题)。

详细介绍:https://www.npmjs.com/package/mqtt-cli


编译自:Big Data, Machine Learning, and Deep Learning Command Line Tools




推荐阅读

3 月 19 日深圳源创会报名正式启动!

2017 年不容错过的 10+ 个开源 Java 库

为什么说 LINQ 要胜过 SQL

Nginx 日志分析及性能排查

2017 年前端开发者必看学习清单

点击“阅读原文”查看更多精彩内容