来源:36大数据(ID:dashuju36)
一个产业的蓬勃发展离不开基础知识点的整理与沉淀。
我们相信这一份「208个关于大数据和人工智能的专用名词术语」中英文对照版 ;会成为大家以后日常工作中常用的工具,无论是你在翻译、写产品文档、写论文、又或者尝试国外新技术的时候都会用得上。所以,我们很高兴可以把它整合并且分享出来,并且按照字母进行了排序。
感谢大家长期以来的关注和支持!
A
Apache Kafka:命名于捷克作家卡夫卡,用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,卡夫卡目前非常受欢迎。
Apache Mahout:Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。
Apache Oozie:在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。
应用程序开发(APP DEV):应用程序开发是根据用户要求建造出软件系统或者系统中的软件部分的过程,包括需求捕捉、需求分析、设计、实现和测试的系统工程。一般是用某种程序设计语言来实现的。通常采用应用程序开发工具可以进行开发。
Apache Drill, Apache Impala, Apache Spark SQL:这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。
Apache Hive:知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。
Apache Pig:Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?
Apache Sqoop:一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。
Apache Storm:一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。
人工智能(Artificial Intelligence):研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习
聚合(Aggregation) – 搜索、合并、显示数据的过程
算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。
异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息
匿名化(Anonymization) – 使数据匿名,即移除所有与个人隐私相关的数据
应用(Application) – 实现某种特定功能的计算机软件
分析法(Analytics):用于发现数据的内在涵义。让我们试想一个很可能发生的情况,你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件,如果这个时候你拿着这张单子,开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样?你正在进行分析工作,你在从你原始的数据(这些数据可以帮助你为来年自己的消费情况作出决定)中挖掘有用的信息。那么,如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢?在这种情况下,我们就可以称之为大数据分析。所谓大数据分析,就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法,现在我们来对它们分别进行梳理。
B
批处理(Batch processing):尽管批量数据处理从大型机(mainframe)时代就已经存在了,但是在处理大量数据的大数据时代面前,批处理获得了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop),后面会讨论,就是一种专门处理批量数据的方法。
行为分析(Behavioral Analytics):你有没有想过谷歌是如何为你需要的产品/服务提供广告的?行为分析侧重于理解消费者和应用程序所做的事情,以及如何与为什么它们以某种方式起作用。这涉及了解我们的上网模式,社交媒体互动行为,以及我们的网上购物活动(购物车等),连接这些无关的数据点,并试图预测结果。举一个例子,在我找到一家酒店并清空购物车后,我收到了度假村假期线路的电话。我还要说多点吗?
商业智能(Business Intelligence):我将重用 Gartner 对 BI 的定义,因为它解释的很好。商业智能是一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效。
生物测定学(Biometrics):这是一项 James Bondish 技术与分析技术相结合的通过人体的一种或多种物理特征来识别人的技术,如面部识别,虹膜识别,指纹识别等。
描述性分析法(Descriptive Analytics):如果你只说出自己去年信用卡消费情况为:食品方面 25%、衣物方面 35%、娱乐方面 20%、剩下 20% 为杂项开支,那么这种分析方法被称为描述性分析法。当然,你也可以找出更多细节。
大数据科学家(Big Data Scientist):能够设计大数据算法使得大数据变得有用的人
大数据创业公司(Big data startup):指研发最新大数据技术的新兴公司
B字节 (BB: Brontobytes):约等于1000 YB(Yottabytes),相当于未来数字化宇宙的大小。1 B字节包含了27个0!
大数据 (Big data):指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
数据科学平台(Data science platforms):是数据科学家创造和测试数据科学解决方案的工作平台。按照高德纳的定义,数据科学平台是“由紧密相关的多项数据处理核心技术模块组合而成的软件系统,以支持各类数据科学解决方案的开发及其在业务流程、周边基础设施和产品中的应用。
C
点击流分析(Clickstream analytics):用于分析用户在网络上浏览时的在线点击数据。有没有想过即使在切换网站时,为什么某些谷歌广告还是阴魂不散?因为谷歌大佬知道你在点击什么。
聚类分析(Cluster Analysis):是一个试图识别数据结构的探索性分析,也称为分割分析或分类分析。更具体地说,它试图确定案例的同质组(homogenous groups),即观察、参与者、受访者。如果分组以前未知,则使用聚类分析来识别案例组。因为它是探索性的,确实对依赖变量和独立变量进行了区分。SPSS 提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。
比较分析(Comparative Analytics):因为大数据的关键就在于分析,顾名思义,比较分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。我知道它涉及的技术越来越少,但是我仍无法完全避免使用术语。比较分析可用于医疗保健领域,通过比较大量的医疗记录、文件、图像等,给出更有效和更准确的医疗诊断。
关联分析(Connection Analytics):你一定看到了像图表一样的蜘蛛网将人与主题连接起来,从而确定特定主题的影响者。关联分析分析可以帮助发现人们、产品、网络之中的系统,甚至是数据与多个网络结合之间的相关连接和影响。
Cassandra:是一个很流行的开源数据管理系统,由 Apache Software Foundation 开发并运营。Apache 掌握了很多大数据处理技术,Cassandra 就是他们专门设计用于在分布式服务器之间处理大量数据的系统。
云计算(Cloud computing):构建在网络上的分布式计算系统,数据是存储于机房外的(即云端),软件或数据在远程服务器上进行处理,并且这些资源可以在网络上任何地方被访问,那么它就可被称为云计算。
集群计算(Cluster computing):这是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是,在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(cluster management layer)、负载平衡(load balancing)和并行处理(parallel processing)等等。
分类分析(Classification analysis) :从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据。
商业分析(Commerce analytics):指的是包括审视预计的销售额、成本和利润是否达到公司预计目标;如达到,则此产品概念才能进一步发展到产品开发阶段。
聚类分析(Clustering analysis) – 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。
冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。
众包(Crowdsourcing):从一广泛群体,特别是在线社区,获取所需想法,服务或内容贡献的实践。
集群服务器(Cluster server):把多台服务器通过快速通信链路连接起来,从外部看来,这些服务器就像一台服务器在工作,而对内来说,外面来的负载通过一定的机制动态地分配到这些节点机中去,从而达到超级服务器才有的高性能、高可用。
对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。
复杂结构的数据(Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析。
计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据。
并发(Concurrency) – 同时执行多个任务或运行多个进程。
相关性分析(Correlation analysis) – 是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。
客户关系管理(CRM: Customer Relationship Management) – 用于管理销售、业务过程的一种技术,大数据将影响公司的客户关系管理的策略。
云数据(Cloud data):是基于云计算商业模式应用的数据集成、数据分析、数据整合、数据分配、数据预警的技术与平台的总称。
D
数据分析师(Data Analyst):数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集、编辑和分析数据。
数据清洗(Data Cleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据分析师能够更正并进一步丰富数据,以提高数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。
数据即服务(DaaS):通过给用户提供按需访问的云端数据,DaaS 提供商能够帮助我们快速地得到高质量的数据。
数据虚拟化(Data virtualization):这是一种数据管理方法,它允许某个应用在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交网络利用这个方法来存储我们的照片。
脏数据(Dirty Data):脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。显然,你不会想着和脏数据搅在一起。所以,尽快地修正它。
暗数据(Dark data):公司积累和处理的实际上完全用不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交网络中的信息,电话中心的记录,会议记录等等。很多估计认为所有公司的数据中有 60% 到 90% 不等可能是暗数据,但实际上没人知道。
数据流(data stream):最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。
数据湖(Data lake):即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是,它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据(但不一定如此)。一般认为,一个数据湖可以让人更方便地接触到那些你真正需要的数据,此外,你也可以更方便地处理、有效地使用它们。
数据资源管理(Data Resources):是应用信息技术和软件工具完成组织数据资源管理任务的管理活动。
数据源(Data Source):顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。
数据挖掘(Data mining):从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。
数据分析平台(Data analyst platforms): 主要通过集成企业内部运营支撑系统和外部数据,包括交易型大数据(Big Transaction Data)和交互型大数据(Big Interaction Data),通过多种云计算的技术将之集成和处理,向企业内部和外部企业客户提供有极大商业价值的信息支撑和智能解决方案,基于大数据平台建设的数据仓库的基础上,提供报表工具,分析工具,结合企业的实际需求进行的解决方案实施服务;企业的管理人员、业务分析人员等可以通过web、手机或其它移动设备访问,以便随时了解企业的关键指标和进行深度业务分析。
分布式文件系统(Distributed File System):大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。
。
仪表板(Dashboard) :使用算法分析数据,并将结果用图表方式显示于仪表板中。
数据存取(Data access):是指数据库数据存贮组织和存贮路径的实现和维护。
数据传送(data transfer):是指在数据源和数据宿之间传送数据的过程,也称数据通信。
数据聚合工具(Data aggregation tools) :将分散于众多数据源的数据转化成一个全新数据源的过程。
数据库(Database) :一个以某种特定的技术来存储数据集合的仓库。
数据库管理系统(DBMS: Database Management System) :收集、存储数据,并提供数据的访问。
数据中心(Data centre) : 一个实体地点,放置了用来存储数据的服务器。
数据管理员(Data custodian) :负责维护数据存储所需技术环境的专业技术人员。
数据道德准则(Data ethical guidelines) :这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私。
数据订阅(Data feed) : 一种数据流,例如Twitter订阅和RSS。
数据集市(Data marketplace) :进行数据集买卖的在线交易场所。
数据建模(Data modelling) :使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。
数据集(Data set) :大量数据的集合。
数据虚拟化(Data virtualization) :数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。
去身份识别(De-identification) :也称为匿名化(anonymization),确保个人不会通过数据被识别。
判别分析(Discriminant analysis) :将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。
分布式文件系统(Distributed File System) :提供简化的,高可用的方式来存储、分析、处理数据的系统。
文件存贮数据库(Document Store Databases) 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。
数据治理(Data Governance) :数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
数据转换服务(Data Transfer Service): 主要用作在不同的数据库之间转换数据,比如在SQL Server和Oracle之间转换数据。
数据集成(Data integration):是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
E
ETL:ETL 代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。即使 ETL 源自数据仓库,但是这个过程在获取数据的时候也在被使用,例如,在大数据系统中从外部源获得数据。
企业级应用(Enterprise applications):其实是一个软件行业内部通用的一个术语。如果解释成通俗易懂的话来说,那就是一个企业范围内所使用的、基于计算机的稳定的、安全的和高效的分布式信息管理系统。
探索性分析(Exploratory analysis) :在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
E字节(EB: Exabytes):约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 EB。
提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。
企业生产力(Enterrrise productivity):企业在一定时期为社会提供某种产品或劳务的能力。
F
模糊逻辑(Fuzzy logic):我们有多少次对一件事情是确定的,例如 100% 正确?很稀少!我们的大脑将数据聚合成部分的事实,这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑。
故障切换(Failover) :当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上。
架构(Framework):又名软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。
流量监控(Flow monitoring): 流量监控指的是对数据流进行的监控,通常包括出数据、入数据的速度、总流量。微信用户可以在腾讯手机管家4.7上实现流量的精准监控。
容错设计(Fault-tolerant design) :一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行。
金融(Finance):是人们在不确定环境中进行资源跨期的最优配置决策的行为。
G
游戏化(Gamification) :在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。
图形数据库(Graph Databases) :运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。
网格计算(Grid computing) :将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。
H
Hadoop 用户体验(Hadoop User Experience /Hue):Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源接口。它是一款基于 web 的应用;它有一款分布式文件系统的文件浏览器;它有用于 MapReduce 的任务设计;它有能够调度工作流的框架 Oozie;它有一个 shell、一个 Impala、一个 Hive UI 以及一组 Hadoop API。
人力资本(Human capital):是指劳动者受到教育、培训、实践经验、迁移、保健等方面的投资而获得的知识和技能的积累,亦称“非物力资本”。
硬件设施(Hardware): 计算机系统中由电子,机械和光电元件等组成的各种物理装置的总称。
高性能分析应用(HANA):这是 SAP 公司为大数据传输和分析设计的一个软硬件内存平台。
HBase: 一个分布式的面向列的数据库。它使用 HDFS 作为其底层存储,既支持利用 MapReduce 进行的批量计算,也支持利用事物交互的批量计算。
Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。
Hadoop数据库(HBase) :一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。
分布式文件系统(Hadoop Distributed File System):是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
高性能计算(HPC: High-Performance-Computing) :使用超级计算机来解决极其复杂的计算问题。
部署在云上的Hadoop(Hadoop in the cloud):某些云解决方案完全基于某个特定服务,该服务将会加载并处理数据。例如,借助 IBM Bluemix,您可以基于 IBM InfoSphere BigInsights 配置一个 MapReduce 服务,该服务可以处理高达 20GB 的信息。但 Hadoop 服务的大小、配置与复杂性是不可配置的。其他基于服务的解决方案也提供同样类别的复杂性。
I
基础设施即服务(Infrastructure As a Service):消费者通过Internet 可以从完善的计算机基础设施获得服务。这类服务称为基础设施即服务。
基础设施即代码(Infrastructure As a Code):一种通过源代码就可以解析计算和网络架构的一种方式,然后就可以认为是任何一种软件系统。这些代码可以在源代码管理中被保存以确保可审性和再塑性,受限于测试实践和持续交付的所有准则。这是十几年前就被用在处理成长中的云计算平台的方法,也将会是日后处理计算架构的主要方式。
内存计算(In-memory computing):通常认为,任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统,它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。
物联网(IoT):最新的流行语就是物联网(IoT)。IoT 是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联,它们能够收发数据。物联网生成了海量的数据,带来了很多大数据分析的机遇。
内存数据库(IMDB: In-memory) :一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。
法律上的数据一致性(Juridical data compliance) :当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。
K
键值数据库(KeyValue Databases) :数据的存储方式是使用一个特定的键,指向一个特定的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。
L
负载均衡(Load balancing):为了实现最佳的结果和对系统的利用,将负载分发给多个计算机或者服务器。
延迟(Latency) :表示系统时间的延迟
日志分析( Log Analytics ):的详细信息,它是一种面向 IT 管理员的强大可视化和分析工具,可帮助他们轻松管理数据中心环境。
遗留系统(Legacy system) :是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。
位置信息(Location data) :GPS信息,即地理位置信息。
日志文件(Log file) :由计算机系统自动生成的文件,记录系统的运行过程。
M
元数据(Metadata):元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息,这使得查找和使用特定的数据实例变得更加容易。例如,作者、数据的创建日期、修改日期以及大小,这几项是基本的文档元数据。除了文档文件之外,元数据还被用于图像、视频、电子表格和网页。
MongoDB: 是一个面向文本数据模型的跨平台开源数据库,而不是传统的基于表格的关系数据库。这种数据库结构的主要设计目的是让结构化数据和非结构化数据在特定类型应用的整合更快、更容易。
Mashup:这个术语和我们在日常生活中使用的「mashup」一词有着相近的含义,就是混搭的意思。实质上,mashup 是一个将不同的数据集合并到一个单独应用中的方法(例如:将房地产数据与地理位置数据、人口数据结合起来)。这确实能够让可视化变得很酷。
多维数据库(Multi-Dimensional Databases):这是一个为了数据在线分析处理(OLAP)和数据仓库优化而来的数据库。如果你不知道数据仓库是什么,我可以解释一下,数据仓库不是别的什么东西,它只是对多个数据源的数据做了集中存储。
机器学习(Machine Learning):机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法,它们持续地逼近「正确的」行为和想法,随着更多的数据被输入到系统,它们能够进一步提升。
MapReduce: MapReduce 中,程序模型首先将大数据集分割成一些小块(这些小块拿技术术语来讲叫做「元组」,但是我描述的时候会尽量避免晦涩的技术术语),然后这些小块会被分发给不同位置上的不同计算机(也就是说之前描述过的集群),这在 Map 过程是必须的。然后模型会收集每个计算结果,并且将它们「reduce」成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件系统是分不开的。
M2M数据(Machine2Machine data) :两台或多台机器间交流与传输的内容
机器数据(Machine data) :由传感器或算法在机器上产生的数据
企业级市场(Marketing-B2B):即面对企业用户进行销售,营销和推广.
MapReduce :是处理大规模数据的一种软件框架(Map: 映射,Reduce: 归纳)。
大规模并行处理(MPP: Massively Parallel Processing) :同时使用多个处理器(或多台计算机)处理同一个计算任务。
电子商务市场(Marketing-B2C):是以信息网络技术为手段,以商品交换为中心的商务活动;也可理解为在互联网(Internet)、企业内部网(Intranet)和增值网(VAN,Value Added Network)上以电子交易方式进行交易活动和相关服务的活动,是传统商业活动各环节的电子化、网络化、信息化
MongoDB :一种开源的非关系型数据库(NoSQL database)
多值数据库(MultiValue Databases) :是一种非关系型数据库(NoSQL), 一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。
移动互联网(Mobile Internet):就是将移动通信和互联网二者结合起来,成为一体。是指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。
大规模并行处理(Massively Parallel Processor ):在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据 库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。
N
非关系型数据库( Not Only SQL):这个词听起来几乎就是「SQL,结构化查询语言」的反义词,SQL 是传统的关系型数据管理系统(RDBMS)必需的,但是 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」,纲要)的大量数据的数据库管理系统。NoSQL 适合大数据系统,因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。
自然语言处理(Natural Language Processing):自然语言处理是被设计来让计算机更加准确地理解人类日常语言的软件算法,能够让人类更加自然、更加有效地和计算机交互。
神经网络(Neural Network):神经网络是一个受生物学启发的非常漂亮的编程范式,它能够让计算机从观察到的数据中学习。已经好久没有一个人会说一个编程范式很漂亮了。实际上,神经网络就是受现实生活中脑生物学启发的模型....... 与神经网络紧密关联的一个术语就是深度学习。
深度学习(Deep learning):是神经网络中一系列学习技术的集合。
网络分析(Network analysis) :分析网络或图论中节点间的关系,即分析网络中节点间的连接和强度关系。
NewSQL: 一个优雅的、定义良好的数据库系统,比SQL更易学习和使用,比NoSQL更晚提出的新型数据库
NoSQL :顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。
O
对象数据库(Object Databases) :(也称为面象对象数据库)以对象的形式存储数据,用于面向对象编程。它不同于关系型数据库和图形数据库,大部分对象数据库都提供一种查询语言,允许使用声明式编程(declarative programming)访问对象.
开放源代码(Open source code):也称为源代码公开,指的是一种软件发布模式。一般的软件仅可取得已经过编译的二进制可执行档,通常只有软件的作者或著作权所有者等拥有程序的原始码。有些软件的作者会将原始码公开,此称之为“源代码公开”,但这并不一定符合“开放原代码”的定义及条件,因为作者可能会设定公开原始码的条件限制,例如限制可阅读原始码的对象、限制衍生品等。
办公自动化(Office Automation,简称OA):是将现代化办公和计算机技术结合起来的一种新型的办公方式。办公自动化没有统一的定义,凡是在传统的办公室中采用各种新技术、新机器、新设备从事办公业务,都属于办公自动化的领域。通过实现办公自动化,或者说实现数字化办公,可以优化现有的管理组织结构,调整管理体制,在提高效率的基础上,增加协同办公能力,强化决策的一致性 。
基于对象图像分析(Object-based Image Analysis) :数字图像分析方法是对每一个像素的数据进行分析,而基于对象的图像分析方法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。
操作型数据库(Operational Databases) :这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。
优化分析(Optimization analysis) :在产品设计周期依靠算法来实现的优化过程,在这一过程中,公司可以设计各种各样的产品并测试这些产品是否满足预设值。
本体论(Ontology) :表示知识本体,用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界)
异常值检测(Outlier detection) :异常值是指严重偏离一个数据集或一个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发生问题,需要对此另加分析。
P
模式识别(Pattern Recognition):当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。
规范性分析(Prescriptive Analytics):这里我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费(如食品、娱乐、衣物等等)可以对整体消费产生巨大影响,那么基于预测性分析(Predictive Analytics)的规范性分析法通过引入「动态指标(action)」(如减少食品或衣物或娱乐)以及对由此产生的结果进行分析来规定一个可以降低你整体开销的最佳消费项。你可以将它延伸到大数据领域,并想象一个负责人是如何通过观察他面前多种动态指标的影响,进而作出所谓由「数据驱动」的决策的。
P字节(PB: Petabytes) :约等于1000 TB(terabytes), 约等于1百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB
平台即服务(PaaS: Platform-as-a-Service) :为云计算解决方案提供所有必需的基础平台的一种服务
预测性分析法(Predictive Analytics):如果你对过去 5 年信用卡消费的历史进行了分析,发现每年的消费情况基本上呈现一个连续变化的趋势,那么在这种情况下你就可以高概率预测出:来年的消费状态应该和以往是类似的。这不是说我们在预测未来,而是应该理解为,我们在「用概率预测」可能发生什么事情。在大数据的预测分析中,数据科学家可能会使用先进的技术,如机器学习,和先进的统计学处理方法(这部分后面我们会谈到)来预测天气情况、经济变化等等。
隐私(Privacy):把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。
公共数据(Public data) :由公共基金创建的公共信息或公共数据集。
Q
数字化自我(Quantified Self) :使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为
查询(Query) :查找某个问题答案的相关信息
R
R 语言:这还有人能给一个编程语言起一个更加糟糕的名字吗?R 语言就是这样的语言。不过,R 语言是一个在统计工作中工作得很好的语言。如果你不知道 R 语言,别说你是数据科学家。因为 R 语言是数据科学中最流行的编程语言之一。
射频识别(Radio Frequency Identification/RFID):射频识别是一类使用非接触性无线射频电磁场来传输数据的传感器。随着物联网的发展,RFID 标签能够被嵌入到任何可能的「东西里面」,这能够生成很多需要被分析的数据。欢迎来到数据世界。
再识别(Re-identification) :将多个数据集合并在一起,从匿名化的数据中识别出个人信息
回归分析(Regression analysis) :确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)
射频识别(RFID) :这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
实时数据(Real-time data) :指在几毫秒内被创建、处理、存储、分析并显示的数据
推荐引擎(Recommendation engine) :推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
路径分析(Routing analysis) :针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的
S
流处理(Stream processing):流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来,流处理方法特别能够针对大规模数据的实时处理。
社交分析(Social analytics):指基于信息学、数学、社会学、管理学、心理学等多学科的融合理论和方法,为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。
结构化 vs 非结构化数据(Structured v Unstructured Data):这是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据,以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状态,以及人类语音等等。
软件即服务(SaaS):软件即服务让服务提供商把应用托管在互联网上。SaaS 提供商在云端提供服务。
半结构化数据(Semi-structured data):半结构化数据指的是那些没有以传统的方法进行格式化的数据,例如那些与传统数据库相关的数据域或者常用的数据模型。半结构化数据也不是完全原始的数据或者完全非结构化的数据,它可能会包含一些数据表、标签或者其他的结构元素。半结构化数据的例子有图、表、XML 文档以及电子邮件。半结构化数据在万维网上十分流行,在面向对象数据库中经常能够被找到。
存储(Storage):一方面它是数据临时或长期驻留的物理媒介;另一方面,它是保证数据完整安全存放的方式或行为。存储就是把这两个方面结合起来,向客户提供一套数据存放解决方案。
内存数据流(Streaming/in memory):是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看到的图象十分平稳,而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。这在目前大多数用户因接入瓶颈而不具备快速下载大型多媒体文件的情况下尤为重要。
情感分析(Sentiment Analysis):情感分析涉及到了对消费者在社交媒体、顾客代表电话访谈和调查中存在的多种类型的交互和文档中所表达的情感、情绪和意见的捕捉、追踪和分析。文本分析和自然语言处理是情感分析过程中的典型技术。情感分析的目标就是要辨别或评价针对一个公司、产品、服务、人或者时间所持有的态度或者情感。
网络安全(Security):是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。
销售量(Sales):是指企业在一定时期内实际促销出去的产品数量。
空间分析(Spatial analysis):空间分析指的是对空间数据作出分析,以识别或者理解分布在几何空间中的数据的模式和规律,这类数据有几何数据和拓扑数据。
智能数据(Smart Data):是经过一些算法处理之后有用并且可操作的数据。
Terabyte:这是一个相对大的数字数据单位,1TB 等于 1000GB。据估计,10TB 能够容纳美国国会图书馆的所有印刷品,而 1TB 则能够容纳整个百科全书 Encyclopedia Brittanica。
Spark(Apache Spark):Apache Spark 是一个快速的内存数据处理引擎,它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会比我们前面讨论过的 MapReduce 快好多。
半结构化数据(Semi-structured data):半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构
信号分析(Signal analysis):指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。
相似性搜索(Similarity searches):在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据
仿真分析(Simulation analysis):仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优
智能网格(Smart grid):是指在能源网中使用传感器实时监控其运行状态,有助于提高效率
SQL :在关系型数据库中,用于检索数据的一种编程语言
结构化数据(Structured data):可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。
搜索(Search Engines):它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息,它包括信息搜集、信息整理和用户查询三部分。目前常用的网络搜索引擎有百度,Google,我爱读,搜狐,雅虎,必应,好书搜索,有道,中搜,搜搜,搜客等。
T
T字节(TB: Terabytes):约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。
时序分析(Time series analysis):分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。
拓扑数据分析(Topological Data Analysis) :拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。
交易数据(Transactional data):随时间变化的动态数据
透明性(Transparency):消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。
U
非结构化数据(Un-structured data):非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。
V
数据可视化(Visualization):有了合理的可视化之后,原始数据就能够使用了。当然这里的可视化并不止简单的图表。而是能够包含数据的很多变量的同时还具有可读性和可理解性的复杂图表。
价值(Value) :(译者注:大数据4V特点之一) 所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
可变性(Variability):也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。
多样(Variety):(译者注:大数据4V特点之一) 数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据
高速(Velocity):(译者注:大数据4V特点之一) 在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。
真实性(Veracity):组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。
可视化(Visualization):只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。
大量(Volume):(译者注:大数据4V特点之一) 指数据量,范围从Megabytes至Brontobytes
W
天气数据(Weather data):是一种重要的开放公共数据来源,如果与其他数据来源合成在一起,可以为相关组织机构提供深入分析的依据
网页(web):构成网站的基本元素,是承载各种网站应用的平台。通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站。
X
XML数据库(XML Databases) : XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联,开发人员可以对XML数据库的数据进行查询,导出以及按指定的格式序列化
Y
Yottabytes:接近 1000 Zettabytes,或者 2500 万亿张 DVD。现在所有的数字存储大概是 1 Yottabyte,而且这个数字每 18 个月会翻一番。
Y字节 (Yottabytes):约等于1000 ZB (Zettabytes), 约等于250万亿张DVD的数据容量。现今,整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。
Z
Z字节 (ZB: Zettabytes):约等于1000 EB (Exabytes), 约等于1百万 TB。据预测,到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。
限时干货下载
Step 1:长按下方二维码,添加微信公众号“数据玩家「fbigdata」”
Step 2:回复【2】免费获取完整数据分析资料「包括SPSS\SAS\SQL\EXCEL\Project!」