专栏名称: 数盟
数盟(数据科学家联盟)隶属于北京数盟科技有限公司,数盟致力于成为培养与发现“数据科学家”的黄埔军校。 数盟服务包括:线下活动、大数据培训。 官网:http://dataunion.org,合作:[email protected]
目录
相关文章推荐
学习强国  ·  我国将建100个以上可信数据空间 ·  昨天  
学习强国  ·  我国将建100个以上可信数据空间 ·  昨天  
数据派THU  ·  一文解读:时序基础模型的缩放定律 ·  6 天前  
大数据分析和人工智能  ·  裁员了,很严重,大家做好准备吧! ·  5 天前  
CDA数据分析师  ·  【干货】竞品分析怎么写?戳此了解深度指南! ·  5 天前  
软件定义世界(SDX)  ·  【PPT】Gartner:2025年重要战略 ... ·  1 周前  
51好读  ›  专栏  ›  数盟

2017开源大调查:每天在Github上默默贡献的都是什么人

数盟  · 公众号  · 大数据  · 2017-06-13 21:59

正文

【新智元导读】在今天的数字世界中,开源软件几乎为现代社会和经济的全部赋能。了解构建,维护和使用这些开源项目的人员对于关心开源的可持续发展的任何人,以及依赖于这些项目的关键服务和技术网络都是至关重要的。这项调查的目的是为有关开源社区的的一系列主题提供高质量的数据,并为今后的研究提供信息。

本开源调查是GitHub的一个开放数据项目,合作者来自学术界,工业界,以及开源社区。


概述

GitHub与来自学术界,工业界和开源社区的研究人员合作,设计了这个调查,收集了关于开源软件开发实践和社区的高质量、最新数据。

数据来源于GitHub.com上超过3800个开放源代码存储库的5500名随机抽样调查对象的回答,以及500多个来自其他平台的非随机抽样调查的回答。

调查的结果是一个有关使用、建立和维护开源软件的用户的态度、经验和背景的开放数据集。

深入了解本年度的调查包含50多个问题,涵盖了广泛的话题。以下,我们摘取了有关社区的可执行度最高,也最重要的一些见解。

下文的数据仅包含来自GitHub.com上的开源存储库的随机样本。百分比是四舍五入的,可能总和不是100。

文档很重要,但经常被忽视,也是建立包容、易于使用的社区的一种手段。

负面的互动不常见,但很突兀,对项目的活动有影响。

开源代码是全世界可使用的,但相比受众群体的广泛程度,其贡献者相对不那么广泛。

开源的使用和贡献通常是在工作中发生。

选择软件时,默认选开源软件。

文档很重要,但经常被忽视

文档有助于指导新用户:如何使用项目,如何贡献,使用和贡献的条款,以及社区的行为标准等。改进文档是回馈开源的一个很好的方式。

93%的受访者表示,不完整或过时的文档是一个普遍存在的问题,但60%的贡献者表示很少或从未对文档做出贡献。当你遇到文档问题时,请发起一个 pull quest 来帮助改进文档。

许多人在工作中参与开源,因此对使用条款的信赖至关重要。毫不奇怪,到目前为止许可证书对用户和贡献者来说都是最重要的文档类型:64%的用户认为开源许可对他们决定是否使用该项目非常重要,67%的用户认为在决定是否提供贡献方面非常重要。

文档对创建包容性的社区有帮助。明确说明一个项目的进度的文档,例如贡献指南和行为准则,对在开源中参与不足的群体(例如女性群体)更加重要。

近四分之一的开放社区用户在英语的读写方面不是畅通无阻的。因此在针对项目进行沟通时,请对非英语母语者或读写障碍者使用清晰易懂的语言。

图1:使用开源时遇到的问题

负面的互动不常见,但很突兀,对项目的活动有影响

开源社区有来自世界各地的人,因此可能导致冲突。虽然严重的冲突事件很罕见,但开源的公开性质使得负面的相互作用非常突兀。

因此,负面影响的可能远不止直接参与的个人。对用户行为提出积极的建议,并迅速解决负面事件,可以增加贡献者的参与和协作。

18%的受访者亲自与其他开源使用者产生过负面的互动,但有50%的受访者亲眼目睹过其他人的冲突。从这些数据我们无法得知,这两个数字的差距是否是因为经历过这种冲突的用户离开了开源社区,或只是因为冲突广泛存在,因此目睹者多。无论哪种,都是受负面互动影响者比直接参与冲突者多,所以快速、礼貌并且公开地解决这类问题,也是在向潜在的目睹者发送了一个信号,即这种行为不是普遍的,而且是不能容忍的。

到目前为止,最常见的不良行为是粗鲁言语的(45%目睹过,16%经历过),其次是辱骂(20%目睹过,5%经历过)和成见(11%目睹过,3%经历过)。不到5%的受访者遇到更严重的负面事件,例如性骚扰或跟踪,经历者不到2%(但累计目睹者为14%,经历过的3%)。

负面经历对项目健康发展有严重的后果。21%的经历过或目睹过负面行为的受访者表示,由于这种情况,他们停止了对项目的贡献,8%的人变得更喜欢在私人渠道贡献。

提供能让人直接解决问题的工具是解决骚扰问题的最有效方法。屏蔽一个用户相比求助第三方来强制处理更有效。要提供给用户能够保护自己的工具。

图2:在开源中遇到的负面行为

相比使用者之广泛程度,开源的贡献者相对不那么广泛

开源为全球用户提供了技术基础。在某些方面,用户群体的多样性甚至超过开源贡献者,但在其他方面,代表性仍存在巨大差距。

提高项目的可访问性能够吸引更多的贡献,确保该项技术提供一整套使用示例和需求,并有助于更好地代表技术工作。

开源的性别不平衡仍然很深刻:95%的受访者是男性;只有3%是女性,1%是非二元性别。女性受访者与男性表示对在将来贡献开源的兴趣相当(68%vs 73%),但女性更少表示能够实际做到(45%vs 61%)。

其他方面则更具代表性:受访者中1%的受访者为跨性别者(其中9%是女性),7%是女同性恋,男同性恋,双性恋者,无性恋者或其他少数性取向者。26%是移民,16%是少数民族者。

女性比男性更容易遭遇不友好的语言或内容(25%vs 15%),成见(12%vs 2%)和性骚扰(6%vs 3%)。不意外的是,女性比男性更可能直接寻求帮助(29%vs 13%),寻求帮助的对象更多是他们熟悉的人,而非在公共论坛或渠道寻求陌生人的帮助(22%vs 6%)。尽管陌生人之间的合作是开源最具魅力的方面之一:努力建立一个所有人都感到自己的参与是受欢迎的的社区。

一半的贡献者表示,他们的开源工作在他们当前的职业方面有一些作用,或非常重要。开源工作有助于人们建立自己的专业信誉。

图3:对项目来说重要的方面

开源的使用和贡献通常是在工作中发生

开源广泛发生于专业领域。大多数受访者在工作中使用和贡献开源,许多人表示他们的开源工作对于获得当前的工作有重要作用。

不过,多数受访者表示,雇主的官方政策和IP协议对于什么内容,在什么条件下是允许的并不明确。企业通过对员工的开源工作提供补贴,这对开源社区有关键作用,因此制定和传达明确的政策可以鼓励员工更频繁,定期的贡献。

70%的受访者是全职或兼职工作者,其中85%的受访者经常或偶尔在他们的主要工作中以某种方式贡献开源(例如开发者,设计师,以及软件行业的其他角色)。

几乎所有(94%)的有工作者至少是偶尔在他们的专业工作中使用开源(81%经常使用),65%将贡献开源作为工作职责的一部分。

多数受访者表示,他们的雇主接受或鼓励使用开源应用程序(82%)和依赖代码库(84%),但有些受访者表示,雇主对使用开源的政策不明确(应用程序:13%,依赖代码库: 11%)。

近一半受访者表示他们的雇主知识产权政策允许他们在未经允许的情况下(47%)为开源做贡献,另外12%的受访者可以获得许可来贡献开源。但是,28%的受访者表示知识产权政策不明确,另有9%的人不了解知识产权协议对贡献开源的要求。

图4:与开源相关的雇主政策

选择软件时,默认选开源软件

选择新软件时对安全性的要求较高,大多数用户认为开源软件普遍比专有软件更安全。在稳定性或用户体验方面,开源软件较弱。即使如此,大多数用户都喜欢开源,并总是寻找开源的选择。

开源的相对优势在于安全性:使用任何类型的软件,安全性是最重要的考虑(86%非常重要或相当重要)。安全性是我们调查的唯一维度,大多数用户认为开源软件通常比专有软件更安全(58%)。

用户还关心的是稳定性和用户体验(88%非常重要,75%相当重要),但在这些维度上,较少的人认为开源有优势:只有36%的用户认为体验更好,但30%认为开源软件通常比专有选项更稳定。

尽管有这些权衡,用户仍然喜欢开源。72%的受访者表示,他们在评估新工具时总是会寻找有开源的选择。

图5:用户在意开源软件的什么特征

数据

本开源调查是一个开放数据项目。你可以在这里下载数据:

http://github-images.s3.amazonaws.com/open-source-survey/data_for_public_release.zip

本调查的目标

在今天的数字世界中,开源软件几乎为现代社会和经济的全部赋能。了解构建,维护和使用这些开源项目的人员对于关心开源的可持续发展的任何人,以及依赖于这些项目的关键服务和技术网络都是至关重要的。

这项调查的目的是为有关开源社区的的一系列主题提供高质量的数据,并为今后的研究提供信息:

提供高质量的数据,帮助了解有关开源工作,工具和社区的决策。

帮助用户,贡献者,维护者和其他利益相关方在动机,经验和需求方面相互理解。

有助于更多公众了解现代全球经济所依赖的公共物品供给的一种独特组织系统。




媒体合作请联系:

邮箱:[email protected]