专栏名称: Linux中国
十万级技术订阅号,依托于『Linux中国』(https://linux.cn/)社区,专注于 Linux 学习、技术研究、开源思想传播。
目录
相关文章推荐
51好读  ›  专栏  ›  Linux中国

构建你的数据科学作品集:用数据讲故事(下)

Linux中国  · 公众号  · linux  · 2017-10-23 09:34

正文

数据科学公司们在决定雇佣一个人时越来越看重其作品集。其中一个原因就是作品集是分析一个人真实技能的最好方式。
-- Vik Paruchuri


本文导航
编译自 | https://www.dataquest.io/blog/data-science-portfolio-project/
作者 | Vik Paruchuri
译者 | Yoo-4x

这是如何建立 数据科学作品集 Data Science Portfolio 系列文章中的第一篇。如果你喜欢这篇文章并且想知道此系列的下一篇文章何时发表,你可以 在页面底部订阅 [1]

(接上篇)

计算变量

计算变量可以通过使我们的比较更加快速来加快分析速度,并且能使我们做到本无法做到的比较。我们能做的第一件事就是从分开的列 SAT Math Avg. Score SAT Critical Reading Avg. Score SAT Writing Avg. Score 计算 SAT 成绩:

◈ 将 SAT 列数值从字符转化为数字。
◈ 将所有列相加以得到 sat_score ,即 SAT 成绩。

In [72]:

  1. cols = ['SAT Math Avg. Score', 'SAT Critical Reading Avg. Score', 'SAT Writing Avg. Score']

  2. for c in cols:

  3.    data["sat_results"][c] = data["sat_results"][c].convert_objects(convert_numeric=True)

  4. data['sat_results']['sat_score'] = data['sat_results' ][cols[0]] + data['sat_results'][cols[1]] + data['sat_results'][cols[2]]

接下来,我们将需要进行每所学校的坐标位置分析,以便我们制作地图。这将使我们画出每所学校的位置。在下面的代码中,我们将会:

◈ 从 Location 1 列分析出经度和维度。
◈ 转化 lat (经度)和 lon (维度)为数字。

In [73]:

  1. data["hs_directory"]['lat'] = data["hs_directory"]['Location 1'].apply(lambda x: x.split("\n")[-1].replace("(", "").replace(")", "").split(", ")[0])

  2. data["hs_directory"]['lon'] = data["hs_directory"]['Location 1'].apply(lambda x: x.split("\n")[-1].replace("(", "").replace(")", "").split(", ")[1])

  3. for c in ['lat', 'lon']:

  4.    data["hs_directory"][c] = data[ "hs_directory"][c].convert_objects(convert_numeric=True)

现在,我们将输出每个数据集来查看我们有了什么数据:

In [74]:

  1. for k,v in data.items():

  2.    print(k)

  3.    print(v.head())

  1. math_test_results

  2.        DBN Grade  Year      Category  Number Tested Mean Scale Score  \

  3. 111  01M034     8  2011  All Students             48              646

  4. 280  01M140     8  2011  All Students             61              665

  5. 346  01M184     8  2011  All Students             49              727

  6. 388  01M188     8  2011  All Students             49              658

  7. 411  01M292     8  2011  All Students             49              650

  8.    Level 1 # Level 1 % Level 2 # Level 2 % Level 3 # Level 3 % Level 4 #  \

  9. 111        15     31.3%        22     45.8%        11     22.9%         0

  10. 280         1      1.6%        43     70.5%        17     27.9%         0

  11. 346         0        0%         0        0%         5     10.2%        44

  12. 388        10     20.4%        26     53.1%        10     20.4%         3

  13. 411        15     30.6%        25       51%         7     14.3%         2

  14.    Level 4 % Level 3+4 # Level 3+4 %

  15. 111        0%          11       22.9%

  16. 280        0%          17       27.9%

  17. 346     89.8%          49        100%

  18. 388      6.1%          13       26.5%

  19. 411      4.1%           9       18.4%

  20. survey

  21.      DBN  rr_s  rr_t  rr_p    N_s   N_t    N_p  saf_p_11  com_p_11  eng_p_11  \

  22. 0  01M015   NaN    88    60    NaN  22.0   90.0       8.5       7.6       7.5

  23. 1  01M019   NaN   100    60    NaN  34.0  161.0       8.4       7.6       7.6

  24. 2  01M020   NaN    88    73    NaN  42.0  367.0       8.9       8.3       8.3

  25. 3  01M034  89.0    73    50  145.0  29.0  151.0       8.8       8.2       8.0

  26. 4  01M063   NaN   100    60    NaN  23.0   90.0       8.7       7.9       8.1

  27.      ...      eng_t_10  aca_t_11  saf_s_11  com_s_11  eng_s_11  aca_s_11  \

  28. 0     ...           NaN       7.9       NaN       NaN       NaN       NaN

  29. 1     ...           NaN       9.1       NaN       NaN       NaN       NaN

  30. 2     ...           NaN       7.5       NaN       NaN       NaN       NaN

  31. 3     ...           NaN       7.8       6.2       5.9       6.5       7.4

  32. 4     ...           NaN       8.1       NaN       NaN       NaN       NaN

  33.   saf_tot_11  com_tot_11  eng_tot_11  aca_tot_11

  34. 0         8.0         7.7         7.5         7.9

  35. 1         8.5         8.1         8.2         8.4

  36. 2         8.2         7.3         7.5         8.0

  37. 3         7.3         6.7         7.1         7.9

  38. 4         8.5         7.6         7.9         8.0

  39. [5 rows x 23 columns]

  40. ap_2010

  41.      DBN                             SchoolName AP Test Takers   \

  42. 0  01M448           UNIVERSITY NEIGHBORHOOD H.S.              39

  43. 1  01M450                 EAST SIDE COMMUNITY HS              19

  44. 2  01M515                    LOWER EASTSIDE PREP              24

  45. 3  01M539         NEW EXPLORATIONS SCI,TECH,MATH             255

  46. 4  02M296  High School of Hospitality Management               s

  47.   Total Exams Taken Number of Exams with scores 3 4 or 5

  48. 0                49                                   10

  49. 1                21                                    s

  50. 2                26                                   24

  51. 3               377                                  191

  52. 4                 s                                    s

  53. sat_results

  54.      DBN                                    SCHOOL NAME  \

  55. 0  01M292  HENRY STREET SCHOOL FOR INTERNATIONAL STUDIES

  56. 1  01M448            UNIVERSITY NEIGHBORHOOD HIGH SCHOOL

  57. 2  01M450                     EAST SIDE COMMUNITY SCHOOL

  58. 3  01M458                      FORSYTH SATELLITE ACADEMY

  59. 4  01M509                        MARTA VALLE HIGH SCHOOL

  60.  Num of SAT Test Takers  SAT Critical Reading Avg. Score  \

  61. 0                     29                            355.0

  62. 1                     91                            383.0

  63. 2                     70                            377.0

  64. 3                      7                            414.0

  65. 4                     44                            390.0

  66.   SAT Math Avg. Score  SAT Writing Avg. Score  sat_score

  67. 0                404.0                   363.0     1122.0

  68. 1                423.0                   366.0     1172.0

  69. 2                402.0                   370.0     1149.0

  70. 3                401.0                   359.0     1174.0

  71. 4                433.0                   384.0     1207.0

  72. class_size

  73.      DBN  CSD  NUMBER OF STUDENTS / SEATS FILLED  NUMBER OF SECTIONS  \

  74. 0  01M292    1                            88.0000            4.000000

  75. 1  01M332    1                            46.0000            2.000000

  76. 2  01M378    1                            33.0000            1.000000

  77. 3  01M448    1                           105.6875            4.750000

  78. 4  01M450    1                            57.6000            2.733333

  79.   AVERAGE CLASS SIZE  SIZE OF SMALLEST CLASS  SIZE OF LARGEST CLASS  \

  80. 0           22.564286                   18.50              26.571429

  81. 1           22.000000                   21.00              23.500000

  82. 2           33.000000                   33.00              33.000000

  83. 3           22.231250                   18.25              27.062500

  84. 4           21.200000                   19.40              22.866667

  85.   SCHOOLWIDE PUPIL-TEACHER RATIO

  86. 0                             NaN

  87. 1                             NaN

  88. 2                             NaN

  89. 3                             NaN

  90. 4                             NaN

  91. demographics

  92.       DBN                                              Name  schoolyear  \

  93. 6   01M015  P.S. 015 ROBERTO CLEMENTE                           20112012

  94. 13  01M019  P.S. 019 ASHER LEVY                                 20112012

  95. 20  01M020  PS 020 ANNA SILVER                                  20112012

  96. 27  01M034  PS 034 FRANKLIN D ROOSEVELT                         20112012

  97. 35  01M063  PS 063 WILLIAM MCKINLEY                             20112012

  98.   fl_percent  frl_percent  total_enrollment prek    k grade1 grade2  \

  99. 6         NaN         89.4               189   13   31     35     28

  100. 13        NaN         61.5               328   32   46     52     54

  101. 20        NaN         92.5               626   52  102    121     87

  102. 27        NaN         99.7               401   14   34     38     36

  103. 35        NaN         78.9               176   18   20     30     21

  104.       ...     black_num black_per hispanic_num hispanic_per white_num  \

  105. 6     ...            63      33.3          109         57.7         4

  106. 13    ...            81      24.7          158         48.2        28

  107. 20    ...            55       8.8          357         57.0        16

  108. 27    ...            90      22.4          275         68.6         8

  109. 35    ...            41      23.3          110         62.5        15

  110.   white_per male_num male_per female_num female_per

  111. 6        2.1     97.0     51.3       92.0       48.7

  112. 13       8.5    147.0     44.8      181.0       55.2

  113. 20       2.6    330.0     52.7      296.0       47.3

  114. 27       2.0    204.0     50.9      197.0       49.1

  115. 35       8.5     97.0     55.1       79.0       44.9

  116. [5 rows x 38 columns]

  117. graduation

  118.     Demographic     DBN                            School Name Cohort  \

  119. 3   Total Cohort  01M292  HENRY STREET SCHOOL FOR INTERNATIONAL   2006

  120. 10  Total Cohort  01M448    UNIVERSITY NEIGHBORHOOD HIGH SCHOOL   2006

  121. 17  Total Cohort  01M450             EAST SIDE COMMUNITY SCHOOL   2006

  122. 24  Total Cohort  01M509                MARTA VALLE HIGH SCHOOL   2006

  123. 31  Total Cohort  01M515  LOWER EAST SIDE PREPARATORY HIGH SCHO   2006

  124.     Total Cohort Total Grads - n Total Grads - % of cohort Total Regents - n  \

  125. 3             78              43                     55.1%                36

  126. 10           124              53                     42.7%                42

  127. 17            90              70                     77.8%                67

  128. 24            84              47                       56%                40

  129. 31           193             105                     54.4%                91

  130.   Total Regents - % of cohort Total Regents - % of grads  \

  131. 3                        46.2%                      83.7%

  132. 10                       33.9%                      79.2%

  133. 17         74.400000000000006%                      95.7%

  134. 24                       47.6%                      85.1%

  135. 31                       47.2%                      86.7%

  136.               ...            Regents w/o Advanced - n  \

  137. 3             ...                                  36

  138. 10             ...                                  34

  139. 17            ...                                  67

  140. 24            ...                                  23

  141. 31            ...                                  22

  142.   Regents w/o Advanced - % of cohort Regents w/o Advanced - % of grads  \

  143. 3                               46.2%                             83.7%

  144. 10                              27.4%                             64.2%

  145. 17                74.400000000000006%                             95.7%

  146. 24                              27.4%                             48.9%

  147. 31                              11.4%                               21%

  148.   Local - n Local - % of cohort Local - % of grads Still Enrolled - n  \

  149. 3          7                  9%              16.3%                 16

  150. 10        11                8.9%              20.8%                 46

  151. 17         3                3.3%               4.3%                 15

  152. 24         7  8.300000000000001%              14.9%                 25

  153. 31        14                7.3%              13.3%                 53

  154.   Still Enrolled - % of cohort Dropped Out - n Dropped Out - % of cohort

  155. 3                         20.5%              11                     14.1%

  156. 10                        37.1%              20       16.100000000000001%

  157. 17                        16.7%               5                      5.6%

  158. 24                        29.8%               5                        6%

  159. 31                        27.5%              35       18.100000000000001%

  160. [5 rows x 23 columns]

  161. hs_directory

  162.      dbn                                        school_name       boro  \

  163. 0  17K548                Brooklyn School for Music & Theatre   Brooklyn

  164. 1  09X543                   High School for Violin and Dance      Bronx

  165. 2  09X327        Comprehensive Model School Project M.S. 327      Bronx

  166. 3  02M280     Manhattan Early College School for Advertising  Manhattan

  167. 4  28Q680  Queens Gateway to Health Sciences Secondary Sc...     Queens

  168.  building_code    phone_number    fax_number grade_span_min  grade_span_max  \

  169. 0          K440    718-230-6250  718-230-6262              9              12

  170. 1          X400    718-842-0687  718-589-9849              9              12

  171. 2          X240    718-294-8111  718-294-8109              6              12

  172. 3          M520  718-935-3477             NaN              9              10

  173. 4          Q695    718-969-3155  718-969-3552              6              12

  174.  expgrade_span_min  expgrade_span_max    ...      \

  175. 0               NaN                NaN    







请到「今天看啥」查看全文


推荐文章
考研英语时事阅读  ·  【经济学人】海水有多热? | 2016.12.17 | 总第769期
8 年前
每日健康知识  ·  最美的不是风景,而是感情
7 年前
中国安全生产网  ·  职业病前期预防知识,速来学习!
7 年前