实战练习


分析1880到2017年出生的美国婴儿姓名


  • 获取数据
  • 数据规整
  • 分析数据

1、获取数据

链接:https://pan.baidu.com/s/1wIyRZfgR7EjQ_KFP5-cnaA 
提取码:g0zy 

2、数据规整

因为获取到的数据是根据出生年份分为了多个文件,其中文件内部的数据也是简单的通过逗号分隔而成的,所以需要规整一下:

years = range(1880,2018)
pieces = []
columns = ['name','sex','births']  # 字段参数
for year in years:
    path = "D:\\data\\names\\yob%s.txt"%year  # 加入自己相应的文件路径
    frame = pd.read_csv(path,names=columns)
    frame['year'] = year  # 添加出生年份列
    pieces.append(frame)  
names = pd.concat(pieces,,ignore_index=True)  # 合并数据集,ignore_index=True删除原索引,生成新索引

通过以上操作就可以将所有的数据文件合并为一个数据集,接下来就可以进行具体的数据分析

3、分析数据

有了以上数据集就可以利用他们完成很多工作,例如:

1、以性别和出生年份分析总出生数
2、分析命名趋势
3、分析名字中最后一个字母的变化趋势

接下来就主要以以上几种方式进行分析,有其他方案也可以自己添加

3.1、以性别和出生年份分析总出生数

联系管理员微信tutu19192010,注册账号

上一篇
下一篇
Copyright © 2022 Egon的技术星球 egonlin.com 版权所有 帮助IT小伙伴学到真正的技术