实战练习 – Egon林海峰

分析1880到2017年出生的美国婴儿姓名

获取数据
数据规整
分析数据

1、获取数据

链接：https://pan.baidu.com/s/1wIyRZfgR7EjQ_KFP5-cnaA 
提取码：g0zy

2、数据规整

因为获取到的数据是根据出生年份分为了多个文件，其中文件内部的数据也是简单的通过逗号分隔而成的，所以需要规整一下：

years = range(1880,2018)
pieces = []
columns = ['name','sex','births']  # 字段参数
for year in years:
    path = "D:\\data\\names\\yob%s.txt"%year  # 加入自己相应的文件路径
    frame = pd.read_csv(path,names=columns)
    frame['year'] = year  # 添加出生年份列
    pieces.append(frame)  
names = pd.concat(pieces,，ignore_index=True)  # 合并数据集，ignore_index=True删除原索引，生成新索引

通过以上操作就可以将所有的数据文件合并为一个数据集，接下来就可以进行具体的数据分析

3、分析数据

有了以上数据集就可以利用他们完成很多工作，例如：

1、以性别和出生年份分析总出生数
2、分析命名趋势
3、分析名字中最后一个字母的变化趋势

接下来就主要以以上几种方式进行分析，有其他方案也可以自己添加

3.1、以性别和出生年份分析总出生数

联系管理员微信tutu19192010，注册账号

Forgotten username or password?

分析1880到2017年出生的美国婴儿姓名

1、获取数据

2、数据规整

3、分析数据

3.1、以性别和出生年份分析总出生数

查看更多