分析1880到2017年出生的美国婴儿姓名
- 获取数据
- 数据规整
- 分析数据
1、获取数据
2、数据规整
因为获取到的数据是根据出生年份分为了多个文件,其中文件内部的数据也是简单的通过逗号分隔而成的,所以需要规整一下:
通过以上操作就可以将所有的数据文件合并为一个数据集,接下来就可以进行具体的数据分析
3、分析数据
有了以上数据集就可以利用他们完成很多工作,例如:
接下来就主要以以上几种方式进行分析,有其他方案也可以自己添加
3.1、以性别和出生年份分析总出生数
链接:https://pan.baidu.com/s/1wIyRZfgR7EjQ_KFP5-cnaA 提取码:g0zy
因为获取到的数据是根据出生年份分为了多个文件,其中文件内部的数据也是简单的通过逗号分隔而成的,所以需要规整一下:
years = range(1880,2018) pieces = [] columns = ['name','sex','births'] # 字段参数 for year in years: path = "D:\\data\\names\\yob%s.txt"%year # 加入自己相应的文件路径 frame = pd.read_csv(path,names=columns) frame['year'] = year # 添加出生年份列 pieces.append(frame) names = pd.concat(pieces,,ignore_index=True) # 合并数据集,ignore_index=True删除原索引,生成新索引
通过以上操作就可以将所有的数据文件合并为一个数据集,接下来就可以进行具体的数据分析
有了以上数据集就可以利用他们完成很多工作,例如:
1、以性别和出生年份分析总出生数 2、分析命名趋势 3、分析名字中最后一个字母的变化趋势
接下来就主要以以上几种方式进行分析,有其他方案也可以自己添加
3.1、以性别和出生年份分析总出生数