thumbnail
06-05 模块5-jieba库的使用
一、jieba库基本介绍 1.1 jieba库概述 jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 1.2 jieba库的安装 pip install jieba(cmd命令行) 1.3 jieba分词的原理 Jieba分…
thumbnail
06-06 实例10-文本词频统计
一、"文本词频统计"问题分析 1.1 问题分析 文本词频统计 需求:一篇文章,出现了哪些词?哪些词出现得最多? 该怎么做呢? 英文文本 --> 中文文本 英文文本:Hamlet 分析词频 中文文本:《三国演义》 分析人物 二、"Hamlet英文词频统计"实例讲解 文本去噪及归一化 使用字典表达词频 # …
thumbnail
06-07 组合数据类型小结
一、数字类型及操作 整数类型的无限范围及4种进制表示 浮点数类型的近似无限范围、小尾数及科学计数法 +、-、*、/、//、%、**、二元增强赋值操作符 abs()、divmod()、pow()、round()、max()、min() int()、float()、complex() # DayDayUpQ3.py dayup = 1.0 dayfac…
Copyright © 2022 Egon的技术星球 egonlin.com 版权所有 沪ICP备2022009235号 沪公网安备31011802005110号 青浦区尚茂路798弄 联系方式-13697081366