个人中心

登录 | 注册

咨询/预约我的订单我的网课我的问答我的评价我的权益浏览记录我的收藏
机构中心

教培机构
教培机构入驻教育宝平台、搭建私域流量运营系统或购买百度知了好学

查看详情登录后台

网课机构
录播课程和知识付费机构入驻教育宝网课平台

查看详情登录后台

基础教育学校
公立私立幼儿园、中小学、职业学校入驻教育宝学校库

查看详情登录后台

课外活动机构
研学、周末活动、冬夏令营机构入驻研学活动子平台

查看详情登录后台

行家
各细分领域的资深老师、顾问、规划师等从业者入驻教育宝行家平台

查看详情申请合作
平台客服
- 400-601-2788

北京CDA数据分析师

用AI让优质的教育人人可得

数据分析师老师直接接听

400-029-09** 转 18827

查看完整号码

扫码拨号

微信扫码拨号

录播课+直播课+面授课

Python爬虫及文本分析学术应用

40课时课时 | 任意时段班型 | 小班上课

线上录播

线上直播

线下面授

课程学费：一键咨询更多打折优惠课程获取报价

上课校区： 3个 (上地十街,高粱桥斜街59号,厂洼街校区) 详情 

免费预约

权益领取成功，请尽快到机构使用 权益详情可在 [个人中心-我的权益] 中查看

我知道了

课程内容

Python爬虫及文本分析学术应用

课程亮点

专业指导

适用人群

零基础学员

目标收获

Python爬虫及文本分析学术应用

课程介绍

课程亮点：

本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程，我们期望课程可以帮助到广大的用户，包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。

学习目标：

不再单一依靠开源公开数据网站的数据，适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖，能够从更多元的渠道获取数据，使用python更高效的处理数据，并用更前沿的技术分析和挖掘数据信息，为我们的科研工作减轻中间工作负担。

课程内容：

01章概述爬虫与文本分析概述

01-01结构化数据/文本数据的获取方法概述

01-02高效的编程语言实现结构化数据处理与文本分析的价值

02章编程基础

02-01python编程基础（标准数据类型，控制流，自定义函数，类，os文件处理模块）

02-02python重要数据科学计算库（Numpy，Pandas，Matplotlib，Pyecherts，wordcloud）

03章数据获取

03-01爬虫基础（网络爬虫简介，爬虫的基本原理，HTML 简介，数据存储）

03-02网页抓取（使用 Urllib网页抓取，requests实战）

03-03BeautifulSoup4（简介，安装，BS 对象的种类，遍历文档树，搜索文档树）

03-04Xpath（什么是Xpath，Xpath开发工具，Xpath常用规则）

03-05动态渲染页面抓取（Selenium的安装，基本使用，声明浏览器对象，访问页面，定位元素，节点交互，动作链，执行 JavaScript，获取节点信息，延时等待，前进后退，Cookies，选项卡管理，异常处理）

03-06爬虫实战（网站的爬取，基电商评价文本爬取）

04章数据存储与读取

04-01可供读取数据类型介绍（excel、pdf、txt、html、mysql数据库文件介绍）

04-02数据的存储（将数据存储到excel表，txt文本，word文档）

04-03数据的读取（python批量读取多个多子表excel，python读取txt文件，word文档）

05章数据处理

05-01正则表达式（什么是正则表达式，正则表达式匹配规则，re模块的使用）

05-02文本处理常用方法（字符串的不变性，排序行，段落格式化，二进制转化为ASCII，重复字词过滤，提取邮件地址，提取URL地址，大写转换，符号化，删除停用词，同义词与反义词处理，文本翻译，单词替换，拼写检查，WordNet接口，语料访问，标记单词，块和裂口，块分类，文本分类，双字母组，文字改写，文字换行，频率分布，文字摘要，词干算法，约束搜索）

05-03结构化数据处理--数据清洗（numpy数值计算要点串讲，Pandas数据处理串讲，python统计图表展示）

06章文本分析实战

06-01重要的库（jieba库简介）

06-02关键词提取（关键词任务概述，TF-IDF算法原理，相似文章推荐原理介绍，实例：红楼梦文本分析的实现，文件与词库的读取，完成分词与词云图的绘制）

06-03文本分类（新闻素材介绍，新闻内容的关键词提取，词向量转化与ngram模型，朴素贝叶斯算法完成新闻分类）