首页 › 教程频道 › 查看内容

Python爬虫之页面解析和数据处理

作者：模板之家 2020-8-31 09:58 5251人关注

爬虫一共就四个主要步骤：1.明确目标 (要知道你准备在哪个范围或者网站去搜索)||2.爬(将所有的网站的内容全部爬下来)||3.取(去掉对我们没用处的数据)||4.处理数据（按照我们想要的方式存储和使用）。

页面解析和数据处理

爬虫一共就四个主要步骤：

1.明确目标 (要知道你准备在哪个范围或者网站去搜索)

2.爬 (将所有的网站的内容全部爬下来)

3.取 (去掉对我们没用处的数据)

4.处理数据（按照我们想要的方式存储和使用）

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化数据和结构化数据。

非结构化数据：先有数据，再有结构。

结构化数据：先有结构，再有数据。

相关推荐：《Python视频教程》

1.非结构化的数据处理

1.文本、电话号码、邮箱地址  
　　　　-->正则表达式
2.HTML文件   
　　　　 -->正则表达式，XPath,CSS选择器

2.结构化的数据处理

1.JSON文件 
　　　　-->JSON Path
　　　　-->转化成python类型进行操作
2.XML文件
　　　　-->转化成python类型（xmltodict）
　　　　-->XPath
　　　　-->CSS选择器
　　　　-->正则表达式

		自动登录	找回密码
密码			立即注册

搜索本站精品资源