|

页面解析和数据处理 爬虫一共就四个主要步骤: 1.明确目标 (要知道你准备在哪个范围或者网站去搜索) 2.爬 (将所有的网站的内容全部爬下来) 3.取 (去掉对我们没用处的数据) 4.处理数据(按照我们想要的方式存储和使用) 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化数据和结构化数据。 非结构化数据:先有数据,再有结构。 结构化数据:先有结构,再有数据。 相关推荐:《Python视频教程》 1.非结构化的数据处理 1.文本、电话号码、邮箱地址
-->正则表达式
2.HTML文件
-->正则表达式,XPath,CSS选择器 2.结构化的数据处理 1.JSON文件
-->JSON Path
-->转化成python类型进行操作
2.XML文件
-->转化成python类型(xmltodict)
-->XPath
-->CSS选择器
-->正则表达式 相关推荐: Python爬虫正则表达式如何使用 |