本栏目精炼介绍如何爬取全英雄皮肤。
python视频教程栏目精炼介绍如何爬取全英雄皮肤。免费推荐:python视频教程 距离上次写爬虫文章已经过了许久了,之前写过一篇20行Python代码爬取王者荣耀全英雄皮肤 爬取代码非常简单,从上到下可能只需要写30行左右就能完成,但重要的是分析过程,在此之前,我们先来了解一下本篇文章需要用到的模块。 requests模块介绍首先是requests模块,这是一个模拟浏览器请求的模块,我们可以通过它来获取网页上的信息,比如百度: import requests url = 'http://www.baidu.com'response = requests.get(url)print(response.text) 运行结果: import requests url = 'http://www.baidu.com'response = requests.get(url)print(response.content.decode()) 运行结果: json模块json模块可以对json字符串和Python数据类型进行相互转换,比如将json转换为Python对象: import json json_str = '{"name":"zhangsan","age":"20"}'rs = json.loads(json_str)print(type(rs))print(rs) 使用 <class 'dict'> {'name': 'zhangsan', 'age': '20'} 而若是想将Python数据转为json字符串,也非常简单: import json str_dict = {'name': 'zhangsan', 'age': '20'}json_str = json.dumps(str_dict)print(type(json_str))print(json_str) 通过 <class 'str'> {"name": "zhangsan", "age": "20"} 准备工作前面介绍了两个模块,通过这两个模块我们就能够完成这个程序了。 https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1001.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1002.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1003.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1004.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1005.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1006.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1007.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1008.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1009.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1010.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1011.jpg https://game.gtimg.cn/images/lol/act/img/skin/big1012.jpg 从这些url中能发现什么规律呢?其实规律非常明显,url前面的内容都是一样的,唯一不同的是 那么问题来了,它是如何区分这张图片所属的英雄的呢?我们观察浏览器上方的地址: 要想证明我们的猜想,就必须再去看看其它英雄皮肤是不是也满足这一条件: https://game.gtimg.cn/images/lol/act/img/skin/big202000.jpg https://game.gtimg.cn/images/lol/act/img/skin/big202001.jpg https://game.gtimg.cn/images/lol/act/img/skin/big202002.jpg https://game.gtimg.cn/images/lol/act/img/skin/big202003.jpg https://game.gtimg.cn/images/lol/act/img/skin/big202004.jpg https://game.gtimg.cn/images/lol/act/img/skin/big202005.jpg 事实是不是如此呢?检查一下便知: 查询英雄id先来解决第一个问题,每个英雄对应的id是多少?我们只能从官网首页中找找线索,在首页位置打开网络调试台: 忘了告诉你们了,这个文件的url在这里可以找到: import jsonimport requests# 定义一个列表,用于存放英雄名称和对应的idhero_id = []url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20'response = requests.get(url)text = response.text# 将json字符串转为列表hero_list = json.loads(text)['hero']# 遍历列表for hero in hero_list: # 定义一个字典 hero_dict = {'name': hero['name'], 'id': hero['heroId']} # 将列表加入字典 hero_id.append(hero_dict)print(hero_id) 首先通过requests模块请求该url,就能够获取到一个json字符串,然后使用json模块将该字符串转为Python中的列表,最后循环取出每个英雄的name和heroid属性,放入新定义的列表中,这个程序就完成了英雄id的提取。 查询皮肤个数接下来解决第二个问题,如何知晓某个英雄究竟有多少个皮肤,按照刚才的思路,我们可以猜测一下,对于皮肤也应该会有一个文件存储着皮肤信息,在某个英雄的皮肤页面打开网络调试台,并选中XHR,刷新页面,找找线索: import jsonimport requests url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/31.js'response = requests.get(url)text = response.text# 将json字符串转为列表skins_list = json.loads(text)['skins']skin_num = len(skins_list) 源程序实现准备工作已经完成了我们所有的前置任务,接下来就是在此基础上编写代码了: import requestsimport jsonimport osimport tracebackfrom tqdm import tqdmdef spider_lol(): # 定义一个列表,用于存放英雄名称和对应的id hero_id = [] skins = [] url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20' response = requests.get(url) text = response.text # 将json字符串转为列表 hero_list = json.loads(text)['hero'] # 遍历列表 for hero in hero_list: # 定义一个字典 hero_dict = {'name': hero['name'], 'id': hero['heroId']} # 将列表加入字典 hero_id.append(hero_dict) # 得到每个英雄对应的id后,即可获得英雄对应皮肤的url # 英雄id + 001 # 遍历列表 for hero in hero_id: # 得到英雄名字 hero_name = hero['name'] # 得到英雄id hero_id = hero['id'] # 创建文件夹 os.mkdir('C:/Users/Administrator/Desktop/lol/' + hero_name) # 进入文件夹 os.chdir('C:/Users/Administrator/Desktop/lol/' + hero_name) # 得到id后即可拼接存储该英雄信息的url hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/' + hero_id + '.js' # 通过访问该url获取英雄的皮肤数量 text = requests.get(hero_info_url).text info_list = json.loads(text) # 得到皮肤名称 skin_info_list = info_list['skins'] skins.clear() for skin in skin_info_list: skins.append(skin['name']) # 获得皮肤数量 skins_num = len(skin_info_list) # 获得皮肤数量后,即可拼接皮肤的url,如:安妮的皮肤url为: # https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpg ~ https://game.gtimg.cn/images/lol/act/img/skin/big1012 s = '' for i in tqdm(range(skins_num), '正在爬取' + hero_name + '的皮肤'): if len(str(i)) == 1: s = '00' + str(i) elif len(str(i)) == 2: s = '0' + str(i) elif len(str(i)) == 3: pass try: # 拼接皮肤url skin_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big' + hero_id + '' + s + '.jpg' # 访问当前皮肤url im = requests.get(skin_url) except: # 某些英雄的炫彩皮肤没有url,所以直接终止当前url的爬取,进入下一个 continue # 保存图片 if im.status_code == 200: # 判断图片名称中是否带有'/'、'\' if '/' in skins[i] or '\\' in skins[i]: skins[i] = skins[i].replace('/', '') skins[i] = skins[i].replace('\\', '') with open(skins[i] + '.jpg', 'wb') as f: f.write(im.content)def main(): try: spider_lol() except Exception as e: # 打印异常信息 print(e)if __name__ == '__main__': main() 运行效果: 还有一个问题就是即使是第一个皮肤,其编号也应该为 最后本篇文章同样继承了上篇文章精简的特点,抛去注释的话总共30行代码左右,程序当然还有一些其它地方可以进一步优化,这就交给大家自由发挥了。 以上就是厉害了,30行python代码爬取英雄联盟全英雄皮肤的详细内容,更多请关注模板之家(www.mb5.com.cn)其它相关文章! |