更新时间:2023-06-19
一、首先是微信电竞,就是微信小程序里面的,本来看这是一个小程序,感觉应该很好爬。但是在实际爬取的时候,出现了一些问题,最终没有爬取成功,主要总结自己在爬取过程中所做的事情和策略。
首先因为是小程序,所以第一个方法是用fiddler抓取请求,这个过程顺利,很快就找到了拉取信息的请求链接。
"https://game.weixin.qq.com/cgi-bin/videoareawap/gametag?session_id="+session_id
其中session_id是一段时间内,每次请求都不会变的。所以直接通过fiddler抓取就可以了,然后formdata是:?
通过这个请求,很顺利的就拿到了数据:
所要抓取的数据内容都是视频,所以所有信息都在这里可以获取到。然后就是要找分页的方式。结果在这里卡住,因为没有在返回也找到任何翻页的字段,重复请求的时候发现请求的数据是相同的。所以只能考虑实现翻页机制有几种可能。(1)本身是没有翻页机制的,每次请求都是相当于一次刷新,后台记录请求状态,自动刷新推送新的内容给前端。(2)前端通过另外一条请求,刷新数据,然后再次请求,得到新的数据。
简而言之就是前端肯定会有一条请求是告诉后台要刷新数据的,通过这个逻辑,我找到前端向后台请求的所有url,逐一进行分析。
"https://game.weixin.qq.com/cgi-bin/videoareawap/videolist?session_id="+session_id
第一个是这个,解析之后发现这是将视频信息打包向后台请求的,并不知道这是什么操作。请求之后并没有刷新请求数据。
"https://game.weixin.qq.com/cgi-bin/comm/videostat?session_id="+session_id
第二个是这个,上面的请求是向后端发送多条视频信息,这条请求则是发送单条视频信息。依然不知道有什么卵用。
https://game.weixin.qq.com/cgi-bin/comm/pagestat?op=batch&session_id="+session_id
formdata 是:#msg="GameId=wx95a3a4d7c627e07d&SceneId=3&UIArea=304&PositionId=1&ActionId=3&SsId=1089&GiftId=0&GeneralID=wx95a3a4d7c627e07d&VideoQuality=0&Type=13&TypeId=1&VideoID="+str(videoid)+"&Time=0&Videotime="+str(videotime)+"&depth=0&AnchorType=0&Device=2&ClientVersion=6703&ConnectType=0&SourceID=0&sdkVersion=2404&DeviceBrand=HONOR&DeviceModel=KNT-AL20&ExternInfo=%7B%7D&extVersion=0&devInfo=&Abt=0"
第三条是这个,这条可能行最大,因为有pagestat这个关键字,重点研究了一下这个请求,通过拼接等方法尝试之后,发现依然不行。
还有其他请求,但明确知道其用途,不单独理出。
所以感觉此方法行不通,就想尝试用新的方法。希望能够获取小程序前端源码进行分析。而小程序前端前端源码是经过编译之后上线的,同时如何获取小程序源码,就成了问题。经过百度发现,还真有方法。
简单点说,小程序源文件其实就存在手机里面,但是这个目录正常进入是找不到的。基本所有手机都会将系统目录设置成不可见,用root 也不行。所以就考虑可以使用手机模拟器的方式进行查询。
这里使用了夜神手机模拟器,
模拟登陆微信之后,点开微信电竞小程序,但是程序没有打开,总是闪退,程序没有运行成功。然后我再进入
/data/data/com.tencent.mm/MicroMsg/{一串16进制字符}/appbrand/pkg/
这个目录,过然发现有xxxx.wxapkg文件。
然后就是想办法拷贝出来,用夜神自带的文件管理器拷贝,总会出现权限问题,按照网上说法通过qq文件管理系统传输发现也无法拿到。然后再找其他途径,最后发现,用re文件管理器(分两种,要选择蓝色的确定带root权限的那种),通过root权限配合qq就能够拿到文件,
拷贝出来之后,就要做反编译的事情。
网上只有一个大神写了一套微信反编译的工具,看了一下,部分网友反编译之后过然成功了,所以我把代码clone下来进行尝试。
结果是出现报错,然后我通过报错信息去找对应文件的内容。连$gwx都没有找到,请教身边前端同事,他们也没办法找出问题所在。
但是好在有目录生成。
把这个目录拷贝下来,放到微信web开发者工具中运行。然后出现报错,
请教前端同事,是不是一个小程序可能存在多个源文件,同事回答说是的。
然后问题就回到了最开始的微信电竞运行没有运行起来的问题,猜测可能就是因为没有加载到更多的源文件倒是启动失败。
至此,能尝试的爬取策略都尝试过了,考虑到就算爬下来,整个视频资讯内容也才1800+条,所以决定放弃爬取。
二、然后就是爬取王者营地的资讯。手机app的,这个爬取的时候,比我想象的又要顺利很多,同样是使用fiddler,抓取请求,查看返回内容。
https://ssl.kohsocialapp.qq.com:10001/game/listinfov2
首先通过这个链接,可以获取文章列表,
而formdata 直接抄取:
就可以了,很容易看到里面的相关信息所代表的意思,通过page进行翻页操作,模拟请求之后,过然获取到了文章列表。然后就是单页面数据请求
视频在文章列表里就能够请求到vid,title,阅读量,评论量和喜欢数,所以很简单的就请求到了所有的数据。文章则可以通过url:
https://ssl.kohsocialapp.qq.com:10001/game/detailinfov3
请求获取到数据,
Data则是:
{"gameId":"20001","apiVersion":"1","recommendId":"","pos":"2","algoType":"","pos1":"1","pos2":"0","iInfoId":iInfoId,"type":"25818","goPickComment":"0","taskId":"","cChannelId":"3","cClientVersionCode":"2018122401","cClientVersionName":"3.41.202","cCurrentGameId":"20001","cDeviceCPU":"armeabi-v7a%24armeabi","cDeviceId":"5502acf8109e4a66a4e443912ace3821014b0ca9","cDeviceImei":"868695033078799","cDeviceMac":"02:00:00:00:00:00","cDeviceMem":"113917","cDeviceModel":"MI
8
UD","cDeviceNet":"WIFIi","cDevicePPI":"440","cDeviceSP":"中国联通","cDeviceScreenHeight":"2028","cDeviceScreenWidth":"1080","cGameId":"20001","cGzip":"1","cRand":"1547003489109","cSystem":"android","cSystemVersionCode":"28","cSystemVersionName":"9","gameAreaId":"3","gameId":"20001","gameOpenId":"owanlssxkyCn-iJMttt7KG0jZObs","gameServerId":"3181","gameUserSex":"1","token":"HzzdRrGA","userId":"491132695"}
通过iInfoid就能拿到全部数据。
三、下面就是分析则么通过vid获取腾讯视频具体内容。
'https://av.video.qq.com/getinfo?callback=JsonpCallBack&&charge=0&defaultfmt=auto&otype=json&guid=c05f836b267c173e684cec6410185d3b&platform=70201&sdtfrom=v1104&defnpayver=0&appVer=3.3.128&host=v.qq.com&ehost=https%3A%2F%2Fv.qq.com%2F&_rnd=1507969615&spwm=4&vid={}&_qv_rmt=ZHrqJgF6A10991DBb%3D&_qv_rmt2=y%2FlweBl0157665zsQ%3D&_1507969615506='.format(vid)
起始url请求,返回一堆json数据,里面的keyid,preurl,vkey,都是拼接视频源地址的信息。通过这部分信息,最后拼接之后,链接即可获取视频播放源码。
顺利爬取到数据。
四、查找获取王者荣耀玩家段位信息的方式
由于英雄联盟开放了玩家游戏段位查询接口,所以英雄联盟玩家的段位信息很容易拿到。而王者荣耀则在这方面并没有做开放。我想了几个策略方式。
[if !supportLists](1)?[endif]通过官网web看是否能够拿到数据。
[if !supportLists](2)?[endif]王者荣耀小程序能够拿到玩家自己的游戏数据
[if !supportLists](3)?[endif]王者营地有一个用户搜索的方式查询
[if !supportLists](4)?[endif]通过王者荣耀游戏客户端获取数据。
第一个方法,通过王者荣耀官网获取数据,发现其是需要有登陆态的,登陆之后才能获取自己的段位数据,而且不能查询其他人。我把这个结果告诉马里奥,马里奥说不行。他需要的是直接获取其他人的段位信息。
然后去看微信小程序的,需要拿到用户的code,马里奥说这个更不要想,太难了。遂放弃。
然后准备通过王者荣耀游戏客户端获取,结果发现根本抓不到fiddler请求啊~还把手机搞得不能够正常使用代理了。
最后一个方法,王者营地。
这个真的可以获取,但是呢,最后才发现,依然需要用户登陆,然后王者营地会给用户一个id,通过这个王者营地的用户id,王者营地app后台去请求到王者荣耀的数据库玩家段位数据。但是这个id是不会暴露给用户的,所以不会抓包的人根本不能知道自己的用户id是多少,同时没有登陆过王者营地app的用户,王者营地是拿不到用户数据的,同时王者营地时可以将战绩设置成隐身的。
因此这多方限制,虽然我们可以通过搜索的方式拿到部分用户的段位信息,但是这种方式未免太过鸡肋。用处不大。
经验总结:
[if !supportLists]1.?[endif]虽然微信电竞最终没有爬取到数据,但是通过爬取的过程中,我找到了很多种爬取资讯的策略方法,总结了一些经验,
[if !supportLists]2.?[endif]王者营地虽然是个用户量很大的app,但是可以说完全没有做反爬工作。所有有时候爬起数据,不能还是有很多意想不到的收获。
关于华宇娱乐
本站为华宇娱乐,华宇平台永久招商,任何平台的新老会员、代理都可以联系华宇主管申请为总代理、直属,了解详情待遇请加QQ或微信。 客户:为客户提供高质量和最大价值的专业化产品和服务,以真诚和实力赢得客户的理解、尊重和支持。市场:为客户降低采购成本和风险,为客户投资提供切实保障。 发展:追求永续发展的目标,并把它建立在客户满意的基础上。 关于“为合作伙伴创造价值”公司认为客户、供应商、公司股东、公司员工等一切和自...联系我们
电话:400-123-4657
邮箱:admin@youweb.com
地址:广东省广州市天河区88号
传真:+86-123-4567