百木园-与人分享,
就是让自己快乐。

python爬虫 - js逆向之猿人学第一题源码加密

前言

由于最近一直没有一个练手的平台,苦苦寻找好久,找到了猿人学平台,其实我很早就知道这个平台,他们2020年刚还是搞爬虫大赛的时候我就看到了,只是没有仔细去研究,都只是大概的看了下,最近有空就特意的分析了下,还真的有点东西,至少我觉得比较有意思

 

分析

先看题:

 

 

 

然后查看翻页,这个接口不难找:

 

 

 

但是看提交的参数:

 

 

 

 

 

 

 

page就不多说了,看都有个m,而且经过我的测试,每次都是变化的,那么我们的关键点就是去研究这个m参数怎么生成的了。先看:d150b9b187bfa0fd8977605c0561d6f8丨1631621912,

大概率猜测竖线后面的就是个时间戳,前面的大概率是时间戳经过原生md5或者魔改版md5生成的,经过我的测试,发现至少不是原生md5生成的,那么就算是魔改版md5,我们也还是得去分析源码了,还是回到怎么找这个m变量吧,但是,问题出现了,相信稍微有点接触的朋友都知道,这个m参数是不是也太大众化了,要全局搜索肯定是很难搜到的啊,而再看哈,后面有个【丨】,好像有点用,搜索看看:

 

没戏,没有,相信以前研究过第一题的朋友看到这里估计要懵了,因为以前是可以的,没错,因为我以前就分析过第一题,确实搜竖线是可以搜出来的,但是,此时此刻,不行了,我也不知道为啥,反正就是不行,怎么办,换其他思路了。

 

我最开始的思路是对接口打断点:

 

 

刷新页面,它自动断到这里:

 

 

 

 

 

也就停顿了一小会儿,它就有个风控检测:

 

 

这个还有点意思,后面看了下逻辑,大胆猜测它是在后端验证了时间戳

反正就是走这条路效果不好,后面的思路换成查看调用栈,首先找到接口,然后点这个:

 

 (终于可以光明正大的把地址给出来了,不用每次截图打码了)

 

 

我点的是第一页的接口,然后看到下面的调用栈,补充下,调用栈的调用先后顺序是从下到上的

 

 

 

我先点下这个匿名函数的:

 

 

 

 打开看到就是些代码,暂时没看出有什么用,再看倒数第二个:

 

 

 

找到关键点

 

 倒数第二个代码并不多,拷贝一份在本地看下:

 

 

 

这个代码读起来有点累啊,这\\x开头是16进制编码,我们先去转换一下,我用的这个网站的转换:https://tool.lu/js/index.html

 

 

 

 

点解密之后它提示是否要解码,点确定,然后复制解密后的结果放到本地看下,唉,这个竖线出现了,那么后面的操作基本就跟各位在网上看到的逻辑差不多了

 

那么,也就是说【\\u4e28】= 【丨】,注意,这个竖线还是中文的竖线,不是英文的,在python里是这样的,不管它开头是几根反斜杠,反正后面的值至少是对上了

 

 

 

 

我估计老手在一开始的时候就会把【丨】转为常用的编码去搜了

 

 

大概的看下逻辑,虽然它这个变量名被混淆了,但是不妨碍我们读逻辑:

 

 

也就是,m 的值本质上等于

oo0O0(_0x2268f9[\'toStr\' + \'ing\']()) + window[\'f\'] + \'丨\' + Date[\'parse\'](new Date()) + (16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)

来源:https://www.cnblogs.com/Eeyhan/p/15263037.html
图文来源于网络,如有侵权请联系删除。

未经允许不得转载:百木园 » python爬虫 - js逆向之猿人学第一题源码加密

相关推荐

  • 暂无文章