多模式教学网爬虫

话说,昨天密码学课上,顺手看了眼 Surge Dashboard 中的流量,发现多模式教学网的网络请求竟然如此简单,账户名,密码明文发送,验证信息是个固定的疑似编码过的字符串(其实被篡改也不影响)

所以 google 了一个简单爬虫示例完成了登录这步骤。用了非常笨拙的正则表达式将上的课程名字,课程链接,任课教师的名字提取了出来。

记得前几天弄 pullwave 的 API 时,很纳闷返回结构怎么奇怪,用 python 解析出来,是字典,列表的多重嵌套。当我琢磨怎么保存数据的时候才能明白那样做的好处,不过我没用那么复杂的嵌套。完整的数据保存在一个 Pandas Frame 里,数据又分别保存到了列表里,以便调用方便。

计划写个 Python 的 GUI 客户端出来,谁让多模式教学网那么丑。。。下载下来的附件还是形如 20170517121820.zip 这样的时间戳

Comments
Write a Comment