立夏
四月总是过得很快,一眨眼就结束了。四月中旬重新写了爬虫,因为豆瓣现在的反爬实在太严格,连40秒爬一次在3小时内超过500条都会被暂时封号。所以不得不考虑怎么用代理和构造cookie的事情。起先用的免费代理,花了很多精力写抓取网页上的代码以及代理的测试。结果免费代理的效果还是很不理想,90%都是不可用的,即使可用的部分,也经常是时断时连的,因为代理本身问题很多,在加上squid的配置,很难判断问题的真正缘由,这部分花了好多的时间。后来开始使用收费代理。有效代理数一下提高到98%以上……前前后后一共花了快10天在写代码上,写完之后的成就感似乎也挺淡薄的。爬下来的数据也特别懒得分析(我到底干嘛要做这样的事)。最近貌似pandownload有要关闭的迹象,又寻思着要不要自己写一个不限速的网盘下载。但是想了想,还是不鼓弄了,实在太花时间=… 阅读全文