CSDN博客转高清PDF | 间客六十

起源:主要是为了学习ffmpeg,然后看到雷神大人的博客太好了(但是CSDN广告太多了….),就爬取下来了,理论上可以爬取所有的csdn

突然想起可能还有小伙伴要用这个,资料下载见文末

效果:

先看疗效—–雷神高清无码博客图

1	$ python csdn.py

致敬雷神大人!!!!

获取目标用户名:
找到目标博客地址,得到用户名如: https://blog.csdn.net/leixiaohua1020 的用户名为leixiaohua1020
获取文章列表:
网址格式为: https://blog.csdn.net/用户名/article/list/页码?
从1依次增加上述网址中的页码,当出现”空空如也”的时候即超过了最后一页,可作为终止条件(代码中的getPageByIndex函数)
获取文章链接:
在上一步中得到的目录页面中通过chrome调试模式可以发现所有文章都在class=”article-list”的div中,而且链接在子div的class=”article-item-box”中的href中(代码中的getArticlesInPage函数)
获取文章内容:
这一步没啥好说的,拿到网址后直接开干(getArticleByUrl函数)
数据清洗并生成PDF:

本步骤的目的主要是进行去广告,同时尽可能的保留博客的原汁原味主要在函数startThreadPool中完成

①cleanHtmlData主要对数据进行清洗,需要一点html知识

②为了加快生成速度,开辟了线程池主要调用函数doConvert

③生成pdf主要用到了pdfkit中的from_string()函数
PDF合并:

①生成目录

②添加书签(带跳转链接)
数据库:
为了减少服务器压力使用了数据库(同时也方便我们自己,只需要爬取一次)