blogs2md

支持将主流的博客网站的博客批量下载并生成博客预览，生成markdown文件。

环境与依赖

python 3.6.4rc1
node.js v8
trundown 一个nodejs包
python bs4 用于解析博客网页
html5lib 用于解析网页
selenium 用于模拟浏览器登录的
chrome-driver 2.34 headless模式

使用方法

安装依赖包 pip install -r requirement.txt
安装 chrome chrome-driver
安装 node.js
安装软件包 npm install -g turndown

配置

将workDir工作目录替换成自己的有读写权限的目录

配置node.js的node_modules的路径

将下面的url替换为自己的博客主页地址

if __name__ == "__main__":
    spider = CSDNDownloader(url="https://blog.csdn.net/sbpeng")
    pageNum = spider.get_total_pages()
    print("博客总页数：", pageNum)
    all_blogs = []

    for index in range(pageNum):
        print("正在处理第%s页…" % (index + 1))
        blogsInfo, blogs = spider.get_blog_info(index + 1)
        spider.save_page_overall_file(blogsInfo, index)
        all_blogs.extend(blogs)

    spider.save_overall_file(all_blogs)
    # 单个页面保存
    spider.save_blogs_in_md(all_blogs)

待优化

目前不支持表格以及数学公式的转换
目前只支持CSDN的博客转换，需要支持更多的博客转换

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
__pycache__		__pycache__
.gitignore		.gitignore
README.md		README.md
blog.py		blog.py
blogs2md.ini		blogs2md.ini
common_utils.py		common_utils.py
csdn_downloader.py		csdn_downloader.py
requirement.txt		requirement.txt
turndown_transform.py		turndown_transform.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

blogs2md

环境与依赖

使用方法

配置

将下面的url替换为自己的博客主页地址

待优化

About

Releases

Packages

Languages

pengshuangbao/blogs2md

Folders and files

Latest commit

History

Repository files navigation

blogs2md

环境与依赖

使用方法

配置

将下面的url替换为自己的博客主页地址

待优化

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages