这是小说爬取项目 novel-spider 的特化版本,针对的是某一特定网站。
为什么要编写这个?主要是因为目标网站较为特别,常规爬取手段无法生效,而为了下载小说内容,因此需要特别处理。
脚本使用 Selenium 进行爬取,由于网站特别,在爬取的时候需要手动干预。
在使用 Selenium 爬取时,脚本将使用浏览器进行操作,以模拟真实用户操作。
- 模拟用户使用搜索框进行搜索。
- 通过链接前往书籍目录页,在书籍目录页选择章节点击。
- 在正文阅读中,模拟用户点击下一页来跳转下一章。
- 该网站存在极其严格的 Cloudflare 人机验证,即使使用 Selenium 也无法自动绕过。(手动获取 Cookie 值
cf_clearance
绕过) - 该网站正文内容存在“图片文字”,使用特别的图片来表示文字。(判断并替换)
- 该网站正文内容存在“字体文字”,使用特别的字形来表示文字。(判断并替换)