[10月6日更新 1.1.6]豆瓣租房小组多线程爬虫。爬取后自动按时间排序生成markdown文件

豆瓣租房爬虫
1.1.6 修复崩溃问题

爬取结果文件(markdown)提议使用typora打开

使用教程确保C:\Windows\Fonts\目录下有simsun.ttc字体文件

  • 如何设置豆瓣群组链接?
    • 第一搜索某个地区租房,例如:北京租房
    • 点进去要爬取的某个小组,例如第一个:北京租房
    • 将页面拉到最下面有个> 更多小组讨论超链接,点进去
    • 复制地址栏中地址(从/group开始复制到结尾),粘贴到软件设置豆瓣群组链接有时候粘贴进软件会崩溃,不知道什么缘由,提议把软件中原来的链接删除再粘贴进去。
    • 将start=后边的数字50改成%d
    • 完成
  • 如何设置排除(包含)关键字?排除关键字是标题和内容只要出现关键字就会排除掉该条租房信息。例如默认是限女这个关键字,只要租房信息中包含限女生入住,只限女生等出现限女关键字的一律不爬。多个关键字用|分隔,注意是英文的。例如:限女|短租|整租,这三个关键字设置后,只要标题和内容出现这三个关键字软件就不会爬取。包含关键字只适用于标题,例如包含关键字为A,标题中含A,但内容中不含,会爬取;内容含A,标题不含,不会爬取。
  • 关于识别标题中的价格使用正则d{4}识别标题中的价格信息,无法爬取少于1000元的信息。
  • 关于爬取结果排序先根据价格从小到大排序,价格一样根据发帖时间排序。
  • 关于爬取结果文件(.md扩展名)如何打开建提议下载软件:typora
  • 如何设置cookie?
    • 打开豆瓣小组,例如:https://www.douban.com/group/554566/discussion?start=0
    • 按F12打开开发者控制台,点击Console控制台选项卡
    • 输入document.cookie回车,复制内容(注意前后双引号不要复制)
    • 将复制的内容粘贴在程序中

项目开源及介绍请查看GitHub
https://github.com/itning/DouBanReptile

下载地址:
https://github.com/itning/DouBanReptile/releases

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 共10条

请登录后发表评论