豆瓣租房爬虫
1.1.6 修复崩溃问题
爬取结果文件(markdown)提议使用typora打开
使用教程确保C:\Windows\Fonts\目录下有simsun.ttc字体文件
- 如何设置豆瓣群组链接?
- 第一搜索某个地区租房,例如:北京租房
- 点进去要爬取的某个小组,例如第一个:北京租房
- 将页面拉到最下面有个> 更多小组讨论超链接,点进去
- 复制地址栏中地址(从/group开始复制到结尾),粘贴到软件设置豆瓣群组链接有时候粘贴进软件会崩溃,不知道什么缘由,提议把软件中原来的链接删除再粘贴进去。
- 将start=后边的数字50改成%d
- 完成
- 第一搜索某个地区租房,例如:北京租房
- 如何设置排除(包含)关键字?排除关键字是标题和内容只要出现关键字就会排除掉该条租房信息。例如默认是限女这个关键字,只要租房信息中包含限女生入住,只限女生等出现限女关键字的一律不爬。多个关键字用|分隔,注意是英文的。例如:限女|短租|整租,这三个关键字设置后,只要标题和内容出现这三个关键字软件就不会爬取。包含关键字只适用于标题,例如包含关键字为A,标题中含A,但内容中不含,会爬取;内容含A,标题不含,不会爬取。
- 关于识别标题中的价格使用正则d{4}识别标题中的价格信息,无法爬取少于1000元的信息。
- 关于爬取结果排序先根据价格从小到大排序,价格一样根据发帖时间排序。
- 关于爬取结果文件(.md扩展名)如何打开建提议下载软件:typora
- 如何设置cookie?
- 打开豆瓣小组,例如:https://www.douban.com/group/554566/discussion?start=0
- 按F12打开开发者控制台,点击Console控制台选项卡
- 输入document.cookie回车,复制内容(注意前后双引号不要复制)
- 将复制的内容粘贴在程序中
项目开源及介绍请查看GitHub
https://github.com/itning/DouBanReptile
下载地址:
https://github.com/itning/DouBanReptile/releases
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END
![[10月6日更新 1.1.6]豆瓣租房小组多线程爬虫。爬取后自动按时间排序生成markdown文件 - 宋马](https://bbs.songma.com/wp-content/uploads/2024/12/800.png)




















- 最新
- 最热
只看作者