Skip to content
This repository has been archived by the owner on Mar 19, 2022. It is now read-only.

Lonenso/SinaSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SinaSpider

利用Scrapy框架爬取微博用户资料

选择

选择爬取wap端而不爬取PC端

爬取字段

个人资料

  • 用户id
  • 昵称
  • 性别
  • 省份
  • 城市
  • 个性签名
  • 生日
  • 微博数
  • 关注数
  • 粉丝数
  • 认证信息
  • 首页链接 微博
  • 微博ID
  • 微博内容
  • 发表时间
  • 坐标(如果有的话)
  • 工具,平台
  • 点赞数
  • 评论数
  • 转发数 关注
  • 关注的用户id 粉丝
  • 粉丝id #####遍历及去重策略 两个set存放id,一个存放已爬过的id,一个存放未爬取的id,不断获得关注人的id,粉丝id #####存储方式 数据库 mysql Alt text
反反爬虫策略
  • 通过提交表单模拟登录获得cookie后登录
  • 随机UA
  • IP代理
  • 自动限速(未添加)
数据处理逻辑
  • Item Loader获取相应的数据字段
  • input_processor,MapCompose处理该数据字段
  • output_processor 最终获得处理好的数据字段

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages