MediaCrawler 是一款功能强大的多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取,基于 Playwright 浏览器自动化框架,无需JS逆向,适合学习和研究使用。
浏览次数
5
收藏次数
0
点赞次数
0
MediaCrawler
MediaCrawler 是一款功能强大的多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取,基于 Playwright 浏览器自动化框架,无需JS逆向,适合学习和研究使用。
标签: MediaCrawler 小红书爬虫 抖音爬虫 快手爬虫 B站爬虫 微博爬虫 知乎爬虫 百度贴吧爬虫
介绍详情

📖 MediaCrawler 项目简介

MediaCrawler 是一个开源的多平台自媒体数据采集工具,由 NanmiCoder 开发并维护。该项目旨在为开发者和研究人员提供一个高效、易用的工具,用于抓取主流自媒体平台上的公开数据。

🔧 技术原理

  • 核心技术:基于 Playwright 浏览器自动化框架登录保存登录态
  • 无需JS逆向:利用保留登录态的浏览器上下文环境,通过 JS 表达式获取签名参数
  • 优势特点:无需逆向复杂的加密算法,大幅降低技术门槛

✨ 功能特性

MediaCrawler 支持以下平台的数据采集:

平台 关键词搜索 指定帖子ID爬取 二级评论 指定创作者主页 登录态缓存 IP代理池 生成评论词云图
小红书
抖音
快手
B站
微博
贴吧
知乎

🚀 快速开始

  1. 前置依赖

  2. 安装步骤

    # 进入项目目录
    cd MediaCrawler
    # 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
    uv sync
    # 安装浏览器驱动
    uv run playwright install
    
  3. 运行爬虫

    # 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
    uv run main.py --platform xhs --lt qrcode --type search
    # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
    uv run main.py --platform xhs --lt qrcode --type detail
    

💾 数据保存

MediaCrawler 支持多种数据存储方式:

  • SQLite 数据库:轻量级数据库,无需服务器,适合个人使用
  • MySQL 数据库:支持关系型数据库 MySQL 中保存
  • CSV/JSON 文件:支持保存到 CSV 或 JSON 中

⚠️ 免责声明

本项目仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本项目用于非法用途或侵犯他人合法权益。使用本项目即表示您同意免责声明的所有条款和条件。

🤝 社区与支持

🙏 致谢

感谢 JetBrains 为本项目提供免费的开源许可证支持!