
5
0
0
介绍详情
📖 MediaCrawler 项目简介
MediaCrawler 是一个开源的多平台自媒体数据采集工具,由 NanmiCoder 开发并维护。该项目旨在为开发者和研究人员提供一个高效、易用的工具,用于抓取主流自媒体平台上的公开数据。
🔧 技术原理
- 核心技术:基于 Playwright 浏览器自动化框架登录保存登录态
- 无需JS逆向:利用保留登录态的浏览器上下文环境,通过 JS 表达式获取签名参数
- 优势特点:无需逆向复杂的加密算法,大幅降低技术门槛
✨ 功能特性
MediaCrawler 支持以下平台的数据采集:
平台 | 关键词搜索 | 指定帖子ID爬取 | 二级评论 | 指定创作者主页 | 登录态缓存 | IP代理池 | 生成评论词云图 |
---|---|---|---|---|---|---|---|
小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
快手 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
B站 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
微博 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
🚀 快速开始
前置依赖:
- 安装 uv(推荐):uv 官方安装指南
- 安装 Node.js(>= 16.0.0):Node.js 官网
安装步骤:
# 进入项目目录 cd MediaCrawler # 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性 uv sync # 安装浏览器驱动 uv run playwright install
运行爬虫:
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论 uv run main.py --platform xhs --lt qrcode --type search # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息 uv run main.py --platform xhs --lt qrcode --type detail
💾 数据保存
MediaCrawler 支持多种数据存储方式:
- SQLite 数据库:轻量级数据库,无需服务器,适合个人使用
- MySQL 数据库:支持关系型数据库 MySQL 中保存
- CSV/JSON 文件:支持保存到 CSV 或 JSON 中
⚠️ 免责声明
本项目仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本项目用于非法用途或侵犯他人合法权益。使用本项目即表示您同意免责声明的所有条款和条件。
🤝 社区与支持
- 交流群组:微信交流群
- 文档与教程:MediaCrawler 完整文档
🙏 致谢
感谢 JetBrains 为本项目提供免费的开源许可证支持!

数智AI导航是专业的AI工具导航平台,每日精准收录了前沿又好用的各种人工智能工具,在这里你可以发现和使用最酷的AI工具!
Copyright©2024-2026 数智AI
浙ICP备2024109125号-1