MediaCrawler - 一款功能强大的多平台自媒体数据采集工具

MediaCrawler

MediaCrawler 是一款功能强大的多平台自媒体数据采集工具，支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取，基于 Playwright 浏览器自动化框架，无需JS逆向，适合学习和研究使用。

标签： MediaCrawler 小红书爬虫抖音爬虫快手爬虫 B站爬虫微博爬虫知乎爬虫百度贴吧爬虫

介绍详情

📖 MediaCrawler 项目简介

MediaCrawler 是一个开源的多平台自媒体数据采集工具，由 NanmiCoder 开发并维护。该项目旨在为开发者和研究人员提供一个高效、易用的工具，用于抓取主流自媒体平台上的公开数据。

🔧 技术原理

核心技术：基于 Playwright 浏览器自动化框架登录保存登录态
无需JS逆向：利用保留登录态的浏览器上下文环境，通过 JS 表达式获取签名参数
优势特点：无需逆向复杂的加密算法，大幅降低技术门槛

✨ 功能特性

MediaCrawler 支持以下平台的数据采集：

平台	关键词搜索	指定帖子ID爬取	二级评论	指定创作者主页	登录态缓存	IP代理池	生成评论词云图
小红书	✅	✅	✅	✅	✅	✅	✅
抖音	✅	✅	✅	✅	✅	✅	✅
快手	✅	✅	✅	✅	✅	✅	✅
B站	✅	✅	✅	✅	✅	✅	✅
微博	✅	✅	✅	✅	✅	✅	✅
贴吧	✅	✅	✅	✅	✅	✅	✅
知乎	✅	✅	✅	✅	✅	✅	✅

🚀 快速开始

前置依赖：
- 安装 uv（推荐）：uv 官方安装指南
- 安装 Node.js（>= 16.0.0）：Node.js 官网

安装步骤：

# 进入项目目录
cd MediaCrawler
# 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
uv sync
# 安装浏览器驱动
uv run playwright install

运行爬虫：

# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
uv run main.py --platform xhs --lt qrcode --type search
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
uv run main.py --platform xhs --lt qrcode --type detail