MediaCrawler可以实现小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫,目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。
工具包下载:
使用教程
1.解压MediaCrawler包
2.安装python3.10.11,在MediaCrawler目录下创建Python310目录并安装
3.安装成功后打开cmd命令窗口
4.创建venv虚拟环境,在命令窗口输入命令等待30-60秒弹出新的输入行即可
python310python.exe -m venv venv
5.激活venv 命令,激活venv,激活后前面会有(venv)则表示激活成功
call venv\Scripts\activate.bat
6.安装依赖库,继续输入指令 执行后等待5分钟左右直到有绿色文字出现表示安装成功
pip install -r requirements.txt
7.安装浏览器内核,输入指令,安装完成后窗口不要关闭
playwright install
8.修改配置文件,MediaCrawler-mainconfig目录下的base_config.py用记事本打开编辑,PLATFORM对应平台(dy,ks,xhs,wb,bili)CRAWLER_TYPE爬取类型(search,detail,creator)HEADLESS设置False,SAVE_DATA_OPTION数据导出设置CSV(json和db可自行设置),ENABLE_GET_COMMENTS爬取评论设置True
9.设置需要爬取的抖音视频ID,获取抖音视频ID:将抖音视频分享链接用浏览器打开加载完后video/后面的数字就是抖音视频ID,替换原有的视频ID即可
10.运行爬取抖音评论指令,运行指令后不要扫画图里面的二维码,扫浏览器里面的二维码登录,登录后选择保存登录信息,爬取后的数据在MediaCrawler-main/data目录
python main.py --platform dy --lt qrcode --type detail
指令里面的dy可修改为ks,xhs,wb,bili对应不同平台,qrcode是扫码登录不要修改,手机号登录很麻烦。detail是爬取视频/帖子可修改search是搜索爬取,creator是发布者信息
执行后报错的话需要安装nedo.js
注意事项:
1.爬虫禁止非法使用,非法使用与作者无关
2.禁止使用该Python脚本从事任何非法行为,否则自行承担后果
请登录后发表评论
注册
请登录后查看评论内容