# EVDP **Repository Path**: elfbobo_admin_admin/EVDP ## Basic Information - **Project Name**: EVDP - **Description**: 数据收集、处理和可视化工具 - **Primary Language**: Python - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-12-03 - **Last Updated**: 2026-03-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # EVDP (Easy & Visual Data Processor) 🚀 EVDP 是一款集成化数据处理、分析与采集工具,旨在为研究人员、开发者及非技术用户提供直观且强大的全栈数据流水线。 --- ## 🌟 核心优势 - **全平台爬虫矩阵**:深度适配 **Bilibili、抖音、百度贴吧**,支持多链接并行/顺序采集。 - **极致的爬虫风控**:内置自适应请求延迟、IP 属地伪装及多级并发限制策略,保证采集任务的稳定性。 - **视觉化数据交互**:支持通过**交互式画布**直接点击添加数据点,或一键上传 CSV/Excel 自动导入。 - **平衡性能与使用**:基于cookie登录,初次使用登录一次即可保存登录状态。根据平台严格程度分别采用网页解析、接口获取等不同策略。 - **简易可视化设计**:基于streamlit框架搭建交互式网页,操作、配置简单明了,便于快速开始。 - **高级统计分析**:内置 PCA(主成分分析)、因子分析、聚类分析及多种线性/非线性回归模型,助力深度挖掘数据价值。 - **精美可视化报告**:一键生成词云图、时间分布图、IP 地理分布及情感分析报告。 --- ## 🛠️ 功能模块 ### 1. 爬虫中心 (Crawler Hub) - **Bilibili**:异步采集长视频评论,包含 IP 属地及等级过滤。 - **抖音**:支持手机版/网页版双模式,高仿真模拟用户滚动。 - **百度贴吧**:支持多链接批量采集、**Max 全页数模式**及图片自动下载。 ### 2. 数据处理与分析 (Analysis Suite) - **预处理**:自动缺失值填充、离群点检测及数据归一化。 - **拟合模型**:单元回归、多元回归及插值分析。 - **高维分析**:因子载荷矩阵、方差解释率及多维特征聚类。 --- ## 🚀 快速开始 ### 方案 A:本地运行 (推荐) 1. **安装 Python 3.10+** 2. **安装依赖项**: ```bash pip install -r requirements.txt ``` 3. **安装浏览器引擎 (用于爬虫)**: ```bash playwright install chromium ``` 4. **运行应用**: ```bash streamlit run app.py ``` ### 方案 B:Docker 部署 1. **构建镜像**: ```bash docker build -t evdp-app . ``` 2. **运行容器**: ```bash docker run -p 8501:8501 evdp-app ``` --- ## 📂 项目结构 ```text /EVDP ├── app.py # 主入口 (数据处理与拟合) ├── pages/ # 独立功能页面 (各平台爬虫) │ ├── bilibili_page.py │ ├── douyin_page.py │ └── tieba_page.py ├── core/ # 核心逻辑库 │ ├── spider/ # 爬虫引擎 │ └── analysis/ # 统计算法 └── assets/ # 静态资源 (字体、样式) ``` --- ## 📝 后续开发计划 - 1.增加更多主流平台(如知乎、微博、小红书等)的爬虫,获取更丰富的信息 - 2.进一步增加风控能力(开发线程池,提高防封能力,同时提高并发数量,加快爬取速度) - 3.增加更有用、更深入的数据分析模块。 - ... --- ## ⚠️ 免责声明 本工具仅供学习研究及数据分析使用,严禁用于任何商业目的或对目标平台造成压力的恶意爬取。请自觉遵守各平台的 Robots 协议及相关法律法规。