技能库 / 数据分析 / 数据处理管道构建器

数据处理管道构建器

设计ETL/ELT数据处理管道,包含数据抽取、清洗、转换和加载。支持Python(Pandas/Polars)和SQL实现。

v1.0.0 开心鸟 已认证
作者 / 来源

local

数据处理 ETL 数据管道 Pandas 数据清洗 数据工程

安装方式

CLI 安装(推荐)

claw install custom-data-pipeline-builder-v1

需要安装 CLAW CLI

手动下载安装

下载 ZIP 后解压到技能目录即可安装。若在桌面客户端 WebView中直接下载出现异常,本站会改为提示页 + 原始链接,请按页内说明操作。

下载 ZIP (custom-data-pipeline-builder-v1-v1.0.0.zip)

触发指令

/data-pipeline
/clean-data

跨平台安装指引

该技能声明兼容以下 3 个平台,将 ZIP 解压到对应目录即可被识别。

支持矩阵
Claude Code Coding Agent
macOS / Linux:~/.claude/skills/
Windows:%USERPROFILE%\.claude\skills\
unzip custom-data-pipeline-builder-v1-v1.0.0.zip -d ~/.claude/skills/
Cursor Coding Agent
macOS / Linux:~/.cursor/skills/
Windows:%USERPROFILE%\.cursor\skills\
unzip custom-data-pipeline-builder-v1-v1.0.0.zip -d ~/.cursor/skills/
GitHub Copilot Coding Agent
macOS / Linux:~/.copilot/skills/
Windows:%USERPROFILE%\.copilot\skills\
unzip custom-data-pipeline-builder-v1-v1.0.0.zip -d ~/.copilot/skills/
目录不存在时请先 mkdir -p 创建;启用 Skill 后请重启对应 Agent 让配置生效。

使用指南

数据处理管道构建器

Steps

  1. 数据源分析:识别数据源类型、评估数据量级和更新频率、确认数据质量现状
  2. 管道设计:Extract(全量/增量/CDC)→Transform(清洗→标准化→聚合)→Load(覆盖/追加/Upsert)
  3. 代码实现:Pandas/Polars或PySpark、每步独立函数、数据校验断言、增量处理
  4. 质量保障:数据血缘追踪、质量检查点、异常数据隔离
  5. 调度与监控:Cron/Airflow调度、运行日志和告警

Pitfalls

  • 管道必须支持重跑(幂等)
  • 大文件使用chunked/streaming
  • 时区处理统一UTC
  • 保留原始数据备份

Verification

  • 输入输出符合预期
  • 数据质量检查通过
  • 重跑测试结果一致