数据处理管道构建器

设计ETL/ELT数据处理管道，包含数据抽取、清洗、转换和加载。支持Python(Pandas/Polars)和SQL实现。

v1.0.0 开心鸟已认证

作者 / 来源

local

数据处理 ETL 数据管道 Pandas 数据清洗数据工程

登录后收藏登录后加入合集

安装方式

CLI 安装（推荐）

claw install custom-data-pipeline-builder-v1

需要安装 CLAW CLI

手动下载安装

下载 ZIP 后解压到技能目录即可安装。若在桌面客户端 WebView中直接下载出现异常，本站会改为提示页 + 原始链接，请按页内说明操作。

下载 ZIP (custom-data-pipeline-builder-v1-v1.0.0.zip)

触发指令

/data-pipeline

/clean-data

跨平台安装指引

该技能声明兼容以下 3 个平台，将 ZIP 解压到对应目录即可被识别。

支持矩阵

Claude Code Coding Agent

macOS / Linux：~/.claude/skills/

Windows：%USERPROFILE%\.claude\skills\

unzip custom-data-pipeline-builder-v1-v1.0.0.zip -d ~/.claude/skills/

Cursor Coding Agent

macOS / Linux：~/.cursor/skills/

Windows：%USERPROFILE%\.cursor\skills\

unzip custom-data-pipeline-builder-v1-v1.0.0.zip -d ~/.cursor/skills/

GitHub Copilot Coding Agent

macOS / Linux：~/.copilot/skills/

Windows：%USERPROFILE%\.copilot\skills\

unzip custom-data-pipeline-builder-v1-v1.0.0.zip -d ~/.copilot/skills/

目录不存在时请先 mkdir -p 创建；启用 Skill 后请重启对应 Agent 让配置生效。

使用指南

数据处理管道构建器

Steps

数据源分析：识别数据源类型、评估数据量级和更新频率、确认数据质量现状
管道设计：Extract(全量/增量/CDC)→Transform(清洗→标准化→聚合)→Load(覆盖/追加/Upsert)
代码实现：Pandas/Polars或PySpark、每步独立函数、数据校验断言、增量处理
质量保障：数据血缘追踪、质量检查点、异常数据隔离
调度与监控：Cron/Airflow调度、运行日志和告警

Pitfalls

管道必须支持重跑（幂等）
大文件使用chunked/streaming
时区处理统一UTC
保留原始数据备份

Verification

输入输出符合预期
数据质量检查通过
重跑测试结果一致

# 数据处理管道构建器

## Steps
1. **数据源分析**：识别数据源类型、评估数据量级和更新频率、确认数据质量现状
2. **管道设计**：Extract(全量/增量/CDC)→Transform(清洗→标准化→聚合)→Load(覆盖/追加/Upsert)
3. **代码实现**：Pandas/Polars或PySpark、每步独立函数、数据校验断言、增量处理
4. **质量保障**：数据血缘追踪、质量检查点、异常数据隔离
5. **调度与监控**：Cron/Airflow调度、运行日志和告警

## Pitfalls
- 管道必须支持重跑（幂等）
- 大文件使用chunked/streaming
- 时区处理统一UTC
- 保留原始数据备份

## Verification
- 输入输出符合预期
- 数据质量检查通过
- 重跑测试结果一致