在 AI 技术从 "实验性" 走向 "企业级落地" 的关键阶段,数据工程作为底层支撑的重要性愈发凸显。近日,DZone 发布的《2025 数据工程趋势报告》(Scaling Intelligence with the Modern Data Stack)通过对全球 123 位 IT 专业人士的调研,揭示了当前数据工程领域的核心趋势、技术选型偏好与实践痛点。本文将梳理报告的核心发现,并解读其对数据工程师、架构师及技术管理者的实践价值。
一、报告概览:调研背景与核心基调
DZone 本次调研覆盖了全球范围内的开发者、架构师等 IT 从业者,样本呈现三大特征:
角色集中:32% 为 "开发者 / 工程师",10% 为 "开发团队负责人",核心受访者均深度参与数据系统构建;
技术栈成熟:80% 企业使用 Python 生态,50% 从业者以 Python 为主要工作语言,Java(22%)位居第二;
经验丰富:受访者平均 IT 从业经验达 14.65 年,中位数 13 年,反馈具备较强实践参考性。
报告核心基调明确:企业数据能力正从 "技术堆砌" 转向 "整合优化"------ 不再盲目追逐新工具,而是聚焦成本控制、性能监控与流程编排,以适配 AI 原生架构、实时分析等新需求。
二、核心发现:数据工程的三大 "转向"
1. 存储架构:从 "混合分散" 转向 "云原生主导"
数据存储是本次调研的重点领域,结果显示 "云原生" 已成为不可逆趋势:
云存储占比大幅提升:49% 企业主要采用 "纯云存储",较 2024 年的 30% 增长 19 个百分点;而混合存储(37%,-11%)、本地私有存储(10%,-10%)占比显著下降;
迁移动机务实化:"维持高可用性"(44%)、"降低成本"(39%)、"提升数据可访问性"(34%)是云迁移的三大核心诉求,其中大企业更倾向通过云迁移实现 "现代化改造" 与 "AI 分析支撑";
存储架构分层明显 :55% 企业使用数据仓库,47% 使用数据湖,27% 使用湖仓一体(Lakehouse);大企业(1000 + 员工)是 "湖仓一体" 的主要实践者(38%),小企业(<100 人)因规模限制,数据仓库使用率仅 37%(低于整体 55%)。
2. 数据安全:从 "工具堆砌" 转向 "体系化落地"
尽管数据安全的重要性达成共识,但实践呈现 "认知与落地脱节" 的特点:
核心策略集中:62% 企业依赖 "加密与安全传输"" 访问控制与认证 ",59% 关注" 合规性标准 ",三者构成安全实践的" 铁三角 ";
实践 Adoption 下降:与 2024 年相比,"灾难恢复"(-22%)、"数据脱敏"(-21%)、"安全编码"(-22%)等实践的使用率显著下滑,推测与 "依赖云厂商默认安全能力"" 成本压缩 " 有关;
威胁感知聚焦:60% 企业最担忧 "数据泄露",50% 关注 "认证与访问控制失效",43% 警惕 "不安全数据处理",中小企业对 "弱加密" 的担忧更突出(40%,高于大企业 17%)。
3. 数据管道:从 "批量离线" 转向 "实时 AI 适配"
数据管道是支撑 AI 落地的核心环节,调研显示其正在向 "实时化、AI 原生" 转型:
ETL 工作量高企:从业者平均 30% 工作时间用于 ETL/ELT,大企业(35%)与小企业(33%)耗时更高,中型企业(20%)因流程成熟度居中;
工具选型分化 :48% 企业仍依赖 "手动数据库导入 / 导出",33% 使用 "专业 ETL 工具"(较 2024 年下降 11%);大企业更偏好专业工具(40%),小企业则依赖 "临时批处理脚本"(43%);
AI 数据准备待加强:仅 18% 从业者 "非常自信" 于 AI/ML 数据准备最佳实践,39% 通过 "API 实时供数" 支撑生成式 AI,36% 使用向量数据库实现 RAG(检索增强生成),但小企业的数据质量实践覆盖率显著低于大企业。