人工智慧會取代資料工程師嗎?

人工智慧會取代資料工程師嗎?

簡而言之:人工智慧不會完全取代資料工程師;它會自動化一些重複性工作,例如編寫 SQL、建造管道、測試和文件編寫。如果你的工作主要涉及責任較小、以工單驅動,那麼人工智慧帶來的風險就更大;如果你負責可靠性、定義、治理和事件回應,那麼人工智慧主要的作用是提高你的工作效率。

重點總結:

所有權:優先考慮結果責任,而不僅僅是快速編寫程式碼。

品質:建構測試、可觀測性和契約,以確保管道的可靠性。

治理:保持隱私、存取控制、保留和審計追蹤由人負責。

防止誤用:將人工智慧的輸出視為草稿;對其進行審查以避免明顯的錯誤。

角色轉變:減少編寫樣板程式碼的時間,增加設計持久耐用系統的能量。

人工智慧會取代資料工程師嗎?資訊圖

如果你在數據團隊周圍待過超過五分鐘,你就會聽到這樣一句話——有時是低聲細語,有時則像劇情反轉一樣在會議上突然拋出:人工智能會取代數據工程師嗎?

我明白了。人工智慧可以產生 SQL、建立管道、解釋堆疊追蹤、繪製資料庫模型,甚至能以令人不安的自信推薦資料倉儲模式。 GitHub Copilot for SQL 關於資料庫模型 GitHub Copilot
這感覺就像看著堆高機學習雜耍。令人印象深刻,又有點嚇人,而且你不太確定這對你的工作意味著什麼😅

但事實遠沒有標題那麼簡單。人工智慧正在徹底改變數據工程。它正在自動化那些枯燥乏味、重複性的工作。它正在加速那些「我知道自己想要什麼,但記不住文法」的時刻。同時,它也正在催生出全新的混亂局面。.

所以,讓我們理清思路,既不要盲目樂觀,也不要慌張地瀏覽負面新聞。.

您可能還想閱讀以下文章:

🔗 人工智慧會取代放射科醫師嗎?
影像處理人工智慧如何改變工作流程、準確性和未來角色。.

🔗 人工智慧會取代會計師嗎?
看看人工智慧可以自動完成哪些會計工作,哪些工作仍需要人工完成。.

🔗 人工智慧會取代投資銀行家嗎?
了解人工智慧對交易、研究和客戶關係的影響。.

🔗 人工智慧會取代保險代理人嗎?
了解人工智慧如何改變核保、銷售和客戶支援。.


為什麼「人工智慧會取代資料工程師」這個問題總是反覆出現😬

這種恐懼源自於一個非常具體的原因:資料工程有很多可重複的工作

  • 編寫和重構 SQL

  • 建置攝取腳本

  • 將欄位從一個模式對應到另一個模式

  • 建立測試和基本文檔

  • 調試那些…某種程度上可以預見的管道故障

人工智慧特別擅長處理可重複的模式。而資料工程很大一部分工作正是如此——模式層層疊加。 GitHub Copilot 程式碼建議

此外,工俱生態系統本身就已經「隱藏」了複雜性:

所以當人工智慧出現時,感覺就像是最後一塊拼圖。如果技術棧已經抽象化,人工智慧也能編寫黏合程式碼……那還剩下什麼呢? 🤷

但人們往往忽略了一點:資料工程並非只是打字。打字很容易,困難在於如何讓複雜多變、充滿政治因素的商業現實像一個可靠的系統一樣運作。

人工智慧仍然難以應對這種模糊的情況。人類也面臨同樣的問題──只不過他們更擅長隨機應變。.


資料工程師每天的真實工作內容(不為人知的真相)🧱

坦白說,「資料工程師」這個職位名稱聽起來好像你在用純數學製造火箭引擎。但實際上,你是在建立信任

典型的一天與其說是“發明新演算法”,不如說是:

  • 與上游團隊協商資料定義(雖然痛苦但必要)

  • 調查指標變化的原因(以及變化是否真實存在)

  • 處理模式漂移和“有人在午夜添加了一列”之類的意外情況

  • 確保管道具有冪等性、可恢復性和可觀測性

  • 創建防護措施,防止下游分析師意外建構無意義的儀錶板。

  • 控製成本,別讓你的倉庫變成燒錢的火坑 🔥

  • 確保存取安全、審計、合規性、資料保留策略GDPR 原則(歐盟委員會) 儲存限制(ICO)

  • 建構人們無需私訊就能真正使用的數據產品 20 個問題

這項工作很大一部分是社交和營運方面的:

  • “這張桌子是誰的?”

  • “這個定義現在還有效嗎?”

  • 為什麼 CRM 系統會匯出重複資料?

  • 「我們能毫無尷尬地把這個指標寄給高階主管嗎?」😭

人工智慧當然可以在某些方面提供幫助。但要完全取代人工……那就有點誇張了。.


優秀的資料工程師需要具備哪些特質? ✅

這一部分很重要,因為關於人員更替的討論通常假設資料工程師主要是「管道建構者」。這就像假設廚師主要是「切菜」一樣。切菜是工作的一部分,但並非全部工作內容。.

優秀的資料工程師通常能夠做到以下大部分工作:

  • 為變化而設計
    。數據會變,團隊會變,工具也會改變。優秀的工程師會建構不會因為現實的一點變化而崩潰的系統🤧

  • 明確合約和預期。
    「客戶」指的是什麼? 「活躍」指的是什麼?如果資料行延遲到達會發生什麼?合約比複雜的程式碼更能防止混亂。開放資料合約標準 (ODCS) ODCS (GitHub)

  • 將可觀測性融入所有環節,
    不僅僅是“運行了沒有”,而是“運行是否正確”。新鮮度、成交量異常、空值爆炸、分佈偏移等都是需要考慮的因素。資料可觀測性(Dynatrace): 什麼是資料可觀測性?

  • 像成年人一樣權衡取捨:
    速度與正確性、成本與延遲、靈活性與簡易性。沒有完美的流水線,只有你能接受的流水線。

  • 將業務需求轉化為持久的系統。
    人們需要的是指標,但他們真正需要的是數據產品。人工智慧可以編寫程式碼,但它無法神奇地預測業務中的各種陷阱。

  • 讓數據保持沉默。
    對數據平台來說,最高的讚譽莫過於無人提及。平靜的數據才是好數據,就像管道系統一樣,只有在發生故障時才會被注意到。 🚽

如果你正在做這些事情,那麼「人工智慧會取代資料工程師嗎?」聽起來就有點……不太合適了。人工智慧可以取代任務,但不能取代所有權


人工智慧已經在幫助資料工程師了(而且效果真的很棒)🤖✨

人工智慧不僅僅是行銷工具。如果運用得當,它能真正成為一種強大的力量倍增器。.

1)更快的 SQL 和轉換工作

  • 繪製複雜連接圖

  • 寫出你不想去思考的視窗函數

  • 將純語言邏輯轉換為查詢框架

  • 將醜陋的查詢重構為易讀的 CTE(公用表表達式) GitHub Copilot for SQL

這意義重大,因為它減少了“空白頁”效應。雖然仍然需要驗證,但驗證的起始點從 70% 變成了 0%。.

2)調試和根本原因分析

人工智慧擅長:

  • 解釋錯誤訊息

  • 建議去哪裡找

  • GitHub Copilot
    建議執行「檢查模式不符」之類的步驟。這就像有個不知疲倦的初級工程師,從不睡覺,有時還會自信地說謊😅

3)文件和資料目錄豐富化

自動產生:

  • 列描述

  • 模型概要

  • 血統解釋

  • “這張表是做什麼用的?” dbt 文件

它並不完美,但它打破了沒有文檔化的管道的魔咒。.

4)測試腳手架並進行檢查

人工智慧可以提出:

再次強調——你仍然決定什麼最重要,但這可以加快日常工作的速度。.

5)管道“黏合劑”代碼

設定範本、YAML 鷹架、編排 DAG 草稿。這些東西重複性太高,而 AI 最討厭重複工作了🥣 Apache Airflow DAG


人工智慧仍面臨挑戰的地方(而這正是問題的核心所在)🧠🧩

這是最重要的部分,因為它用真實的質感回答了替換問題。.

1)定義模糊性和不斷變化的情況

商業邏輯很少清晰明了。人們說話說到一半就改變主意。 “活躍用戶”變成了“活躍付費用戶”,又變成了“活躍付費用戶(不包括退款,但有時除外)”…你懂的。.

人工智慧無法掌握這種模糊性,它只能猜測。.

2)問責制和風險

當管線發生故障,高階主管儀錶板顯示錯誤訊息時,必須有人來處理:

  • 分診

  • 溝通影響

  • 修復它

  • 防止復發

  • 撰寫屍檢報告

  • 決定企業是否還能相信上週的數據。

人工智慧可以提供幫助,但它無法真正承擔責任。組織的運作並非依靠感覺,而是依靠責任。.

3)系統思維

資料平台是一個生態系統:包​​括資料攝取、儲存、轉換、編排、治理、成本控制和服務等級協定 (SLA)。任何一層的改變都會產生連鎖反應。 Apache Airflow 概念

人工智慧可能會提出一些局部最佳化方案,但卻造成全局性的弊端。這就像為了修好吱吱作響的門而把門拆掉一樣😬

4) 安全、隱私、合規性

這裡是替代幻想的墳墓。.

人工智慧可以製定政策,但安全地實施這些政策卻是一項真正的工程。.

5)“未知的未知”

資料安全事件往往難以預測:

  • 供應商 API 悄無聲息地改變了語義

  • 時區假設發生改變。

  • 回填作業會複製一個分割區

  • 重試機制會導致重複寫入。

  • 新產品功能引入了新的事件模式

當情況並非已知模式時,人工智慧的效能就會降低。.


對比表:實際應用中哪些因素減少了哪些因素🧾🤔

以下是一個務實的觀點。這裡指的不是“取代人的工具”,而是能夠簡化某些任務的工具和方法。.

工具/方法 觀眾 價格氛圍 為什麼有效
AI 程式碼助理(SQL + Python 輔助工具) GitHub Copilot 編寫大量程式碼的工程師 免費或半免費到付費 擅長搭建鷹架、重構和語法……有時會以一種非常特殊的方式自負。
Fivetran 管理型 ELT 連接器 團隊厭倦了建立攝取系統 訂閱 消除客製化攝取疼痛,但以有趣的新方式打破常規
資料可觀測性平台資料可觀測性(Dynatrace) 任何擁有服務水平協議的人 中型到企業級 及早發現異常狀況-就像管道煙霧警報器一樣🔔
轉換框架(聲明式建模) dbt 分析 + 資料增強混合 通常工具+計算 使邏輯模組化和可測試,減少程式碼混亂。
資料目錄 + 語意層dbt 語意層 存在指標混亂的組織 實際上,這取決於具體情況。 只需定義一次“真理”,即可減少無休止的指標爭論。
使用模板進行編排Apache Airflow 平台型團隊 開放營運成本 標準化工作流程;減少雪花狀DAG
AI輔助文件生成 討厭寫文件的團隊 價格低至中等 製作「夠好」的文檔,以免知識消失。
自動化治理策略NIST 隱私框架 受監管的環境 企業級 有助於規則的執行-但仍需要人來設計規則。

注意一下,少了一行:「按按鈕移除資料工程師」。嗯……這一行不存在🙃


那麼……人工智慧會取代資料工程師,還是只是改變他們的角色? 🛠️

答案比較簡單:人工智慧將取代部分工作流程,但不會取代整個職業。

但這重新定義這個角色。如果你忽視這一點,你就會感到壓力。

變化內容:

  • 減少編寫樣板程式碼的時間

  • 減少查找文檔的時間

  • 更多時間用於審查、驗證和設計

  • 更多時間定義合約和品質預期開放資料合約標準(ODCS)

  • 更多時間與產品、安全和財務部門合作

這就是微妙的轉變:資料工程不再是“建置管道”,而是“建立可靠的資料產品系統”。

而令人意想不到的是,這反而更有價值,而不是更不值錢。.

另外——雖然這話聽起來有點誇張——人工智慧增加了能夠產生數據產物的人數,這就需要有人來維護整個系統的秩序。更多的數據輸出意味著更多的潛在混亂。 GitHub Copilot

這就像給每個人都發了一把電鑽。太棒了!現在需要有人來執行「請勿鑽入水管」的規定🪠


即使人工智慧無所不在,這套新的技能組合依然很有價值🧠⚙️

如果您想要一份實用且「面向未來」的清單,它看起來像這樣:

系統設計思維

  • 能夠經得起變化的資料建模

  • 批量處理與流式處理的權衡

  • 延遲、成本、可靠性思考

數據品質工程

治理與信任架構

平台思維

  • 可重用的模板,黃金路徑

  • Fivetran dbt 資料測試的標準化攝取、轉換和測試模式

  • 不會崩潰的自助式工具

溝通(沒錯,就是溝通)

  • 撰寫清晰的文檔

  • 對齊定義

  • 禮貌而堅定地說“不”

  • 解釋權衡取捨時,語氣不要像機器人一樣生硬🤖

如果你能做到這些,「人工智慧會取代資料工程師嗎?」這個問題就不再那麼令人擔憂了。人工智慧會成為你的外骨骼,而不是你的替代品。.


資料工程職位縮減的現實場景📉

好了,現實是,並非事事都那麼美好🎉

有些角色更容易受到關注:

  • 純粹的僅數據攝取角色,所有連接器均為標準連接器,例如Fivetran 連接器

  • 團隊主要執行重複性的報告流程,缺乏領域細微差別

  • 在某些組織中,資料工程師被視為「SQL猴子」(雖然殘酷,但卻是事實)。

  • 責任感低的崗位,工作內容只是處理工單和複製貼上。

人工智慧加上管理式工具可以減少這些需求。.

但即便如此,替換通常也是這樣的:

  • 從事重複性工作的人數減少了

  • 更重視平台所有權和可靠性

  • 向「一個人可以支持更多管道」的轉變

所以,沒錯-人員配置模式會改變。角色會演變。職稱會改變。這都是事實。.

不過,這種高所有權、高信任度的角色模式仍然存在。.


總結🧾✅

人工智慧會取代資料工程師嗎?不會像人們想像的那樣徹底、乾淨俐落地取代他們。

人工智慧將:

但數據工程的本質在於:

人工智慧可以為此提供幫助……但它並不「擁有」它。.

如果你是資料工程師,轉型其實很簡單(雖然不容易,但很簡單):
專注於所有權、品質、平台思維和溝通。讓 AI 處理繁瑣的重複性工作,而你則專注於真正重要的部分。

沒錯──有時候這意味著要做房間裡那個成熟穩重的人。雖然不光鮮亮麗,但卻蘊含著強大的力量😄

人工智慧會取代資料工程師嗎?
它會取代一些工作,重新洗牌,並讓最優秀的資料工程師更有價值。這才是真相。


常問問題

人工智慧會完全取代資料工程師嗎?

在大多數組織中,人工智慧更有可能接管特定任務,而不是徹底取代某個角色。它可以加速 SQL 編寫、管道構建、文檔初稿編寫和基礎測試創建。但資料工程也包含所有權和責任,以及將混亂的業務現實轉化為可靠系統運作的艱鉅工作。這些部分仍然需要人來判斷「正確」的標準,並在出現問題時承擔責任。.

人工智慧已經在自動化資料工程的哪些部分?

人工智慧在可重複性工作中表現最佳:例如編寫和重構 SQL、生成資料庫模型框架、解釋常見錯誤以及生成文件大綱。它還可以建立測試框架,例如空值檢查或唯一性檢查,並為編排工具產生模板「黏合」程式碼。其優勢在於能夠快速推進——你離最終的解決方案更近了一步——但你仍然需要驗證其正確性並確保它適合你的環境。.

如果人工智慧可以編寫 SQL 和管道,那麼資料工程師還能做什麼呢?

工作內容繁多:定義資料契約、處理模式漂移、確保管道冪等、可觀察且可恢復。資料工程師需要花費大量時間研究指標變更、為下游使用者建立安全防護措施,以及權衡成本和可靠性。這項工作最終往往歸結為建立信任,並保持數據平台的“穩定”,也就是說,平台要足夠穩定,無需日常維護。.

人工智慧如何改變資料工程師的日常工作?

它通常可以精簡樣板代碼和“查找時間”,讓您減少打字時間,將更多精力投入到審查、驗證和設計中。這種轉變促使您將工作重心從手動編寫所有程式碼轉向定義預期、品質標準和可重複使用模式。實際上,您可能需要與產品、安全和財務部門進行更多合作——因為技術產出更容易創建,但更難管理。.

為什麼人工智慧難以處理像「活躍用戶」這樣意義模糊的業務定義?

因為業務邏輯並非一成不變或精確無誤——它會在專案進行過程中發生變化,並且因利害關係人而異。人工智慧可以提出解釋,但當定義演變或出現衝突時,它無法做出最終決定。資料工程通常需要協商、記錄假設,並將模糊的需求轉化為持久的合約。這種「人為協調」的工作是即使工具不斷改進,資料工程這個角色仍然不可或缺的核心原因。.

人工智慧能否安全地處理資料治理、隱私和合規性工作?

人工智慧可以輔助制定政策或提出方案,但安全實施仍需真正的工程設計和嚴密的監督。治理涉及存取控制、個人識別資訊處理、保留規則、審計追踪,有時還包括駐留限制。這些都是高風險領域,「差不多就行」是絕對不可接受的。必須由人來制定規則、驗證執行情況,並對合規結果負責。.

隨著人工智慧技術的進步,哪些技能對資料工程師來說仍然很有價值?

提升系統韌性的關鍵技能包括:系統設計思維、資料品質工程和平台導向的標準化。當更多人能夠快速產生資料工件時,合約、可觀測性、事件回應機制和嚴謹的根本原因分析就顯得特別重要。溝通也成為制勝法寶——統一定義、編寫清晰的文件以及以平和的方式解釋權衡取捨,是確保數據可信度的重要組成部分。.

哪些資料工程職位最容易受到人工智慧和託管工具的影響?

專注於重複性資料攝取或標準報告流程的角色更容易受到衝擊,尤其是在託管式 ELT 連接器覆蓋大部分資料來源的情況下。由於人工智慧和抽象化降低了每個流程的工作量,低責任感、工單驅動型的工作可能會減少。但這通常表現為從事重複性任務的人員減少,而不是「資料工程師」的消失。以可靠性、品質和信任為核心的高責任感角色仍然能夠保持穩定。.

如何在不造成混亂的情況下將 GitHub Copilot 或 dbt 等工具與人工智慧結合使用?

將 AI 輸出視為草稿,而非最終決策。利用它來產生查詢框架、提升程式碼可讀性或建立資料庫測試和文件框架,然後使用真實資料和極端情況進行驗證。同時,配合嚴格的規範:契約、命名標準、可觀測檢查和審查機制。目標是在不犧牲可靠性、成本控製或治理的前提下,實現更快的交付速度。.

參考

  1. 歐盟委員會-資料保護詳解:GDPR 原則- commission.europa.eu

  2. 英國資訊專員辦公室 (ICO) -儲存限制- ico.org.uk

  3. 歐盟委員會-資料可以保存多久?是否需要更新? - commission.europa.eu

  4. 美國國家標準與技術研究院 (NIST) -隱私框架- nist.gov

  5. 美國國家標準與技術研究院電腦安全資源中心 (CSRC) - SP 800-92:電腦安全日誌管理指南- csrc.nist.gov

  6. 網路安全中心 (CIS) -稽核日誌管理(CIS 控制) - cisecurity.org

  7. Snowflake 文件-行訪問策略- docs.snowflake.com

  8. Google Cloud 文件- BigQuery 行級安全性- docs.cloud.google.com

  9. BITOL -開放資料合約標準 (ODCS) v3.1.0 - bitol-io.github.io

  10. BITOL(GitHub) -開放資料合約標準- github.com

  11. Apache Airflow -文件(穩定版) - airflow.apache.org

  12. Apache Airflow - DAG(核心概念) - airflow.apache.org

  13. dbt Labs 文件-什麼是 dbt? - docs.getdbt.com

  14. dbt Labs 文件-關於 dbt 模型- docs.getdbt.com

  15. dbt Labs 文件-文檔- docs.getdbt.com

  16. dbt Labs 文件-資料測試- docs.getdbt.com

  17. dbt Labs 文件- dbt 語意層- docs.getdbt.com

  18. Fivetran 文件-入門指南- fivetran.com

  19. Fivetran -連接器- fivetran.com

  20. AWS 文件- AWS Lambda 開發人員指南- docs.aws.amazon.com

  21. GitHub - GitHub Copilot - github.com

  22. GitHub 文件-使用 GitHub Copilot 在 IDE 中取得程式碼建議- docs.github.com

  23. Microsoft Learn - GitHub Copilot for SQL(VS Code 擴充功能) - learn.microsoft.com

  24. Dynatrace 文件-資料可觀測性- docs.dynatrace.com

  25. DataGalaxy -什麼是資料可觀測性? - datagalaxy.com

  26. 《遠大前程》文檔-預期概述- docs.greatexpectations.io

在官方人工智慧助理商店尋找最新人工智慧產品

關於我們

返回博客