如何選擇正確的數(shù)據(jù)集成工具
如今的數(shù)據(jù)往往來自文件系統(tǒng)、數(shù)據(jù)湖或存儲庫。
為了滿足各類業(yè)務需求,我們必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)相集成,從而支持分析、面向客戶的應用程序或者內(nèi)部工作流。
而這又帶來了新的問題——我們該如何選擇正確的數(shù)據(jù)集成工具,從而對各類數(shù)據(jù)加以歸納?
今天的文章將就此展開探討。
數(shù)據(jù)不在一個數(shù)據(jù)庫,文件系統(tǒng),數(shù)據(jù)庫或存儲庫中。
為了滿足許多業(yè)務需求,必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)集成,然后用于分析,面向客戶的應用程序或內(nèi)部工作流程。
例子包括:
·來自電子商務應用程序的數(shù)據(jù)與用戶分析,客戶關(guān)系管理中的客戶數(shù)據(jù)以及其他主數(shù)據(jù)源集成在一起,以建立客戶群并定制營銷信息。
·物聯(lián)網(wǎng)傳感器數(shù)據(jù)與運營和財務數(shù)據(jù)庫中的數(shù)據(jù)相關(guān)聯(lián),以控制吞吐量并報告制造過程的質(zhì)量。
·員工工作流應用程序,可將跨多個SaaS平臺和內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和工具連接到一個易于使用的移動界面。
許多組織也對數(shù)據(jù)科學家,數(shù)據(jù)分析師和創(chuàng)新團隊提出了數(shù)據(jù)要求,他們在集成內(nèi)部和外部數(shù)據(jù)源方面的需求日益增長:
·開發(fā)預測模型的數(shù)據(jù)科學家通常會加載多種外部數(shù)據(jù)源,例如計量經(jīng)濟學,天氣,人口普查和其他公共數(shù)據(jù),然后將其與內(nèi)部資源融合。
·試驗人工智能的創(chuàng)新團隊需要匯總可用于訓練和測試算法的大型復雜數(shù)據(jù)源。
·業(yè)務和數(shù)據(jù)分析師,特別是曾經(jīng)在電子表格中執(zhí)行分析的數(shù)據(jù)驅(qū)動營銷部門,現(xiàn)在可能需要更復雜的工具來加載,加入和處理多個數(shù)據(jù)饋送。
1. 數(shù)據(jù)技術(shù)與功能市場規(guī)模龐大
問題是:用什么工具和做法來整合數(shù)據(jù)源?
什么平臺被用來自動化操作數(shù)據(jù)?
正在委托哪些工具供數(shù)據(jù)科學家和數(shù)據(jù)分析師在使用新數(shù)據(jù)源時更加努力?
在開發(fā)跨多個數(shù)據(jù)源和API進行交易的應用程序時,有效的開發(fā)和開發(fā)工具能夠?qū)崿F(xiàn)更快速的應用程序開發(fā)?
由于許多組織具有不同類型,數(shù)量和速度的數(shù)據(jù),并隨著時間的推移而產(chǎn)生不同的業(yè)務需求,因此可能已有不同的方法和工具用于集成數(shù)據(jù)。
很容易堅持這些,并將它們擴展到新的使用案例。雖然使用數(shù)據(jù)工具的任何人可能比其他人更熟悉一種方法,但對于具有多種業(yè)務和用戶需求的組織而言,應用一刀切的數(shù)據(jù)集成方法可能并不是最佳選擇。 此外,隨著越來越多的組織投資于數(shù)據(jù)解決方案,大數(shù)據(jù)解決方案有一個健康的市場。
結(jié)果是現(xiàn)在有許多新的平臺和工具來支持數(shù)據(jù)集成和處理。
有了這么多的工具,希望將數(shù)據(jù)處理作為核心功能的組織應考慮各種工具類型,根據(jù)業(yè)務和技術(shù)需要應用這些工具類型。
與數(shù)據(jù)技術(shù)合作或負責數(shù)據(jù)技術(shù)的技術(shù)人員應該熟悉可用工具的類型。
在這里,我調(diào)查了七種主要類型的工具:
·編程和腳本數(shù)據(jù)集成
·傳統(tǒng)的提取,轉(zhuǎn)換和加載(ETL)工具
·數(shù)據(jù)高速公路SaaS平臺
·面向用戶和數(shù)據(jù)科學家的數(shù)據(jù)準備工具
·用于應用程序開發(fā)的API和數(shù)據(jù)集成
·具有數(shù)據(jù)集成功能的大數(shù)據(jù)企業(yè)平臺
·AI注入數(shù)據(jù)集成平臺
2. 數(shù)據(jù)集成編程與腳本
對于任何具有基本編程技能的人來說,將數(shù)據(jù)從源文件移動到目標文件的最常見方式是開發(fā)一個簡短的腳本。
這可以在具有存儲過程的數(shù)據(jù)庫內(nèi)完成,作為按預定作業(yè)運行的腳本完成,也可以是部署到無服務器體系結(jié)構(gòu)的小型數(shù)據(jù)處理代碼片段。
這些腳本通常以幾種模式之一運行。
它們可以按照預定義的時間表運行,也可以作為由事件觸發(fā)的服務運行,或者在滿足定義的條件時作出響應。
他們可以從多個來源獲取數(shù)據(jù),在將數(shù)據(jù)傳送到目標數(shù)據(jù)源之前加入,過濾,清理驗證和轉(zhuǎn)換數(shù)據(jù)。 腳本是移動數(shù)據(jù)的快捷方式,但它不被認為是專業(yè)級的數(shù)據(jù)處理方法。
要成為生產(chǎn)級的數(shù)據(jù)處理腳本,它需要自動執(zhí)行處理和傳輸數(shù)據(jù)所需的步驟,并處理多種操作需求。
例如,如果腳本正在處理大量數(shù)據(jù)或快速移動的數(shù)據(jù),則可能需要使用Apache Spark或其他并行處理引擎來運行多線程作業(yè)。
如果輸入數(shù)據(jù)不干凈,程序員應該啟用異常處理并在不影響數(shù)據(jù)流的情況下踢出記錄。
程序員還應該執(zhí)行重要的計算步驟記錄以便于調(diào)試。
編寫腳本來支持這些操作需求并不是微不足道的。
它要求開發(fā)人員預測數(shù)據(jù)集成和相應程序可能出現(xiàn)的問題。
另外,開發(fā)自定義腳本在使用許多實驗數(shù)據(jù)源時可能不具有成本效益。
最后,數(shù)據(jù)集成腳本通常難以完成知識轉(zhuǎn)移知識,并且難以跨多個開發(fā)人員進行維護。
出于這些原因,具有較大數(shù)據(jù)集成需求的組織通常會超越編程和腳本數(shù)據(jù)集成。
3. 傳統(tǒng)提取、轉(zhuǎn)換與加載(簡稱ETL)工具
自20世紀70年代以來,抽取,轉(zhuǎn)換和加載(ETL)技術(shù)已經(jīng)出現(xiàn),IBM,Informatica,Microsoft,Oracle,Talend等平臺在功能,性能和穩(wěn)定性方面已經(jīng)成熟。
這些平臺提供可視化編程工具,讓開發(fā)人員能夠分解并自動執(zhí)行從源中提取數(shù)據(jù),執(zhí)行轉(zhuǎn)換并將數(shù)據(jù)推送到目標存儲庫的步驟。
由于它們是可視化的,并將數(shù)據(jù)流分解為原子步驟,與難以解碼的腳本相比,管道更易于管理和增強。
另外,ETL平臺通常提供操作界面來顯示數(shù)據(jù)管道崩潰的位置并提供重啟它們的步驟。
多年來,ETL平臺增加了許多功能。
大多數(shù)人可以處理來自數(shù)據(jù)庫,平面文件和Web服務的數(shù)據(jù),無論他們是在本地,在云中還是在SaaS數(shù)據(jù)存儲中。
它們支持各種數(shù)據(jù)格式,包括關(guān)系數(shù)據(jù),XML和JSON等半結(jié)構(gòu)化格式,以及非結(jié)構(gòu)化數(shù)據(jù)和文檔。
許多工具都使用Spark或其他并行處理引擎來并行化作業(yè)。企業(yè)級ETL平臺通常包括數(shù)據(jù)質(zhì)量功能,因此數(shù)據(jù)可以通過規(guī)則或模式進行驗證,并將異常發(fā)送給數(shù)據(jù)管理員進行解決。
一個常見的ETL示例是組織何時將銷售前景的新文件加載到CRM中。
在加載之前,這些數(shù)據(jù)源通常需要清理物理和電子郵件地址,這可以通過使用規(guī)則和標準數(shù)據(jù)源進行轉(zhuǎn)換來完成。
然后將清理后的記錄與CRM中已經(jīng)存在的記錄進行匹配,以便現(xiàn)有記錄得到增強,同時添加之前沒有的數(shù)據(jù)并添加新記錄。
如果ETL很難確定某行是匹配還是新記錄,則可以將其標記為要審查的異常。 當數(shù)據(jù)源持續(xù)提供新數(shù)據(jù)并且目標數(shù)據(jù)存儲的數(shù)據(jù)結(jié)構(gòu)不會頻繁更改時,通常會使用ETL平臺。
這些平臺專為開發(fā)人員編寫ETL而設計,因此對于混合專有,商業(yè)和開放數(shù)據(jù)存儲的數(shù)據(jù)流操作最為有效。
4. 面向SaaS平臺的數(shù)據(jù)高速公路
但是,是否有更有效的方法從常見數(shù)據(jù)源中提取數(shù)據(jù)?也許主要數(shù)據(jù)目標是從Salesforce,Microsoft Dynamics或其他常見CRM程序中提取帳戶或客戶聯(lián)系人。
或者,營銷人員希望從Google Analytics等工具中提取網(wǎng)絡分析數(shù)據(jù),或試圖將客戶數(shù)據(jù)推送到營銷工具(如Mailchimp)中。
您應該如何防止SaaS平臺成為云中的數(shù)據(jù)孤島,并輕松實現(xiàn)雙向數(shù)據(jù)流?
如果您已經(jīng)擁有ETL平臺,請查看供應商是否提供通用SaaS平臺的標準連接器,或者有可以從開發(fā)合作伙伴處購買的市場。
如果您沒有在ETL平臺上進行投資,并且您的數(shù)據(jù)集成需求主要是連接通用平臺,那么您可能需要一個易于使用的工具來構(gòu)建簡單的數(shù)據(jù)高速公路。
Scribe,Snaplogic和Stitch等數(shù)據(jù)高速公路工具提供了簡單的網(wǎng)絡界面,可以連接到常見的數(shù)據(jù)源,選擇感興趣的領(lǐng)域,執(zhí)行基本轉(zhuǎn)換,并將數(shù)據(jù)推送到常用目的地。
數(shù)據(jù)高速公路的另一種形式有助于更接近實時地整合數(shù)據(jù)。
它通過觸發(fā)器進行操作,因此當源系統(tǒng)中的數(shù)據(jù)發(fā)生更改時,可以將其操作并推送到輔助系統(tǒng)。
IFTTT,Workato和Zapier就是這類工具的例子。
這些工具對于將單個記錄從一個SaaS平臺轉(zhuǎn)移到另一個SaaS平臺時使用“如果是這樣的”邏輯特別有用。在評估它們時,請考慮它們集成的平臺數(shù)量,處理邏輯的功能和簡單性以及價格,以及特定于您的需求的任何因素。
5. 面向用戶與數(shù)據(jù)科學家的數(shù)據(jù)準備工具
當非技術(shù)和技術(shù)含量較低的用戶想要加載和清理新的數(shù)據(jù)源時,有一種新的數(shù)據(jù)準備工具針對這些用戶,以幫助他們執(zhí)行數(shù)據(jù)集成。
要實施基本的數(shù)據(jù)集成和混合,請考慮貴組織中任何商業(yè)智能系統(tǒng)已提供的數(shù)據(jù)集成功能。
Looker,QlikView和Tableau等工具提供基本的數(shù)據(jù)集成,建模和轉(zhuǎn)換。
您還可以使用它們發(fā)布和共享虛擬數(shù)據(jù)源。
如果數(shù)據(jù)科學家和數(shù)據(jù)分析師正在處理大量數(shù)據(jù)源或花費大量時間來處理數(shù)據(jù),則與BI工具集成的數(shù)據(jù)準備工具可能是明智的投資。
什么是數(shù)據(jù)爭奪?這是業(yè)務用戶和數(shù)據(jù)科學家需要在數(shù)據(jù)源上進行的所有工作,以使其可用于分析。
它通常從分析數(shù)據(jù)開始,逐場分析顯示有多少百分比有數(shù)值與數(shù)據(jù)集有什么不同值。
使用配置文件數(shù)據(jù),分析師會清理具有不同值的字段(例如“紐約”和“紐約”),合并和刪除字段,或使用公式創(chuàng)建計算字段。
他們還可以執(zhí)行行級操作,如刪除重復項和合并記錄。
數(shù)據(jù)準備工具通常圍繞類似電子表格的用戶界面進行設計,以便讓用戶可視化數(shù)據(jù)配置文件并混合數(shù)據(jù)源。
但與傳統(tǒng)電子表格不同,這些工具捕獲用戶執(zhí)行的數(shù)據(jù)處理步驟并啟用可視化和編輯操作。
這些工具中的大多數(shù)可以使用它們捕獲的這些腳本來自動化具有持續(xù)運營需求的數(shù)據(jù)饋送的數(shù)據(jù)流。 有獨立的數(shù)據(jù)準備工具,如Alteryx,Paxata和Trifacta。
另外,傳統(tǒng)的ETL廠商如IBM和Talend已經(jīng)開發(fā)了面向商業(yè)用戶和數(shù)據(jù)科學家的數(shù)據(jù)準備工具。
6. 用于應用程序開發(fā)的API與數(shù)據(jù)集成方案
如果您的目標是開發(fā)需要連接到多個數(shù)據(jù)源和API的Web或移動應用程序,則有API和應用程序開發(fā)工具可以簡化這些集成。
這些工具不是將數(shù)據(jù)集成到中央存儲庫中,而是提供各種選項,以便在使用多個API和數(shù)據(jù)源時支持更快的應用程序開發(fā)。
應用程序集成有幾種不同的平臺類型和工具提供者Dell Boomi,Jitterbit和Mulesoft等平臺旨在簡化API和數(shù)據(jù)訪問,并充當數(shù)據(jù)總線以集中交互。
像Built.io,OutSystems和Pow Wow Mobile這樣的低代碼和移動開發(fā)平臺可以實現(xiàn)集成,并提供開發(fā)和開發(fā)環(huán)境,以快速構(gòu)建和運行應用程序。
7. 大數(shù)據(jù)企業(yè)平臺與數(shù)據(jù)集成功能
如果您正在Hadoop或其他大數(shù)據(jù)平臺之上開發(fā)功能,您可以選擇將數(shù)據(jù)集成到這些數(shù)據(jù)存儲:
·您可以開發(fā)腳本或使用支持大數(shù)據(jù)平臺的ETL工具作為端點。
·您可以選擇具有ETL,數(shù)據(jù)治理,數(shù)據(jù)質(zhì)量,數(shù)據(jù)準備和主數(shù)據(jù)功能的端到端數(shù)據(jù)管理平臺。
你可以做到這一點。
許多提供ETL工具的供應商也出售具有這些增加的大數(shù)據(jù)功能的企業(yè)平臺。
還有像Datameer和Unifi這樣的新興平臺可以實現(xiàn)自助服務(如數(shù)據(jù)準備工具),但是可以在支持供應商的Hadoop發(fā)行版之上運行。
8. AI驅(qū)動型數(shù)據(jù)集成平臺
在跨腳本,ETL,數(shù)據(jù)準備,應用程序集成服務和大數(shù)據(jù)平臺的過程中,為開發(fā)人員,數(shù)據(jù)科學家,數(shù)據(jù)管理員和分析人員提供了大量實際的手動數(shù)據(jù)集成工作。
供應商知道這一點,而一些下一代數(shù)據(jù)集成工具和功能將包括人工智能(AI)功能,以幫助自動化重復性任務或識別難以找到的數(shù)據(jù)模式。
例如,Informatica正在營銷Claire,“智能數(shù)據(jù)平臺”,而Snaplogic正在營銷Iris,它“推動自我驅(qū)動整合”。
9. 找到正確的數(shù)據(jù)集成工具組合
考慮到平臺類型,每個空間競爭的供應商數(shù)量以及用于分類選項的分析師術(shù)語,數(shù)據(jù)集成選項列表可能令人望而生畏。
那么,您如何才能為現(xiàn)在和未來的數(shù)據(jù)集成需求決定正確的工具組合?
簡單的答案是它需要一些紀律。
首先清點已經(jīng)使用的工具,編制成功應用的使用案例的編目,并成功地使用這些工具捕獲人員。
向他們提供其他難以實施解決方案的示例用例,因此在尋找其他工具時可能會有所幫助。
了解數(shù)據(jù)集成主題專家的感受。
也許有數(shù)據(jù)集成腳本需要持續(xù)維護,財務團隊對重復性工作感到沮喪,或者使用ETL解決方案進行開發(fā)對于營銷團隊的需求來說太慢了。
也許數(shù)據(jù)科學家花費大量的時間用一種編程語言來糾纏數(shù)據(jù)并創(chuàng)建一個龐大的代碼庫。
也許很多數(shù)據(jù)集成需求都與少數(shù)標準平臺相關(guān),并且標準化集成方法將帶來運營收益。
通過一個清單,數(shù)據(jù)集成專家團隊可以在請求新的或增強的數(shù)據(jù)集成時審查實施選項。
如果新的請求像已經(jīng)實施并且正在工作的請求,則團隊應該有信心再次應用它。
如果不是,它可以選擇嘗試使用現(xiàn)有工具進行實施,或者考慮使用新工具進行概念驗證,如果這是一個高度不同的數(shù)據(jù)集成工作。
當有新的業(yè)務需求和不斷變化的技術(shù)環(huán)境時,這種整合用例和審查新用例的規(guī)范是最佳實踐。

責任編輯:售電衡衡
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市