欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

如何選擇正確的數(shù)據(jù)集成工具

2018-04-26 10:02:50 大數(shù)據(jù)觀察【官方】  點擊量: 評論 (0)
如今的數(shù)據(jù)往往來自文件系統(tǒng)、數(shù)據(jù)湖或存儲庫。為了滿足各類業(yè)務需求,我們必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)相集成,從而支持分析、面向客

如今的數(shù)據(jù)往往來自文件系統(tǒng)、數(shù)據(jù)湖或存儲庫。

為了滿足各類業(yè)務需求,我們必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)相集成,從而支持分析、面向客戶的應用程序或者內(nèi)部工作流。

而這又帶來了新的問題——我們該如何選擇正確的數(shù)據(jù)集成工具,從而對各類數(shù)據(jù)加以歸納?

今天的文章將就此展開探討。

 

 

 

數(shù)據(jù)不在一個數(shù)據(jù)庫,文件系統(tǒng),數(shù)據(jù)庫或存儲庫中。

為了滿足許多業(yè)務需求,必須將數(shù)據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)集成,然后用于分析,面向客戶的應用程序或內(nèi)部工作流程。

例子包括:  

·來自電子商務應用程序的數(shù)據(jù)與用戶分析,客戶關(guān)系管理中的客戶數(shù)據(jù)以及其他主數(shù)據(jù)源集成在一起,以建立客戶群并定制營銷信息。  

·物聯(lián)網(wǎng)傳感器數(shù)據(jù)與運營和財務數(shù)據(jù)庫中的數(shù)據(jù)相關(guān)聯(lián),以控制吞吐量并報告制造過程的質(zhì)量。  

·員工工作流應用程序,可將跨多個SaaS平臺和內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和工具連接到一個易于使用的移動界面。  

許多組織也對數(shù)據(jù)科學家,數(shù)據(jù)分析師和創(chuàng)新團隊提出了數(shù)據(jù)要求,他們在集成內(nèi)部和外部數(shù)據(jù)源方面的需求日益增長:  

·開發(fā)預測模型的數(shù)據(jù)科學家通常會加載多種外部數(shù)據(jù)源,例如計量經(jīng)濟學,天氣,人口普查和其他公共數(shù)據(jù),然后將其與內(nèi)部資源融合。 

·試驗人工智能的創(chuàng)新團隊需要匯總可用于訓練和測試算法的大型復雜數(shù)據(jù)源。  

·業(yè)務和數(shù)據(jù)分析師,特別是曾經(jīng)在電子表格中執(zhí)行分析的數(shù)據(jù)驅(qū)動營銷部門,現(xiàn)在可能需要更復雜的工具來加載,加入和處理多個數(shù)據(jù)饋送。 

1. 數(shù)據(jù)技術(shù)與功能市場規(guī)模龐大  

問題是:用什么工具和做法來整合數(shù)據(jù)源?

什么平臺被用來自動化操作數(shù)據(jù)?

正在委托哪些工具供數(shù)據(jù)科學家和數(shù)據(jù)分析師在使用新數(shù)據(jù)源時更加努力?

在開發(fā)跨多個數(shù)據(jù)源和API進行交易的應用程序時,有效的開發(fā)和開發(fā)工具能夠?qū)崿F(xiàn)更快速的應用程序開發(fā)?  

由于許多組織具有不同類型,數(shù)量和速度的數(shù)據(jù),并隨著時間的推移而產(chǎn)生不同的業(yè)務需求,因此可能已有不同的方法和工具用于集成數(shù)據(jù)。

很容易堅持這些,并將它們擴展到新的使用案例。雖然使用數(shù)據(jù)工具的任何人可能比其他人更熟悉一種方法,但對于具有多種業(yè)務和用戶需求的組織而言,應用一刀切的數(shù)據(jù)集成方法可能并不是最佳選擇。  此外,隨著越來越多的組織投資于數(shù)據(jù)解決方案,大數(shù)據(jù)解決方案有一個健康的市場。

結(jié)果是現(xiàn)在有許多新的平臺和工具來支持數(shù)據(jù)集成和處理。  

有了這么多的工具,希望將數(shù)據(jù)處理作為核心功能的組織應考慮各種工具類型,根據(jù)業(yè)務和技術(shù)需要應用這些工具類型。

與數(shù)據(jù)技術(shù)合作或負責數(shù)據(jù)技術(shù)的技術(shù)人員應該熟悉可用工具的類型。

在這里,我調(diào)查了七種主要類型的工具:  

·編程和腳本數(shù)據(jù)集成  

·傳統(tǒng)的提取,轉(zhuǎn)換和加載(ETL)工具  

·數(shù)據(jù)高速公路SaaS平臺  

·面向用戶和數(shù)據(jù)科學家的數(shù)據(jù)準備工具  

·用于應用程序開發(fā)的API和數(shù)據(jù)集成  

·具有數(shù)據(jù)集成功能的大數(shù)據(jù)企業(yè)平臺  

·AI注入數(shù)據(jù)集成平臺  

2. 數(shù)據(jù)集成編程與腳本  

對于任何具有基本編程技能的人來說,將數(shù)據(jù)從源文件移動到目標文件的最常見方式是開發(fā)一個簡短的腳本。

這可以在具有存儲過程的數(shù)據(jù)庫內(nèi)完成,作為按預定作業(yè)運行的腳本完成,也可以是部署到無服務器體系結(jié)構(gòu)的小型數(shù)據(jù)處理代碼片段。  

這些腳本通常以幾種模式之一運行。

它們可以按照預定義的時間表運行,也可以作為由事件觸發(fā)的服務運行,或者在滿足定義的條件時作出響應。

他們可以從多個來源獲取數(shù)據(jù),在將數(shù)據(jù)傳送到目標數(shù)據(jù)源之前加入,過濾,清理驗證和轉(zhuǎn)換數(shù)據(jù)。  腳本是移動數(shù)據(jù)的快捷方式,但它不被認為是專業(yè)級的數(shù)據(jù)處理方法。

要成為生產(chǎn)級的數(shù)據(jù)處理腳本,它需要自動執(zhí)行處理和傳輸數(shù)據(jù)所需的步驟,并處理多種操作需求。

例如,如果腳本正在處理大量數(shù)據(jù)或快速移動的數(shù)據(jù),則可能需要使用Apache Spark或其他并行處理引擎來運行多線程作業(yè)。

如果輸入數(shù)據(jù)不干凈,程序員應該啟用異常處理并在不影響數(shù)據(jù)流的情況下踢出記錄。

程序員還應該執(zhí)行重要的計算步驟記錄以便于調(diào)試。  

編寫腳本來支持這些操作需求并不是微不足道的。

它要求開發(fā)人員預測數(shù)據(jù)集成和相應程序可能出現(xiàn)的問題。

另外,開發(fā)自定義腳本在使用許多實驗數(shù)據(jù)源時可能不具有成本效益。

最后,數(shù)據(jù)集成腳本通常難以完成知識轉(zhuǎn)移知識,并且難以跨多個開發(fā)人員進行維護。  

出于這些原因,具有較大數(shù)據(jù)集成需求的組織通常會超越編程和腳本數(shù)據(jù)集成。  

3. 傳統(tǒng)提取、轉(zhuǎn)換與加載(簡稱ETL)工具  

自20世紀70年代以來,抽取,轉(zhuǎn)換和加載(ETL)技術(shù)已經(jīng)出現(xiàn),IBM,Informatica,Microsoft,Oracle,Talend等平臺在功能,性能和穩(wěn)定性方面已經(jīng)成熟。

這些平臺提供可視化編程工具,讓開發(fā)人員能夠分解并自動執(zhí)行從源中提取數(shù)據(jù),執(zhí)行轉(zhuǎn)換并將數(shù)據(jù)推送到目標存儲庫的步驟。

由于它們是可視化的,并將數(shù)據(jù)流分解為原子步驟,與難以解碼的腳本相比,管道更易于管理和增強。

另外,ETL平臺通常提供操作界面來顯示數(shù)據(jù)管道崩潰的位置并提供重啟它們的步驟。  

多年來,ETL平臺增加了許多功能。

大多數(shù)人可以處理來自數(shù)據(jù)庫,平面文件和Web服務的數(shù)據(jù),無論他們是在本地,在云中還是在SaaS數(shù)據(jù)存儲中。

它們支持各種數(shù)據(jù)格式,包括關(guān)系數(shù)據(jù),XML和JSON等半結(jié)構(gòu)化格式,以及非結(jié)構(gòu)化數(shù)據(jù)和文檔。

許多工具都使用Spark或其他并行處理引擎來并行化作業(yè)。企業(yè)級ETL平臺通常包括數(shù)據(jù)質(zhì)量功能,因此數(shù)據(jù)可以通過規(guī)則或模式進行驗證,并將異常發(fā)送給數(shù)據(jù)管理員進行解決。  

一個常見的ETL示例是組織何時將銷售前景的新文件加載到CRM中。

在加載之前,這些數(shù)據(jù)源通常需要清理物理和電子郵件地址,這可以通過使用規(guī)則和標準數(shù)據(jù)源進行轉(zhuǎn)換來完成。

然后將清理后的記錄與CRM中已經(jīng)存在的記錄進行匹配,以便現(xiàn)有記錄得到增強,同時添加之前沒有的數(shù)據(jù)并添加新記錄。

如果ETL很難確定某行是匹配還是新記錄,則可以將其標記為要審查的異常。  當數(shù)據(jù)源持續(xù)提供新數(shù)據(jù)并且目標數(shù)據(jù)存儲的數(shù)據(jù)結(jié)構(gòu)不會頻繁更改時,通常會使用ETL平臺。

這些平臺專為開發(fā)人員編寫ETL而設計,因此對于混合專有,商業(yè)和開放數(shù)據(jù)存儲的數(shù)據(jù)流操作最為有效。  

4. 面向SaaS平臺的數(shù)據(jù)高速公路  

但是,是否有更有效的方法從常見數(shù)據(jù)源中提取數(shù)據(jù)?也許主要數(shù)據(jù)目標是從Salesforce,Microsoft Dynamics或其他常見CRM程序中提取帳戶或客戶聯(lián)系人。

或者,營銷人員希望從Google Analytics等工具中提取網(wǎng)絡分析數(shù)據(jù),或試圖將客戶數(shù)據(jù)推送到營銷工具(如Mailchimp)中。

您應該如何防止SaaS平臺成為云中的數(shù)據(jù)孤島,并輕松實現(xiàn)雙向數(shù)據(jù)流?  

如果您已經(jīng)擁有ETL平臺,請查看供應商是否提供通用SaaS平臺的標準連接器,或者有可以從開發(fā)合作伙伴處購買的市場。  

如果您沒有在ETL平臺上進行投資,并且您的數(shù)據(jù)集成需求主要是連接通用平臺,那么您可能需要一個易于使用的工具來構(gòu)建簡單的數(shù)據(jù)高速公路。  

Scribe,Snaplogic和Stitch等數(shù)據(jù)高速公路工具提供了簡單的網(wǎng)絡界面,可以連接到常見的數(shù)據(jù)源,選擇感興趣的領(lǐng)域,執(zhí)行基本轉(zhuǎn)換,并將數(shù)據(jù)推送到常用目的地。  

數(shù)據(jù)高速公路的另一種形式有助于更接近實時地整合數(shù)據(jù)。

它通過觸發(fā)器進行操作,因此當源系統(tǒng)中的數(shù)據(jù)發(fā)生更改時,可以將其操作并推送到輔助系統(tǒng)。

IFTTT,Workato和Zapier就是這類工具的例子。

這些工具對于將單個記錄從一個SaaS平臺轉(zhuǎn)移到另一個SaaS平臺時使用“如果是這樣的”邏輯特別有用。在評估它們時,請考慮它們集成的平臺數(shù)量,處理邏輯的功能和簡單性以及價格,以及特定于您的需求的任何因素。  

5. 面向用戶與數(shù)據(jù)科學家的數(shù)據(jù)準備工具  

當非技術(shù)和技術(shù)含量較低的用戶想要加載和清理新的數(shù)據(jù)源時,有一種新的數(shù)據(jù)準備工具針對這些用戶,以幫助他們執(zhí)行數(shù)據(jù)集成。  

要實施基本的數(shù)據(jù)集成和混合,請考慮貴組織中任何商業(yè)智能系統(tǒng)已提供的數(shù)據(jù)集成功能。

Looker,QlikView和Tableau等工具提供基本的數(shù)據(jù)集成,建模和轉(zhuǎn)換。

您還可以使用它們發(fā)布和共享虛擬數(shù)據(jù)源。  

如果數(shù)據(jù)科學家和數(shù)據(jù)分析師正在處理大量數(shù)據(jù)源或花費大量時間來處理數(shù)據(jù),則與BI工具集成的數(shù)據(jù)準備工具可能是明智的投資。  

什么是數(shù)據(jù)爭奪?這是業(yè)務用戶和數(shù)據(jù)科學家需要在數(shù)據(jù)源上進行的所有工作,以使其可用于分析。

它通常從分析數(shù)據(jù)開始,逐場分析顯示有多少百分比有數(shù)值與數(shù)據(jù)集有什么不同值。

使用配置文件數(shù)據(jù),分析師會清理具有不同值的字段(例如“紐約”和“紐約”),合并和刪除字段,或使用公式創(chuàng)建計算字段。

他們還可以執(zhí)行行級操作,如刪除重復項和合并記錄。  

數(shù)據(jù)準備工具通常圍繞類似電子表格的用戶界面進行設計,以便讓用戶可視化數(shù)據(jù)配置文件并混合數(shù)據(jù)源。

但與傳統(tǒng)電子表格不同,這些工具捕獲用戶執(zhí)行的數(shù)據(jù)處理步驟并啟用可視化和編輯操作。

這些工具中的大多數(shù)可以使用它們捕獲的這些腳本來自動化具有持續(xù)運營需求的數(shù)據(jù)饋送的數(shù)據(jù)流。  有獨立的數(shù)據(jù)準備工具,如Alteryx,Paxata和Trifacta。

另外,傳統(tǒng)的ETL廠商如IBM和Talend已經(jīng)開發(fā)了面向商業(yè)用戶和數(shù)據(jù)科學家的數(shù)據(jù)準備工具。  

6. 用于應用程序開發(fā)的API與數(shù)據(jù)集成方案  

如果您的目標是開發(fā)需要連接到多個數(shù)據(jù)源和API的Web或移動應用程序,則有API和應用程序開發(fā)工具可以簡化這些集成。

這些工具不是將數(shù)據(jù)集成到中央存儲庫中,而是提供各種選項,以便在使用多個API和數(shù)據(jù)源時支持更快的應用程序開發(fā)。  

應用程序集成有幾種不同的平臺類型和工具提供者Dell Boomi,Jitterbit和Mulesoft等平臺旨在簡化API和數(shù)據(jù)訪問,并充當數(shù)據(jù)總線以集中交互。

像Built.io,OutSystems和Pow Wow Mobile這樣的低代碼和移動開發(fā)平臺可以實現(xiàn)集成,并提供開發(fā)和開發(fā)環(huán)境,以快速構(gòu)建和運行應用程序。  

7. 大數(shù)據(jù)企業(yè)平臺與數(shù)據(jù)集成功能  

如果您正在Hadoop或其他大數(shù)據(jù)平臺之上開發(fā)功能,您可以選擇將數(shù)據(jù)集成到這些數(shù)據(jù)存儲:  

·您可以開發(fā)腳本或使用支持大數(shù)據(jù)平臺的ETL工具作為端點。  

·您可以選擇具有ETL,數(shù)據(jù)治理,數(shù)據(jù)質(zhì)量,數(shù)據(jù)準備和主數(shù)據(jù)功能的端到端數(shù)據(jù)管理平臺。  

你可以做到這一點。  

許多提供ETL工具的供應商也出售具有這些增加的大數(shù)據(jù)功能的企業(yè)平臺。

還有像Datameer和Unifi這樣的新興平臺可以實現(xiàn)自助服務(如數(shù)據(jù)準備工具),但是可以在支持供應商的Hadoop發(fā)行版之上運行。  

8. AI驅(qū)動型數(shù)據(jù)集成平臺  

在跨腳本,ETL,數(shù)據(jù)準備,應用程序集成服務和大數(shù)據(jù)平臺的過程中,為開發(fā)人員,數(shù)據(jù)科學家,數(shù)據(jù)管理員和分析人員提供了大量實際的手動數(shù)據(jù)集成工作。

供應商知道這一點,而一些下一代數(shù)據(jù)集成工具和功能將包括人工智能(AI)功能,以幫助自動化重復性任務或識別難以找到的數(shù)據(jù)模式。

例如,Informatica正在營銷Claire,“智能數(shù)據(jù)平臺”,而Snaplogic正在營銷Iris,它“推動自我驅(qū)動整合”。 

9. 找到正確的數(shù)據(jù)集成工具組合  

考慮到平臺類型,每個空間競爭的供應商數(shù)量以及用于分類選項的分析師術(shù)語,數(shù)據(jù)集成選項列表可能令人望而生畏。

那么,您如何才能為現(xiàn)在和未來的數(shù)據(jù)集成需求決定正確的工具組合?  

簡單的答案是它需要一些紀律。

首先清點已經(jīng)使用的工具,編制成功應用的使用案例的編目,并成功地使用這些工具捕獲人員。

向他們提供其他難以實施解決方案的示例用例,因此在尋找其他工具時可能會有所幫助。  

了解數(shù)據(jù)集成主題專家的感受。

也許有數(shù)據(jù)集成腳本需要持續(xù)維護,財務團隊對重復性工作感到沮喪,或者使用ETL解決方案進行開發(fā)對于營銷團隊的需求來說太慢了。

也許數(shù)據(jù)科學家花費大量的時間用一種編程語言來糾纏數(shù)據(jù)并創(chuàng)建一個龐大的代碼庫。

也許很多數(shù)據(jù)集成需求都與少數(shù)標準平臺相關(guān),并且標準化集成方法將帶來運營收益。  

通過一個清單,數(shù)據(jù)集成專家團隊可以在請求新的或增強的數(shù)據(jù)集成時審查實施選項。

如果新的請求像已經(jīng)實施并且正在工作的請求,則團隊應該有信心再次應用它。

如果不是,它可以選擇嘗試使用現(xiàn)有工具進行實施,或者考慮使用新工具進行概念驗證,如果這是一個高度不同的數(shù)據(jù)集成工作。  

當有新的業(yè)務需求和不斷變化的技術(shù)環(huán)境時,這種整合用例和審查新用例的規(guī)范是最佳實踐。

大云網(wǎng)官方微信售電那點事兒

責任編輯:售電衡衡

免責聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
?
主站蜘蛛池模板: 一级做a爰片久久毛片下载 一级做a爰片久久毛片图片 | 亚洲欧美精品在线 | h视频在线免费看 | 色在线影院 | 免费在线看黄网址 | 亚洲欧美成人网 | 久久久久国产精品免费免费 | 九九热精品视频 | 精品区卡一卡2卡三免费 | 在线免费观看亚洲视频 | 久热6| 高清不卡一区二区 | 久久在精品线影院精品国产 | 99热播在线观看 | 男女男在线观看视频网站 | 欧美亚洲国产另类在线观看 | 榴莲丝瓜黄瓜草莓向日葵污苹果 | 免费精品一区二区三区在线观看 | 亚洲国产日韩欧美高清片a 亚洲国产日韩欧美 | 黄网站色视频免费观看w | www国产精品com | 麻豆传煤一区免费入 | 成人欧美精品一区二区不卡 | 1024最新2021地址永久 | 丁香六月欧美 | 国产一区二区免费福利片 | 国产成人v视频在线观看 | 奶茶视频有容乃大 | 亚洲片在线观看 | 国产黄mmd在线观看免费 | 在线观看亚洲人成网站 | 色婷婷激情五月 | 亚州一级 | 天天干天天玩天天操 | 在线观看中文字幕一区 | 国产91系列 | 久久综合色之久久综合 | 婷婷伊人五月天 | 免费的成人a视频在线观看 免费岛国小视频在线观看 免费岛国 | 九九视频免费在线 | 91啦中文成人|