云和大數據時代的高效運維管理之道
本次沙龍充分體現了圈子共建、價值共享的原則,其中愛心人壽信息總監劉東城和國美云產品支撐中心副總監陳焱兩位主講人都是圈子成員積極推薦。另外一位主講人OneAPM副總裁張楠坤也是圈子的積極參與者和貢獻者。整個活動內容融合了金融行業、零售行業的云化實踐案例,同時,從運維監控角度闡述了如何把高效運維和業務運營結合起來,提升用戶滿意度指標。
圖:沙龍活動合影
另外,到場參會的CIO有:中國人民銀行清算中心一級專家尼米智、東興證券信息總監董國興、恒昌利通信息安全負責人賀巖、映客直播趙東林、大愛投資控股集團信息技術總監李勝軍、北京源創云網絡IT負責人孫吉東、用友財務軟件公司IT負責人于海超、北京能源集團樂多港IT負責人梁新剛、中國航天科工一院總師林聞曉、掌眾金服信息總監戚德生、探路者集團信息總監張航、長城人壽IT總監施洪琦、北京首鋼實業集團信息部部長龐介飛、泰康燕園康復醫院信息科主任王江龍、天九幸福控股集團常務副總經理敬國宏、大童保險副總裁張宏坤、宜信公司IT部基礎服務負責人方建國、中國藥品生物制品檢定所(中檢院)IT負責人謝麗麗、四維圖新IT總監鄧天輝、尚科辦公社區IT負責人馬曦冉、飛鶴集團CIO崔啟佳、獨立CIO陳其偉等共計24位企業IT負責人和業內資深人士到場參與交流,并共進晚餐。
沙龍活動現場CIO們認真聽講
沙龍活動內容要硬
第一個主講人是愛心人壽信息技術總監劉東城,作為一個在保險行業從業34年的IT老兵,劉東城有著豐富的行業經驗和IT管理實踐經驗。2015年9月參加籌備愛心人壽,以云計算為基礎搭建了愛心人壽的全套保險應用系統。
圖:愛心人壽信息技術總監劉東城
現場,劉東城從前期思考、著手云化、云化落地、使用情況以及總結感悟等五個方面進行了詳細的闡述,并講述了在云化實踐過程中踩到的許多坑,以及如何與供應商協作解決等等。他提到,在前期夢想著采用云平臺搭建全部的保險應用系統。在如何上云的前期思考過程中,重點介紹了機房運維的困難,傳統模式下服務器設備購置慢,應用系統運維復雜,以及系統安全投入大等四個要素。
在著手云化準備時,率先開始做云資源的仔細調研工作,包括對現有的提供服務商阿里、騰訊、中金等進行全面細致的了解,從了解普通的云平臺到金融云,從技術平臺、服務到價格方面進行了全面的調研。
對于云計算所需要的人才,必須要確保關鍵崗位到位。因此,招聘熟悉機房網絡的專業人員,特別要對云平臺感興趣并有意探索使用者優先選擇。全部使用云平臺方便簡單,但對自我的新技術掌控也是挑戰。
云化徹不徹底,能不能起到云的效果,還要看關鍵系統的云化。愛心人壽通過和主要系統開發廠商溝通,請他們投入人力及時間,對應用系統進行改造,使系統從使用Oralce數據庫轉移到mysql數據庫,系統從結構上與云平臺相適應。
在云化落地和部署階段,結合金融云的技術應用特點,確定了三個關鍵階段:1、租用應用服務器、數據庫一體機。2、快速搭建線上線下各個應用系統40多個;3、投入正常使用并異地備份。
具體到金融云的運維,涉及到了系統運維、應用運維、數據庫運維、運維研發、運維安全、運維系統等六大核心內容,從而確保了金融云從基礎架構、日常運維等多方面保障業務連續性。在安全管理方面,劉東城特別提到,作為“互聯網+”重要一環的云計算,實際上云計算能提供遠高于本地數據中心的高可用性、數據安全、隱私保護以及異地數據災備服務,確保互聯網服務的運營和數據安全萬無一失,其中包括平臺安全和業務安全兩大核心。
最后,劉東城表達了自己在云化實踐中的一些感想,比如,如何實現快速易擴展,做到專線接入,實現更有效的安全管理,以及異地災備的建設等。
第二個主講人OneAPM副總裁張楠坤,也是我們圈子活動的御用大廚,今天講的內容干貨讓到場的CIO收獲滿滿。
OneAPM副總裁張楠坤
運維和運營是何種關系,如何緊密相連?從CIO關心的業務出發,如何用好IT運維的工具,把運營和運維結合起來,從用戶體驗的角度來改善運維。
從事運維管理,大家聽過ITOM,Gartner對ITOM管理工具的范疇定義為三個維度:監測、管理、控制。張楠坤闡述ITOM體系包含的核心要素時提到,以全程服務框架為基礎,通過人員、技術(工具)和流程支撐起高質量的服務。人員既包括數據中心領導,也包括了系統維護人員。流程涵蓋了故障報警、快速解決、根源分析和知識歸檔,相當于系統的“神經系統”;安全則是系統的“免疫系統”;資源管理類似于“骨骼”;監控就是“眼睛”、分析就是“大腦”、自動化相當于“手”。
面向根因分析的一體化ITOM解決方案以集中監控為核心基礎。就傳統IT監控管理模式而言,核心價值主要包括:系統不宕機,網絡不中斷,數據不丟失。核心指標包括了:CPU、內存、流量、鏈路通斷性、進程、數據庫死鎖、中間件連接數等。具體到用戶體驗,通常是IT運營管理部門(IT部門)和用戶體驗管理部門(業務部門)發生爭執的地方,這就需要高效運維管理加以提升,包括對硬件監控、存儲監控、數據庫監控以及中間價監控、網絡監控、機房監控、云資源以及大數據平臺的監控等。通過監控軟件,可以詳細了解IT資源運行的狀況,提供智能檢測報告,而不是靠手工和人力來解決。
此外,張楠坤還提到了新一代監控關鍵技術,包括撥測/壓測技術、偵聽技術、字節碼技術、插碼技術、日志技術等,并逐一進行了詳細的闡述,讓大家明白了技術的原理、作用價值,以及所要付出的代價。
在應用性能監控方面,可以提供幾種監控手段,明確前端用戶用的好不好,如何進行有效的反饋。用戶打開頁面的行為可以記錄,后端進行展示,應用運行緩慢的時候可以準確定位到具體的代碼。
具體到實踐案例,以探針技術為例,幫助某運營商做到了后端應用質量代碼級診斷。某運營商業務系統出現全面緩慢故障,業務訪問十分緩慢,中間件負載一直飆高,應用出現掛起,相關數據庫、中間件的日志中并沒有有效的報錯信息。故障影響整個業務系統,持續6個小時的故障,各個環節一直沒有找到原因,無法定位解決。OneAPM經過分析,是黑名單查詢耗時較長,以及渠道資源庫的連接數不夠導致系統故障,隨后采取重建黑名單用戶表、增加資源庫連接數和重啟App實例等措施,使系統緩慢故障逐步好轉,最終問題得到解決。
迎接云計算時代,很多業務系統面臨云遷移的問題,需要前期的可行性初步調研,明確遷移過程中需要明確關注的指標等。
另外,對云遷移各個階段的問題進行梳理,比如,遷移前的問題確認、遷移中的數據核對、遷移后的運維監控等。制定云遷移的基本流程,包括:需求、規劃、設計、測試、實施、運維,最終確保整個云遷移的平滑、無縫、安全、穩定。
關于遷移的流程,主要包括:1、信息收集;2、依賴分析;3、規劃設計;4、遷移測試。張楠坤結合具體的應用實踐逐一進行了詳細的說明。
以太平洋保險為例,騰訊攜手太平洋產險達成戰略合作,除夕當晚微信用戶使用搖一搖即可參與搶紅包,借此吸引了大批用戶關注太保微信公眾號,屆時在2016年大年初五參與抽獎活動。騰訊評估本次微信活動參與人次達1.5億人次,高峰期并發請求量達到每秒400萬次,對人保的IT部門帶來了巨大的挑戰。
人保的對應方案是:Docker+APM。采用主流互聯網容器技術Docker應對本次高并發的活動訪問量沖擊,提升高可用質量;采用APM性能管理解決方案,提升網絡訪問質量、業務系統性能質量,達到高質量的業務吞吐能力保證。采用大數據+日志分析平臺,針對微信用戶行為、各省市熱度及保險購買力、保險購買人年齡層次進行分析。
OneAPM作為性能管理廠商,提供整個微信活動生命周期的性能安全保障。制定與微信項目同期的計劃時間表,從上線測試及生產安全保障,提供性能管理和應用相關性能的定位。
總結來看,OneAPM運維保障的成效主要包括:生產上線后,持續的健康檢查報告,幫忙開發及時update代碼業務邏輯;主動式的動態監控,涵蓋多個緯度的重要指標;網絡性能數據監控,實時掌握網絡性能質量;APM大屏掌握實時監控信息;實時事務吞吐及性能告警。
第三個主講人是國美云產品支撐中心副總監陳焱。云計算和大數據是傳統企業轉型升級的好機會,在我們印象中國美屬于傳統零售企業的典型代表。但是,迎接零售產業的變革,同樣需要組建支撐企業轉型升級的動力引擎,國美云就是其中的關鍵。
圖:國美云產品支撐中心副總監陳焱
陳焱在《運維與業務共舞,國美云高效運營之道》的主題分享中,結合國美云的業務實踐,給在座的CIO在云計算平臺的搭建方面提供了思路和實踐經驗參考。從IT支撐國美業務發展的角度回顧了國美云的誕生歷程,面對國美數億的IT投入,如何讓運維從成本中心變成利潤中心,幫助集團節省IT成本。
具體到運維自動化,主要從三方面入手:一是,打造生態鏈,圍繞運維自動化生態鏈,自研資源交付、CMDB、CI/CD、配置管理平臺,提高運維效率。通過打造運維自動化生態鏈,實現資源整合、平臺能力沉淀,為業務提供服務化的技術支持;二是,制定運維標準,運維標準是運維自動化的基石;三是,統一建設,統一開發運維自動化平臺,確保各個產業公司按需選擇使用。
結合國美在零售領域的實際業務,對癥下藥,從成本分析角度聚焦零售運營的核心三大要素:人、貨、場。
在服務導向方面,做到交易類業務集中共享。比如,在共享前,分散在全國400多個地方,難免出現徇私舞弊;客觀公正性差,受人為因素制約;人員分散、核算制度執行不到位;培訓難度大、效果不明顯等問題。共享后,集中到了共享中心,確保了集中審核、集中入賬、統一支付,資金統一管理;確保可觀公正性;做到人員集中管理、減員增效;集中培訓效果顯著。
沙龍不只有干貨,還要聊得透徹,玩的開心
活動間隙,CIO們打兩桿娛樂娛樂
講得好,還得聊得透,好容易逮住機會
78CIO App上線了,多提提建議,以后靠你們多用了
總之,本次沙龍從內容角度,云和大數據已經是未來發展的必然趨勢,驅動企業業務轉型和發展。盡管很多企業都在面臨轉型的困境,但是,把握新技術也變相為企業提供了彎道超車好機會。對于CIO來說責任在肩,必須擁抱它,戰勝它。從圈子交友的角度,78CIO也會多給大家創造寬松的環境,深度交流,學習成長。
責任編輯:售電衡衡
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!