經(jīng)過(guò)長(zhǎng)時(shí)間的實(shí)習(xí)和總結(jié),咱們發(fā)現(xiàn)效勞器運(yùn)營(yíng)的大數(shù)據(jù)有以下四個(gè)特色,由淺入深,分別是:1)Volume數(shù)據(jù)體量無(wú)窮,特別是騰訊有海量的效勞器,歸納起來(lái),數(shù)據(jù)量能夠到PB等級(jí),需要大容量、高性能的存儲(chǔ)技能,剖析的算法也需要最優(yōu)化;2)Variety數(shù)據(jù)類(lèi)型眾多,觸及許多的運(yùn)轉(zhuǎn)日志、部件狀況、出產(chǎn)鏈運(yùn)營(yíng)、環(huán)境變量等,常常要抽絲剝繭,才干找到有用的數(shù)據(jù);3)Value 價(jià)值無(wú)窮,但并不是每個(gè)數(shù)據(jù)都有價(jià)值,需要經(jīng)過(guò)清潔和加工處置后,其發(fā)作的作用才干閃現(xiàn),以機(jī)房環(huán)境溫度告警為例,數(shù)百萬(wàn)條溫度的信息,經(jīng)過(guò)剖析比照后,才有能夠發(fā)現(xiàn)溫度反常;4)Velocity數(shù)據(jù)需要疾速處置,特別是告警類(lèi)的運(yùn)用,時(shí)效性是十分重要的。
下面講講咱們是怎樣搜集和存儲(chǔ)效勞器運(yùn)營(yíng)數(shù)據(jù)的,給我三分鐘,給你一個(gè)英俊又有養(yǎng)分的答案!
運(yùn)營(yíng)體系架構(gòu)
關(guān)于海量效勞器的辦理,咱們建立了一套功用強(qiáng)壯的運(yùn)營(yíng)剖析體系,從效勞器的帶內(nèi)和帶外搜集了悉數(shù)的靜態(tài)屬性和動(dòng)態(tài)運(yùn)轉(zhuǎn)數(shù)據(jù),對(duì)效勞器的每個(gè)關(guān)節(jié)進(jìn)行的全方位的數(shù)據(jù)搜集和監(jiān)控。猶如咱們平常體檢,把心、肝、脾、肺、腎,乃至每個(gè)毛孔,都進(jìn)行了查看。體系架構(gòu)如下圖所示。
存儲(chǔ)和剖析
數(shù)據(jù)搜集起來(lái)后,除了一部分實(shí)時(shí)的數(shù)據(jù)存在本地?cái)?shù)據(jù)庫(kù),簡(jiǎn)直悉數(shù)的歷史數(shù)據(jù)都會(huì)存儲(chǔ)在公司級(jí)的數(shù)據(jù)渠道中。這個(gè)數(shù)據(jù)渠道供給了豐富的東西體系,功用悉數(shù),涵蓋了數(shù)據(jù)存儲(chǔ)、剖析、實(shí)時(shí)核算等。例如,TPG是依據(jù)postgreSQL的數(shù)據(jù)庫(kù),用于寄存TDW(Tencent distributed Data Warehouse騰訊分布式數(shù)據(jù)倉(cāng)庫(kù))離線剖析后的成果數(shù)據(jù),便于體系調(diào)用(如效勞器利用率剖析,毛病剖析、效勞器生命周期等出產(chǎn)數(shù)據(jù));Hbase依據(jù)No SQL,萬(wàn)億級(jí)的分布式、有序數(shù)據(jù)存儲(chǔ),用于寄存剖析后的成果數(shù)據(jù)(如溫度功耗剖析成果數(shù)據(jù))。全體的架構(gòu)如下圖所示。
大數(shù)據(jù)的四個(gè)實(shí)習(xí)
大數(shù)據(jù)的規(guī)劃剖析,決議計(jì)劃者和開(kāi)發(fā)者首要要從事務(wù)驅(qū)動(dòng)的視點(diǎn),挑選數(shù)據(jù)出產(chǎn)的事務(wù)場(chǎng)景,即要估計(jì)數(shù)據(jù)剖析得到的成果能帶來(lái)哪些效益。依據(jù)公司效勞器運(yùn)營(yíng)的特色,咱們?cè)谝韵滤膫€(gè)場(chǎng)景做了大數(shù)據(jù)的剖析和運(yùn)用,給實(shí)踐的運(yùn)營(yíng)帶來(lái)的實(shí)實(shí)在在的好處。
硬盤(pán)毛病猜測(cè)
硬盤(pán)是效勞器硬件毛病率最高的一個(gè)部件,假如能提早猜測(cè)到硬盤(pán)毛病,對(duì)事務(wù)體會(huì)、完善備件辦理都有莫大的收益。這也是根底架構(gòu)運(yùn)營(yíng)在經(jīng)歷主動(dòng)化、流程化后,需要進(jìn)一步進(jìn)步運(yùn)營(yíng)功率、下降運(yùn)營(yíng)本錢(qián)的天然需要。
觸及硬盤(pán)的運(yùn)營(yíng)數(shù)據(jù)包含事務(wù)IO數(shù)據(jù)、硬盤(pán)內(nèi)部的SMART和硬盤(pán)運(yùn)轉(zhuǎn)的環(huán)境變量數(shù)據(jù)(溫度和濕度)。當(dāng)前,運(yùn)營(yíng)體系對(duì)IO數(shù)據(jù)是每小時(shí)搜集一次,SMART數(shù)據(jù)每三小時(shí)搜集一次,溫度和濕度每半小時(shí)搜集一次,這些數(shù)據(jù)算計(jì)起來(lái)每天的記載數(shù)上億條。硬盤(pán)毛病猜測(cè),適宜運(yùn)用分類(lèi)算法,咱們運(yùn)用了當(dāng)前較為盛行的SVM分類(lèi)算法,輔以適宜的核函數(shù)來(lái)加快學(xué)習(xí)核算的功率。
經(jīng)過(guò)了一年多時(shí)間的實(shí)習(xí),走了不少?gòu)澛?,也碰到了許多坑,在硬盤(pán)毛病標(biāo)準(zhǔn)斷定、事務(wù)IO分類(lèi)定義等方面吃了不少的虧,咱們?cè)谝罁?jù)SMART數(shù)據(jù)做的毛病猜測(cè),到達(dá)了令人滿意的作用。在實(shí)踐運(yùn)營(yíng)環(huán)境中驗(yàn)證的成果如下:準(zhǔn)確率precision到達(dá)98%,猜測(cè)時(shí)間leadtime的全體偏差不超越2天。
需要要點(diǎn)指出的是,咱們做的猜測(cè)成果,除了training期間用歷史數(shù)據(jù)外,驗(yàn)證的進(jìn)程是用現(xiàn)網(wǎng)的實(shí)時(shí)數(shù)據(jù)來(lái)進(jìn)行的。即是說(shuō),經(jīng)過(guò)SVM算法得到的猜測(cè)模型后,咱們是用最新搜集的實(shí)時(shí)數(shù)據(jù)輸入到模型中,得到的ok和fail兩種猜測(cè)成果,在3天、7天、14天后再對(duì)猜測(cè)的成果進(jìn)行驗(yàn)證。這個(gè)比傳統(tǒng)的猜測(cè)方法(練習(xí)和驗(yàn)證都是運(yùn)用歷史數(shù)據(jù)),對(duì)現(xiàn)網(wǎng)運(yùn)用的價(jià)值大大進(jìn)步了。當(dāng)前在現(xiàn)網(wǎng)環(huán)境中,首要的落地場(chǎng)景包含:1)猜測(cè)出來(lái)的成果,經(jīng)過(guò)運(yùn)營(yíng)流程,對(duì)BG事務(wù)提早宣布預(yù)警,以進(jìn)步事務(wù)運(yùn)維功率 2)依據(jù)猜測(cè)出來(lái)的大規(guī)模硬盤(pán)毛病,對(duì)備件進(jìn)行有用辦理。
效勞器利用率剖析
騰訊的事務(wù)類(lèi)型和機(jī)型都相當(dāng)多,機(jī)器分配給事務(wù)后,運(yùn)用的狀況如何?咱們需要盯梢效勞器的利用率狀況,下圖是某事務(wù)某機(jī)型磁盤(pán)IO的利用率核算剖析圖。剖析進(jìn)程如下:存儲(chǔ)類(lèi)機(jī)型,看到一段時(shí)間核算出來(lái)的IO的利用率并不高,并且是寫(xiě)少讀多的運(yùn)用,是不是能夠考慮運(yùn)用IOPS相對(duì)不高的賤賣(mài)硬盤(pán)?仍是事務(wù)的架構(gòu)存在優(yōu)化的空間?
效勞器利用率剖析給運(yùn)營(yíng)帶來(lái)的好處在于:1)聯(lián)絡(luò)事務(wù)模型,發(fā)現(xiàn)事務(wù)運(yùn)用效勞器的短板,在發(fā)現(xiàn)并批改體系架構(gòu)缺點(diǎn)的一同,進(jìn)步全體利用率;2)對(duì)機(jī)型選型的優(yōu)化,例如關(guān)于磁盤(pán)容量運(yùn)用率不高的機(jī)型,在后續(xù)的機(jī)型定制中削減硬盤(pán)的數(shù)量。
毛病率剖析
效勞器毛病剖析對(duì)效勞器的各個(gè)部件的毛病率都做了剖析和監(jiān)控,包含1)生成月度毛病率報(bào)表;2)毛病率反常的實(shí)時(shí)監(jiān)控和主動(dòng)告警;3)剖析外部條件與毛病率的聯(lián)絡(luò);4)與OS的軟件告警信息聯(lián)動(dòng)起來(lái),及時(shí)發(fā)現(xiàn)效勞器的亞健康狀況。
上圖是某效勞器硬件近來(lái)幾周的毛病率核算信息。按部件給出各個(gè)機(jī)型的毛病率狀況,及時(shí)發(fā)現(xiàn)批次性毛病并給出告警
環(huán)境監(jiān)控
2013年8月,華東地區(qū)遭受稀有的高溫氣候,許多機(jī)房空調(diào)制冷扛不住了,頻頻發(fā)作效勞器高溫重啟的事情。假如能把機(jī)房環(huán)境溫度有用的監(jiān)控起來(lái),咱們就能在發(fā)現(xiàn)反常時(shí)宣布高溫告警,提早采納措施。對(duì)效勞器入風(fēng)口溫度進(jìn)行搜集和監(jiān)控是一個(gè)較為有用的計(jì)劃。
上圖顯現(xiàn)效勞器入風(fēng)口溫度改變的反常狀況,經(jīng)過(guò)數(shù)據(jù)的規(guī)整和誤差批改,發(fā)作了高溫告警。經(jīng)過(guò)主動(dòng)化流程,及時(shí)知會(huì)到機(jī)房現(xiàn)場(chǎng)負(fù)責(zé)人。
一些考慮
不要被數(shù)據(jù)誤導(dǎo)
人們很簡(jiǎn)單被大數(shù)據(jù)忽悠。在許多場(chǎng)合咱們都談了大數(shù)據(jù)強(qiáng)壯的功用和夸姣的將來(lái),以為能夠處理許多社會(huì)問(wèn)題,乃至猜測(cè)將來(lái)。不管大數(shù)據(jù)如何奇特,若試圖用大數(shù)據(jù)引領(lǐng)將來(lái)只會(huì)誤入歧途,由于大數(shù)據(jù)背后本就存在著“先天不足”:從本質(zhì)上看,大數(shù)據(jù)最大的缺點(diǎn)就在于試圖以斷定去“推翻”混沌與不斷定性。之前咱們做硬盤(pán)毛病猜測(cè),直觀的以為硬盤(pán)的讀寫(xiě)壓力對(duì)硬盤(pán)老化和毛病是有直接聯(lián)絡(luò)的,但經(jīng)過(guò)剖析,發(fā)現(xiàn)事務(wù)運(yùn)用硬盤(pán)的隨機(jī)性太大了,硬盤(pán)呼應(yīng)IO的形式也許多變,關(guān)于事務(wù)的IO讀寫(xiě)份額、塊巨細(xì)等,有太多的不斷定性,即是前面說(shuō)的混沌,致使前面依據(jù)IO做的猜測(cè)成果十分差勁。本來(lái)這兒要說(shuō)的即是,當(dāng)前這個(gè)期間,依托大數(shù)據(jù)來(lái)輔導(dǎo)效勞器運(yùn)營(yíng),不靠譜,效勞器運(yùn)營(yíng)智能化遠(yuǎn)遠(yuǎn)沒(méi)有到達(dá)。這兒仍是要靠運(yùn)營(yíng)和開(kāi)發(fā)人員的思想和腦筋,把主動(dòng)化運(yùn)營(yíng)先做好。
數(shù)據(jù)質(zhì)量的把控
數(shù)據(jù)的質(zhì)量和字段規(guī)范性對(duì)后面剖析作用的影響很大。但事務(wù)開(kāi)發(fā)所設(shè)計(jì)的數(shù)據(jù)不是為了運(yùn)營(yíng)剖析而效勞的,許多狀況下都是為了功用開(kāi)發(fā)而存在,假如能夠在體系構(gòu)建初期進(jìn)行介入,本來(lái)可用避免許多清潔作業(yè),數(shù)據(jù)可直接投入剖析運(yùn)用。這兒開(kāi)發(fā)人員和數(shù)據(jù)剖析的人員存在一個(gè)gap,假如對(duì)數(shù)據(jù)在體系設(shè)計(jì)中遇上各種束縛的話,開(kāi)發(fā)人員會(huì)覺(jué)得很苦楚,開(kāi)發(fā)功率十分低;而數(shù)據(jù)剖析人員卻覺(jué)得假如數(shù)據(jù)能做到東西級(jí)定制,即是連數(shù)據(jù)的表字段的名稱(chēng),注釋?zhuān)B內(nèi)部聯(lián)絡(luò),都是由體體系一生成,這樣搜集完滿的。
后來(lái),咱們內(nèi)部經(jīng)過(guò)一段時(shí)間的評(píng)論和磨合,構(gòu)成的一致。咱們做的是運(yùn)營(yíng)體系,歸根到底是為運(yùn)營(yíng)效勞的,而數(shù)據(jù)剖析是運(yùn)營(yíng)的一個(gè)重要功用。所以沒(méi)有辦法,這個(gè)問(wèn)題仍是需要開(kāi)發(fā)期間來(lái)處理,開(kāi)發(fā)人員只能克服了。
對(duì)大數(shù)據(jù)將來(lái)的想象
精細(xì)化的傳感器
關(guān)于效勞器上傳感器的設(shè)計(jì),互聯(lián)網(wǎng)公司有特別的需要,對(duì)上游硬件廠商的依靠是比較高的。騰訊有許多的效勞器運(yùn)營(yíng)數(shù)據(jù),十分期望能夠跟業(yè)界一同在數(shù)據(jù)、資本、算法等各個(gè)維度能夠同享,尋求更多進(jìn)步運(yùn)營(yíng)功率的途徑。這兒的傳感器也能夠從廣義上來(lái)打開(kāi),除了效勞器物理上的sensor不斷增加,在效勞器各個(gè)運(yùn)營(yíng)環(huán)節(jié)都能夠在流程中加入各種搜集代碼,把效勞器布置、搬家、退役等每個(gè)細(xì)小的過(guò)程都照實(shí)的記載下來(lái)。運(yùn)營(yíng)體系的不斷優(yōu)化將使“傳感器”體積微型化,它將出現(xiàn)在出產(chǎn)的每一個(gè)旮旯,為運(yùn)營(yíng)決議計(jì)劃供給更科學(xué)的數(shù)據(jù)支持。
數(shù)據(jù)效勞即開(kāi)即用
跟著數(shù)據(jù)的逐步完善和開(kāi)放,互聯(lián)網(wǎng)和公司都將建立起完善的大數(shù)據(jù)效勞根底架構(gòu)及商業(yè)化形式,從數(shù)據(jù)的存儲(chǔ)、發(fā)掘、辦理、核算等方面供給一站式效勞,將各行各業(yè)的數(shù)據(jù)孤島打通互聯(lián)。并且數(shù)據(jù)運(yùn)用的生態(tài)體系也將變得十分老練,乃至出現(xiàn)用戶與數(shù)據(jù)效勞商之間的算法供給商,他們有專(zhuān)業(yè)領(lǐng)域內(nèi)的高手人才,經(jīng)過(guò)數(shù)據(jù)發(fā)掘的方法,尋覓事物間的聯(lián)絡(luò)。用戶只需將其原始數(shù)據(jù)導(dǎo)入,供給商很快的就能在線的將剖析成果回來(lái),如水和電相同,即開(kāi)即用。
TAG :機(jī)房監(jiān)控 機(jī)房監(jiān)控系統(tǒng) 機(jī)房環(huán)境監(jiān)控 來(lái)源:http://qdlanhai.cn
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號(hào)-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)