国产精品视频熟女韵味,女人高潮抽搐潮.I喷视频,久久精品人人做人人爽电影蜜月,性欧美vr高清极品

400-650-1086
首頁 > 最新資訊 > IT新聞 > 正文

淺談探索式資料分析 -- 從一個(gè)資安小故事談起

admin 2016-04-19 09:25:05 0

在上一次的分享中,藉由資訊圖表的幫助讓我們對于《巴拿馬報(bào)告》(Panama Paper)能夠快速又正確的掌握基本訊息,進(jìn)而能夠開始展開對于資料的詮釋及應(yīng)用——探索式資料分析(Exploratory Data Analysis,簡稱 EDA),就是運(yùn)用視覺化、基本的統(tǒng)計(jì)等工具,來“看”一下資料;以期進(jìn)行複雜或嚴(yán)謹(jǐn)?shù)姆治鲋?,能夠?qū)Y料有更多的認(rèn)識。今天,就以一個(gè)資安小故事,讓我們演練一下在資料分析的方法論中,能夠讓你事半功倍的“探索式資料分析”。

故事是這樣開始的:

Data Genetics 的一位分析人員收到一封朋友寄來的笑話,信中宣稱“震驚全球的事實(shí)!世界上所有的信用卡 PIN 碼都被破解了!”——接著就列出了一連串從 0000 - 9999 的數(shù)字。(信用卡 PIN 碼其實(shí)就是一組四碼的數(shù)字密碼,在國外刷卡消費(fèi)時(shí)作為認(rèn)證使用,等同于我們在臺(tái)灣刷卡時(shí)的簽名這個(gè)動(dòng)作)因?yàn)樗拇a的密碼就只有這一萬種組合,所以看到這種“廢文”般的笑話大多數(shù)人當(dāng)然是一笑置之;然而,這引起了這位分析人員的興趣:短短的四個(gè)數(shù)字里面,哪些密碼是最容易被猜中的呢?

現(xiàn)在,讓我們跟著這個(gè)故事,演練在資料分析的方法論中,如何進(jìn)行“探索式資料分析”:

一、資料收集

首先,顯然地 Data Genetics 不是信用卡或銀行單位、也不是專門攻擊這些單位的黑帽駭客;身為一個(gè)資料科學(xué)家,資料的取得是很重要的一環(huán);當(dāng)無法取得原始資料或是完整資料、資料來源受到限制的時(shí)候,就必須做出假設(shè),并根據(jù)這些假設(shè)取得合理的資料來源,透過適當(dāng)?shù)娜?、逼近或模擬我們的研究對象。

在這個(gè)故事里,分析人員從各種已經(jīng)公開釋出、曝光或被揭發(fā)的數(shù)字密碼資料庫與資安漏洞中,過濾出共三百四十多萬筆的四碼數(shù)字密碼,并且假設(shè)人們傾向于在不同情境中使用同一組密碼,將這組資料集作為研究對象,試著從密碼組成的頻率去分析。

二、基本統(tǒng)計(jì)工具:敘述統(tǒng)計(jì)量

利用基本的統(tǒng)計(jì)工具,可以由組成數(shù)字的頻率直接知道哪一些密碼是最常被使用的,換句話說,哪些密碼是最容易被猜到的?

分析的結(jié)果,不意外地,老梗的“1234”、“0000”、“6969”等規(guī)律排列堆疊的數(shù)字組合名列前茅。但是,他同時(shí)也發(fā)現(xiàn)有些特別的規(guī)律:例如高居第六名的“1004”在韓文中的讀音接近“天使”(從這點(diǎn)我們也可以推測該分析人員使用的資料集有部分應(yīng)該來自韓國)、還有第二十二名的“2580”看起來毫無規(guī)律,但是大家只要拿起手機(jī)或看看電話的撥號鍵,就知道原因了。

三、資料視覺化 v. s. 資訊圖表

即使是簡單的統(tǒng)計(jì)作圖,也能告訴你很多一眼看不出來的秘密。不相信嗎?讓我們來看看幾張讓你秒懂密碼內(nèi)幕的圖表??

可以看到,“19”開頭的出現(xiàn)頻率確實(shí)明顯高過其他的組合(同時(shí)也看到疊字組合仍是萬年不?。?;再來看看所有“19??”的分布:

可能跟出生、或是生活中的重大事件有關(guān),“195X”一直到“198X”的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高過其他年份,這點(diǎn)也符合直覺——會(huì)使用密碼的族群主要也是在這些年份出生的青壯年人口為主。

矩陣的視覺化一直是個(gè)強(qiáng)大的工具:以四字密碼作為範(fàn)例,可以將其拆成前后兩組兩位數(shù)字的組成,將出現(xiàn)頻率描繪在一個(gè) 100 x 100 的矩陣中。

越偏白黃的顏色就是頻率越高的組合,偏紅黑色即是頻率低的組合。

透過矩陣的視覺化,我們其實(shí)能夠直接得到前面的圖表中呈現(xiàn)的資訊;換句話說,矩陣視覺化在同樣的篇幅中,提供了更豐富的資訊。以上面提到的“19XX”模式為例:

可以看到有一排很亮的直線,它代表了“19”開頭的這一排,可以跟前面的“19XX”分布圖做個(gè)對照,他們其實(shí)是說同一件事:可以看成是上圖的高度改成用顏色取代,變成了下圖的一條直線。

除了“19XX”開頭,其實(shí)只要是“1XXX”都是相對亮的區(qū)域;從矩陣視覺化可以很明顯看出界線;不需要另外繪製一張下圖這樣的相對頻率分布就可以清楚的指出來。

將矩陣做灰階處理后,也可以很輕鬆地找出“亮點(diǎn)”,把常見的數(shù)字組合標(biāo)記出來。

花了不少的篇幅也介紹了幾樣工具,不知道大家有沒有什幺收穫呢?如果對于最后提到的矩陣視覺化有興趣的朋友,在這邊也推薦中央研究院統(tǒng)計(jì)科學(xué)研究所的陳君厚研究員于 2014 資料科學(xué)愛好者年會(huì)分享的《Collaboration with Statistician? 矩陣視覺化于探索式資料分析》,學(xué)習(xí)愉快!

堅(jiān)信“Data Speaks Louder Than Words”,藉由資料科學(xué)(Data Science)將數(shù)學(xué)帶出象牙塔服務(wù)人群,期望讓數(shù)據(jù)驅(qū)動(dòng)(Data-Driven)的觀念帶動(dòng)各種商業(yè)模式的洗鍊。目前服務(wù)于以數(shù)據(jù)服務(wù)為核心的新創(chuàng)公司,擔(dān)任技術(shù)總監(jiān)。

文章來源:機(jī)房監(jiān)控 http://qdlanhai.cn

售前咨詢

專線:劉剛 13911133352

E-mail:112417434@qq.com

北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!

電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML

智慧機(jī)房

在線體驗(yàn)

CREATE·機(jī)房監(jiān)控 體驗(yàn)端  用戶名:Admin    密碼:12345 點(diǎn)擊體驗(yàn)
在線咨詢 電話咨詢