在上一次的分享中,,藉由資訊圖表的幫助讓我們對(duì)于《巴拿馬報(bào)告》(Panama Paper)能夠快速又正確的掌握基本訊息,進(jìn)而能夠開(kāi)始展開(kāi)對(duì)于資料的詮釋及應(yīng)用——探索式資料分析(Exploratory Data Analysis,,簡(jiǎn)稱 EDA),,就是運(yùn)用視覺(jué)化,、基本的統(tǒng)計(jì)等工具,來(lái)“看”一下資料,;以期進(jìn)行複雜或嚴(yán)謹(jǐn)?shù)姆治鲋?,能夠?qū)Y料有更多的認(rèn)識(shí)。今天,,就以一個(gè)資安小故事,,讓我們演練一下在資料分析的方法論中,能夠讓你事半功倍的“探索式資料分析”,。
故事是這樣開(kāi)始的:
Data Genetics 的一位分析人員收到一封朋友寄來(lái)的笑話,信中宣稱“震驚全球的事實(shí),!世界上所有的信用卡 PIN 碼都被破解了,!”——接著就列出了一連串從 0000 - 9999 的數(shù)字。(信用卡 PIN 碼其實(shí)就是一組四碼的數(shù)字密碼,,在國(guó)外刷卡消費(fèi)時(shí)作為認(rèn)證使用,,等同于我們?cè)谂_(tái)灣刷卡時(shí)的簽名這個(gè)動(dòng)作)因?yàn)樗拇a的密碼就只有這一萬(wàn)種組合,,所以看到這種“廢文”般的笑話大多數(shù)人當(dāng)然是一笑置之;然而,,這引起了這位分析人員的興趣:短短的四個(gè)數(shù)字里面,,哪些密碼是最容易被猜中的呢?
現(xiàn)在,,讓我們跟著這個(gè)故事,,演練在資料分析的方法論中,,如何進(jìn)行“探索式資料分析”:
一,、資料收集首先,,顯然地 Data Genetics 不是信用卡或銀行單位,、也不是專門攻擊這些單位的黑帽駭客,;身為一個(gè)資料科學(xué)家,,資料的取得是很重要的一環(huán),;當(dāng)無(wú)法取得原始資料或是完整資料、資料來(lái)源受到限制的時(shí)候,,就必須做出假設(shè),,并根據(jù)這些假設(shè)取得合理的資料來(lái)源,,透過(guò)適當(dāng)?shù)娜印⒈平蚰M我們的研究對(duì)象,。
在這個(gè)故事里,,分析人員從各種已經(jīng)公開(kāi)釋出、曝光或被揭發(fā)的數(shù)字密碼資料庫(kù)與資安漏洞中,,過(guò)濾出共三百四十多萬(wàn)筆的四碼數(shù)字密碼,并且假設(shè)人們傾向于在不同情境中使用同一組密碼,,將這組資料集作為研究對(duì)象,,試著從密碼組成的頻率去分析。
二,、基本統(tǒng)計(jì)工具:敘述統(tǒng)計(jì)量利用基本的統(tǒng)計(jì)工具,,可以由組成數(shù)字的頻率直接知道哪一些密碼是最常被使用的,換句話說(shuō),,哪些密碼是最容易被猜到的?
分析的結(jié)果,,不意外地,,老梗的“1234”、“0000”,、“6969”等規(guī)律排列堆疊的數(shù)字組合名列前茅,。但是,他同時(shí)也發(fā)現(xiàn)有些特別的規(guī)律:例如高居第六名的“1004”在韓文中的讀音接近“天使”(從這點(diǎn)我們也可以推測(cè)該分析人員使用的資料集有部分應(yīng)該來(lái)自韓國(guó)),、還有第二十二名的“2580”看起來(lái)毫無(wú)規(guī)律,但是大家只要拿起手機(jī)或看看電話的撥號(hào)鍵,,就知道原因了,。
三、資料視覺(jué)化 v. s. 資訊圖表即使是簡(jiǎn)單的統(tǒng)計(jì)作圖,,也能告訴你很多一眼看不出來(lái)的秘密。不相信嗎,?讓我們來(lái)看看幾張讓你秒懂密碼內(nèi)幕的圖表??
可以看到,,“19”開(kāi)頭的出現(xiàn)頻率確實(shí)明顯高過(guò)其他的組合(同時(shí)也看到疊字組合仍是萬(wàn)年不敗),;再來(lái)看看所有“19??”的分布:
可能跟出生、或是生活中的重大事件有關(guān),“195X”一直到“198X”的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高過(guò)其他年份,,這點(diǎn)也符合直覺(jué)——會(huì)使用密碼的族群主要也是在這些年份出生的青壯年人口為主,。
矩陣的視覺(jué)化一直是個(gè)強(qiáng)大的工具:以四字密碼作為範(fàn)例,可以將其拆成前后兩組兩位數(shù)字的組成,,將出現(xiàn)頻率描繪在一個(gè) 100 x 100 的矩陣中。
越偏白黃的顏色就是頻率越高的組合,,偏紅黑色即是頻率低的組合,。
透過(guò)矩陣的視覺(jué)化,我們其實(shí)能夠直接得到前面的圖表中呈現(xiàn)的資訊,;換句話說(shuō),,矩陣視覺(jué)化在同樣的篇幅中,,提供了更豐富的資訊。以上面提到的“19XX”模式為例:
可以看到有一排很亮的直線,,它代表了“19”開(kāi)頭的這一排,,可以跟前面的“19XX”分布圖做個(gè)對(duì)照,他們其實(shí)是說(shuō)同一件事:可以看成是上圖的高度改成用顏色取代,,變成了下圖的一條直線,。
除了“19XX”開(kāi)頭,其實(shí)只要是“1XXX”都是相對(duì)亮的區(qū)域,;從矩陣視覺(jué)化可以很明顯看出界線;不需要另外繪製一張下圖這樣的相對(duì)頻率分布就可以清楚的指出來(lái),。
將矩陣做灰階處理后,,也可以很輕鬆地找出“亮點(diǎn)”,把常見(jiàn)的數(shù)字組合標(biāo)記出來(lái),。
花了不少的篇幅也介紹了幾樣工具,,不知道大家有沒(méi)有什幺收穫呢?如果對(duì)于最后提到的矩陣視覺(jué)化有興趣的朋友,,在這邊也推薦中央研究院統(tǒng)計(jì)科學(xué)研究所的陳君厚研究員于 2014 資料科學(xué)愛(ài)好者年會(huì)分享的《Collaboration with Statistician? 矩陣視覺(jué)化于探索式資料分析》,,學(xué)習(xí)愉快,!
堅(jiān)信“Data Speaks Louder Than Words”,藉由資料科學(xué)(Data Science)將數(shù)學(xué)帶出象牙塔服務(wù)人群,,期望讓數(shù)據(jù)驅(qū)動(dòng)(Data-Driven)的觀念帶動(dòng)各種商業(yè)模式的洗鍊,。目前服務(wù)于以數(shù)據(jù)服務(wù)為核心的新創(chuàng)公司,擔(dān)任技術(shù)總監(jiān)。
文章來(lái)源:機(jī)房監(jiān)控 http://youring.cn
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號(hào)-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)