忘掉大數(shù)據(jù) 思維才最重要
在傳統(tǒng)金融行業(yè)里,很多銀行只會考慮發(fā)貸款或者發(fā)信用卡之前的風控分析。很多銀行到人民銀行拿到一些個人消費者征信報告,這些數(shù)據(jù)包含了消費者以前其他的貸款、每個月工資情況等等這樣一些最基本的信息。銀行根據(jù)信息打分,然后這個分數(shù)之上的消費者可以獲批貸款,在分數(shù)之下的就不會獲批。這整個過程是成本較高的,因為任何一個報告都是要花錢去買。第二點是很多情況下需要面訪,現(xiàn)場進行風險考察,然而這個考察過程中數(shù)據(jù)的真實性和有效性也是值得商榷的。
比如我們的一個客戶——郵政儲蓄銀行。向他們貸款的很多客戶是農民,他們在種植或者養(yǎng)殖生產中需要資金支持,比如用來投資買種子或者購買種植養(yǎng)殖的基本設施。但是當面談的時候他或許假裝家里有一頭牛,我將來可以賣掉這個牛還款,但這個牛有可能是從他的鄰居家拉過來的。所以真正證明貸款申請人信用的數(shù)據(jù)真實性和有效性是解決這個問題過程中非常核心的問題。數(shù)據(jù)是否是真實有效的、數(shù)據(jù)是否跟最后結果有關系,這就是我們在數(shù)據(jù)思維決策過程中需要考慮的兩個非常核心的問題。
“其實我是有一點近視眼的,我看很遠處的一個廣告牌,上面的文字有時我看得不是很清楚,但我的大腦是能夠猜出來文字大概是講什么的。本質上是因為在我的大腦是擁有識別低分辨率的數(shù)據(jù),同時再把它還原推測到高分辨率的那個能力。這種能力其實也是大數(shù)據(jù)公司里面非常核心的能力。"
2、數(shù)據(jù)治理:還原推測到“高分辨率”
我接下來就給大家講講處理數(shù)據(jù)里面最核心的兩個工作。第一個工作我們稱之為數(shù)據(jù)清洗或是叫數(shù)據(jù)治理。
很多公司擁有大量的數(shù)據(jù),但如果這些數(shù)據(jù)沒有辦法整合到一起,沒辦法清洗、在線化,沒辦法讓使用者方便取用,那即便數(shù)據(jù)量再大也不能說這個公司有大數(shù)據(jù)。所以清洗和整合數(shù)據(jù)是非常重要的。通常在技術領域有一個概念叫“ETL”,ETL其實只把數(shù)據(jù)抽取到一起,進行數(shù)據(jù)格式統(tǒng)一化,最后再加載到一個可應用的平臺上,這是整個數(shù)據(jù)治理行業(yè)里面最核心的幾個環(huán)節(jié)。但在大數(shù)據(jù)概念出來之后,跟傳統(tǒng)ETL有一個挺大的區(qū)別在于數(shù)據(jù)格式跟以前相比更加復雜。通常我們所謂的大數(shù)據(jù)、我們處理的數(shù)據(jù)除了包括以前的結構化數(shù)據(jù),還包括新的非結構化數(shù)據(jù)。
非結構化數(shù)據(jù)是指數(shù)據(jù)里每一條記錄之間的格式并不統(tǒng)一,甚至很多數(shù)據(jù)都是臟數(shù)據(jù)。大家可以想象銀行的很多數(shù)據(jù),比如消費者注冊信息:姓名、年齡、手機號、身份證號,包括月收入可能都要求填,但很多情況下大家填信息的時候格式都不一定統(tǒng)一,比如說手機號可能有一些人填沒有加“86”,再比如說身份證號有人填的是18位的,有人填的是15位的,這些信息是否是統(tǒng)一格式對于未來的數(shù)據(jù)應用非常關鍵。
相關新聞:
0條評論
網友評論