企業(yè)能否從移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)中不斷出現(xiàn)的數(shù)據(jù)源那里順利發(fā)現(xiàn)并拿到它需要的數(shù)據(jù)?
在Web頁(yè)面中增加一個(gè)簡(jiǎn)單的意見(jiàn)按鈕,會(huì)不會(huì)讓讀者放棄填寫(xiě)文字評(píng)論?同樣是給注冊(cè)用戶發(fā)送郵件通知,是純文字版本、還是圖形化版本獲得的回復(fù)率更高呢?
這是Facebook曾經(jīng)面臨的無(wú)數(shù)個(gè)用戶體驗(yàn)問(wèn)題中的兩個(gè)。要回答這類問(wèn)題,最好的辦法只有一個(gè),就是實(shí)際測(cè)試一下。
Facebook的確這么做了。他們分別選取了兩組用戶設(shè)計(jì)了一次測(cè)試。結(jié)果證明,增加了意見(jiàn)按鈕后的評(píng)論增加了近5%;簡(jiǎn)單的基于文本的電子郵件獲得了比圖形化更豐富的那些電子郵件高出三倍的響應(yīng)率。
那么,這種測(cè)試方法的難點(diǎn)在哪里呢?超大量的社會(huì)化數(shù)據(jù)(social data)的收集和分析就是這其中最大的困難。
數(shù)據(jù)顯示,F(xiàn)acebook上現(xiàn)有5億用戶,超過(guò)一半的用戶每天都登錄。而Neilsen調(diào)查指出,F(xiàn)acebook用戶在該網(wǎng)站上消耗的時(shí)間,比接近它的其他6個(gè)網(wǎng)站上用戶所花的時(shí)間的總和還多。如此集中的用戶和用戶行為無(wú)疑產(chǎn)生巨量的數(shù)據(jù)回饋。Facebook的工程副總裁Mike Schroepfer指出,如今Facebook已經(jīng)存儲(chǔ)了數(shù)十PB的未壓縮數(shù)據(jù),每天的數(shù)據(jù)處理量也可以達(dá)到上百TB。
與過(guò)去那些從數(shù)據(jù)庫(kù)等商業(yè)軟件中抽取出的較為規(guī)整的數(shù)據(jù)不同,如今,在諸多社區(qū)網(wǎng)站中、各類網(wǎng)絡(luò)行為中產(chǎn)生的數(shù)據(jù)多種多樣。雅虎首席產(chǎn)品官Blake Irving指出,世界上只有5%的數(shù)據(jù)是結(jié)構(gòu)化的,而非結(jié)構(gòu)化數(shù)據(jù)一直保持極大的增長(zhǎng)。事實(shí)上,為了更經(jīng)濟(jì)高效地從客戶端的網(wǎng)絡(luò)行為中抓取數(shù)據(jù)、分析數(shù)據(jù),F(xiàn)acebook、雅虎、淘寶以及像中國(guó)移動(dòng)等主流企業(yè)都已經(jīng)紛紛在云計(jì)算、數(shù)據(jù)挖掘等前沿技術(shù)中尋求解決方案。
大數(shù)據(jù)時(shí)代
時(shí)至今日,“Big data”(大數(shù)據(jù))時(shí)代的來(lái)臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。在這其中,還挾裹著一個(gè)更為重要的趨勢(shì),即數(shù)據(jù)的社會(huì)化(Socialization of Data)。從博客論壇到游戲社區(qū)再到微博,從互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類以及各類物理實(shí)體的實(shí)時(shí)聯(lián)網(wǎng)已經(jīng)而且還將繼續(xù)產(chǎn)生難以估量的數(shù)據(jù)。對(duì)于時(shí)刻關(guān)注市場(chǎng)走向的企業(yè)來(lái)講,他們需要關(guān)注的數(shù)據(jù)顯然已經(jīng)不僅限于企業(yè)內(nèi)部數(shù)據(jù)庫(kù)中的業(yè)務(wù)數(shù)據(jù),還要包括互聯(lián)網(wǎng)(以及未來(lái)的物聯(lián)網(wǎng))上各類網(wǎng)絡(luò)活動(dòng)所產(chǎn)生的相關(guān)數(shù)據(jù)記錄。
換句話說(shuō),如今,一個(gè)完整的企業(yè)數(shù)據(jù)生態(tài)系統(tǒng)有多個(gè)信息入口,應(yīng)該包括互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、Email、呼叫中心等,其中還包括很多諸如圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。以往人們認(rèn)為,把企業(yè)自有的運(yùn)營(yíng)數(shù)據(jù)進(jìn)行深度分析后,自然會(huì)有所得。但在今天看來(lái),這種做法的一大缺陷就是,數(shù)據(jù)不夠全面、及時(shí)。從理論上講,掌握的數(shù)據(jù)越全面,得出的結(jié)論就越趨向于合理。在上世紀(jì)即流傳開(kāi)來(lái)的“啤酒與尿布”故事之后,企業(yè)只有構(gòu)建一個(gè)容納了足夠多關(guān)鍵信息的“深水池”,才更有可能做出正確的決策。
這種趨勢(shì)已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變。
2010年上半年,淘寶網(wǎng)開(kāi)始推出數(shù)據(jù)魔方服務(wù)。從其服務(wù)頁(yè)面上可以看到,基于淘寶網(wǎng)上億用戶產(chǎn)生的交易原始數(shù)據(jù),數(shù)據(jù)魔方服務(wù)不但可以提供傳統(tǒng)的熱銷品牌等各類排行,還可以對(duì)某項(xiàng)產(chǎn)品的交易趨勢(shì)、賣家和買(mǎi)家的信用情況、交易時(shí)段等多種細(xì)節(jié)進(jìn)行統(tǒng)計(jì)分析。如果與沃爾瑪?shù)葌鹘y(tǒng)零售巨頭所能分析的數(shù)據(jù)相比,淘寶在賣家和買(mǎi)家的一些軟性資料和溝通細(xì)節(jié)上顯然掌握了更為豐富的信息。據(jù)透露,在近半年的時(shí)間內(nèi),淘寶上即有近2萬(wàn)賣家開(kāi)始通過(guò)數(shù)據(jù)魔方進(jìn)行參考決策,100多天中總計(jì)數(shù)據(jù)調(diào)用260萬(wàn)次。如今,淘寶網(wǎng)在國(guó)內(nèi)外的數(shù)據(jù)分析領(lǐng)域中已經(jīng)頗具影響力,其數(shù)據(jù)服務(wù)業(yè)務(wù)在其大淘寶戰(zhàn)略中的地位也將愈發(fā)重要。展望未來(lái),互聯(lián)網(wǎng)、電信、金融等行業(yè)企業(yè)無(wú)疑在數(shù)據(jù)服務(wù)業(yè)務(wù)方面還有很大的開(kāi)拓空間。
社會(huì)化數(shù)據(jù)的迅猛增長(zhǎng)除了讓掌握了這些數(shù)據(jù)的企業(yè)順勢(shì)推出了相關(guān)的數(shù)據(jù)服務(wù)之外,也直接影響到了數(shù)據(jù)分析技術(shù)提供商們的發(fā)展戰(zhàn)略。
2010年10月,一直專注于商業(yè)智能技術(shù)的美國(guó)公司Teradata就宣布推出新的社交媒體平臺(tái),專門(mén)進(jìn)行與挖掘社會(huì)化數(shù)據(jù)相關(guān)的信息分享。在面向企業(yè)推出的產(chǎn)品上,則在其主打的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品之外,加入了關(guān)鍵的社會(huì)化數(shù)據(jù)的抓取和分析功能技術(shù)Hadoop。
“Teradata 的傳統(tǒng)優(yōu)勢(shì)在于可以應(yīng)對(duì)數(shù)據(jù)庫(kù)內(nèi)的海量數(shù)據(jù),Hadoop技術(shù)則可以處理來(lái)自互聯(lián)網(wǎng)的大規(guī)模數(shù)據(jù),現(xiàn)在我們將原有產(chǎn)品和Hadoop技術(shù)整合到一起,可以更好地解決企業(yè)的數(shù)據(jù)處理問(wèn)題。”Teradata公司首席技術(shù)官Stephen Brobst說(shuō)。
對(duì)很多人來(lái)講,Hadoop這樣一個(gè)名詞可能還比較陌生,但實(shí)際上,從Yahoo的 Web搜索研究,到Facebook的數(shù)據(jù)分析,再到百度的搜索日志分析、淘寶的數(shù)據(jù)魔方服務(wù),以及中移動(dòng)推出了“大云”(BigCloud)系統(tǒng),Hadoop的身影都已經(jīng)到處閃現(xiàn)。簡(jiǎn)單來(lái)講,社會(huì)化數(shù)據(jù)時(shí)代的企業(yè)需要像八爪魚(yú)一樣,能夠發(fā)現(xiàn)并拿到他需要的數(shù)據(jù),而Hadoop技術(shù)的好處就是,不但可以方便地嵌入到各種實(shí)際應(yīng)用中以實(shí)現(xiàn)全文搜索/索引,而且可以進(jìn)行數(shù)據(jù)抓取。比如雅虎,通過(guò)應(yīng)用這一技術(shù),幾乎可以實(shí)時(shí)分析每一個(gè)頁(yè)面點(diǎn)擊并優(yōu)化內(nèi)容的排名,每7分鐘就能更新一次結(jié)果。
[page]
數(shù)據(jù)無(wú)盡頭
如果說(shuō)社會(huì)化數(shù)據(jù)相對(duì)于企業(yè)內(nèi)部的那些結(jié)構(gòu)化數(shù)據(jù)來(lái)講算新數(shù)據(jù)的話,那么,類似的新數(shù)據(jù)在未來(lái)還將不斷增加。
因?yàn)橐苿?dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新網(wǎng)絡(luò)的發(fā)展還在繼續(xù),未來(lái)新的數(shù)據(jù)源將會(huì)不斷地出現(xiàn),由此,像GPS數(shù)據(jù)、移動(dòng)數(shù)據(jù)、傳感器收集的數(shù)據(jù)也將會(huì)不停地、大量的產(chǎn)生。
對(duì)于企業(yè)的整體數(shù)據(jù)生態(tài)系統(tǒng)來(lái)講,其實(shí)可以依據(jù)私有云和公有云的界定將其所有數(shù)據(jù)分成兩大部分。對(duì)于私有云,更多地體現(xiàn)為企業(yè)內(nèi)部的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),在未來(lái)的三到五年內(nèi),很多企業(yè)都將會(huì)大力發(fā)展其內(nèi)部的云計(jì)算環(huán)境,像IBM、EMC等公司可以憑借虛擬化技術(shù)、硬件存儲(chǔ)功能為客戶提供相關(guān)的數(shù)據(jù)處理方案。
而對(duì)于更為廣闊的公有云數(shù)據(jù),帶來(lái)的市場(chǎng)空間同樣很大。“隨著社會(huì)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)、大數(shù)據(jù)的產(chǎn)生,企業(yè)需要將這些數(shù)據(jù)集中起來(lái),加以分析利用,這也將會(huì)給Teradata這樣的公司帶來(lái)巨大的機(jī)會(huì)。”Teradata大中華區(qū)總裁辛兒倫(Aaron Hsin)在采訪中如此表示。
比如在能源領(lǐng)域,Teradata就與智能電表供應(yīng)商Itron公司打造了一個(gè)軟件分析平臺(tái),對(duì)使用的數(shù)據(jù)進(jìn)行分析,解決了能源一旦生產(chǎn)出來(lái)無(wú)法儲(chǔ)存和節(jié)約的問(wèn)題。憑借該分析平臺(tái),公用事業(yè)企業(yè)能夠根據(jù)預(yù)測(cè)使用量和實(shí)際使用量對(duì)能源進(jìn)行分配。比如,在住宅區(qū)域和制造業(yè)密布的區(qū)域,電力將采用不同的分配規(guī)劃。這一服務(wù)平臺(tái)不僅可讓能源企業(yè)獲得能源使用量、虛假信息和能源分配方面的數(shù)據(jù),還能根據(jù)每個(gè)企業(yè)在每天特定時(shí)間的使用量進(jìn)行定價(jià)和收費(fèi),并且更合理地配置能源。
此外,未來(lái)對(duì)地理空間數(shù)據(jù)的應(yīng)用也是熱點(diǎn)之一。比如零售企業(yè)將地理空間數(shù)據(jù)與其網(wǎng)點(diǎn)、客戶數(shù)據(jù)相結(jié)合之后,即可針對(duì)其競(jìng)爭(zhēng)對(duì)手推出更具競(jìng)爭(zhēng)力的布局和促銷活動(dòng)。而汽車保險(xiǎn)行業(yè)則可以用感應(yīng)器來(lái)收集數(shù)據(jù)。通過(guò)收集車輛行駛過(guò)程中的信息,與公路網(wǎng)的地理空間數(shù)據(jù)重疊起來(lái),就可以對(duì)路況不好,經(jīng)常發(fā)生事故的道路進(jìn)行分析和防范。據(jù)辛兒倫介紹,目前,國(guó)內(nèi)已經(jīng)有部分客戶采用了Teradata的地理空間數(shù)據(jù)解決方案,主要分布在零售業(yè)、保險(xiǎn)業(yè)和政府機(jī)關(guān)三個(gè)領(lǐng)域。
事實(shí)上,因?yàn)樵跀?shù)據(jù)挖掘技術(shù)和數(shù)據(jù)規(guī)模上的雙重門(mén)檻,使得這一行業(yè)并不能像過(guò)去賣出一臺(tái)機(jī)器或一份軟件許可那樣簡(jiǎn)單。
以Teradata公司為例,雖然2010年經(jīng)濟(jì)大勢(shì)不好,但是其業(yè)績(jī)?cè)鲩L(zhǎng)卻非常顯著。2010年上半年,Teradata的營(yíng)業(yè)收入增長(zhǎng)了14%,是其在過(guò)去10年間幅度最大的一次增長(zhǎng)。之所以如此,一部分原因是,當(dāng)危機(jī)來(lái)臨時(shí),公司試圖通過(guò)數(shù)據(jù)分析找出問(wèn)題、得出對(duì)策的需求更為強(qiáng)烈,另一部分則需要注意到Teradata公司自身所發(fā)生的變化。
與其他IT供應(yīng)商動(dòng)輒擁有成千上萬(wàn)甚至上百萬(wàn)的客戶量不同,因?yàn)閿?shù)據(jù)規(guī)模的前提限制,Teradata手中的客戶只有一千家左右。這一千家客戶大都集中在能夠產(chǎn)生巨量數(shù)據(jù)的電信、金融和互聯(lián)網(wǎng)行業(yè)。要在這一千多家客戶中開(kāi)拓市場(chǎng),提供持續(xù)的數(shù)據(jù)挖掘服務(wù)顯然比簡(jiǎn)單的出售產(chǎn)品更適合作為一項(xiàng)長(zhǎng)久的戰(zhàn)略。而在過(guò)去一年中,Teradata為了保證其顧問(wèn)服務(wù),其服務(wù)隊(duì)伍規(guī)模已經(jīng)擴(kuò)充了超過(guò)30%。
另外非常值得一提的是,中國(guó)市場(chǎng)在數(shù)據(jù)挖掘領(lǐng)域發(fā)展上的特殊性。與中國(guó)的基本國(guó)情相關(guān),因?yàn)閲?guó)內(nèi)人口基數(shù)較大,引發(fā)的客戶數(shù)據(jù)量也更為龐大。如果我們能樂(lè)觀地看待這一問(wèn)題的話,那么,不管是出于應(yīng)對(duì)海量數(shù)據(jù)的需要,還是試圖從這些數(shù)據(jù)中挖到金子的沖動(dòng),由此迎來(lái)一個(gè)“數(shù)據(jù)創(chuàng)新”的機(jī)會(huì)也并非不可能。
相關(guān)閱讀