大數(shù)據(jù)的概念和定義
大數(shù)據(jù)是新概念,但本質(zhì)上的大數(shù)據(jù)并不算新。歷史上自從有了戶籍管理制度,便有了戶籍和人口資源大數(shù)據(jù),據(jù)此政府才可以進(jìn)行征稅管理、征兵管理和賑災(zāi)服務(wù),才可以目標(biāo)明確、心中有數(shù)地進(jìn)行有計(jì)劃的征稅、征兵和救災(zāi)工作,只不過(guò)當(dāng)時(shí)并不叫做大數(shù)據(jù)而已。
關(guān)于大數(shù)據(jù)有不同層面的定義。一種是純技術(shù)角度的定義;另一種是實(shí)用角度的定義。
純技術(shù)角度的大數(shù)據(jù)定義:大數(shù)據(jù)(big data),是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。 大數(shù)據(jù)具有容量大、種類多、獲取數(shù)據(jù)快、可變性大、真實(shí)性各異、高復(fù)雜性、低價(jià)值(以低成本創(chuàng)造高價(jià)值)等特性。因此,大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低特征。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。 從技術(shù)上看,大數(shù)據(jù)必然是無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu),依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。
這樣的定義是IT業(yè)的專業(yè)術(shù)語(yǔ),實(shí)在太過(guò)于高大上,也可能就是故弄玄虛的文字游戲,距離產(chǎn)業(yè)應(yīng)用也實(shí)在是太遠(yuǎn)。
實(shí)用角度的大數(shù)據(jù),簡(jiǎn)單用一句話講就是海量的數(shù)據(jù),是行業(yè)相關(guān)的所有數(shù)據(jù)的集合。這些數(shù)據(jù)有的目前即直接可用,有的或許當(dāng)下不可用,只是具有潛在的使用價(jià)值,有的則需要進(jìn)行復(fù)雜的統(tǒng)計(jì)、分析、運(yùn)算,得出具有實(shí)用價(jià)值的結(jié)果、結(jié)論,用來(lái)進(jìn)行決策和指導(dǎo)生產(chǎn)。
大數(shù)據(jù)包括不同層面,有個(gè)人大數(shù)據(jù)、公司企業(yè)大數(shù)據(jù)、行業(yè)大數(shù)據(jù)、公眾大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、政府機(jī)構(gòu)大數(shù)據(jù)、軍事大數(shù)據(jù)。有公開的公眾大數(shù)據(jù),也有保密的大數(shù)據(jù)。個(gè)人大數(shù)據(jù)是關(guān)于自己、家人、朋友、工作、業(yè)務(wù)、隱私的數(shù)據(jù)集合,或許寫在通訊錄、筆記本上,也可能只是裝在自己的腦子里,但不管如何卻是真實(shí)的大數(shù)據(jù),可以隨調(diào)隨用。公司大數(shù)據(jù)是關(guān)于公司架構(gòu)、業(yè)務(wù)、人員、財(cái)務(wù)、采購(gòu)、產(chǎn)品銷售的數(shù)據(jù)集合,是用來(lái)為公司業(yè)務(wù)開展和業(yè)務(wù)決策服務(wù)的大數(shù)據(jù);行業(yè)大數(shù)據(jù)是一個(gè)行業(yè)里有關(guān)人力資源、自然資源、組織機(jī)構(gòu)、生產(chǎn)能力、市場(chǎng)供求、政策導(dǎo)向、存在問(wèn)題、發(fā)展動(dòng)態(tài)等的產(chǎn)業(yè)數(shù)據(jù)等。大數(shù)據(jù)可以是保密的,也可能是公開的、半公開的或部分公開的,軍事大數(shù)據(jù)是國(guó)家機(jī)密,自然是保密不公開的。百度搜索是一個(gè)典型的互聯(lián)網(wǎng)公眾大數(shù)據(jù),也是為社會(huì)大眾服務(wù)公開的公眾大數(shù)據(jù),你可以從百度里搜索到關(guān)于宇宙、地球、大自然、經(jīng)濟(jì)、人文、社會(huì)、商業(yè)、金融、產(chǎn)品等包羅萬(wàn)象,無(wú)所不及的資料,為自己所用。并不是所有的資料對(duì)自己都有用,你只找對(duì)你有用的,現(xiàn)在找不到,或許將來(lái)會(huì)找到。
不同的大數(shù)據(jù)由不同的人來(lái)建立,供不同人群來(lái)使用的。企業(yè)大數(shù)據(jù)是企業(yè)自己來(lái)建立,比如阿里巴巴公司內(nèi)部資源大數(shù)據(jù)和電商平臺(tái)大數(shù)據(jù),是由阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司建設(shè)的,內(nèi)部資源大數(shù)據(jù)是公司自己使用的,而電商平臺(tái)大數(shù)據(jù)中的財(cái)務(wù)部分肯定是給公司自己使用的,但產(chǎn)品部分則是給消費(fèi)者使用的。公眾大數(shù)據(jù)由公眾服務(wù)企業(yè)甚或由公眾參與建設(shè),比如百度是由百度公司搭建平臺(tái),有公眾共同參與建設(shè)的。
農(nóng)業(yè)大數(shù)據(jù)
農(nóng)業(yè)大數(shù)據(jù)是農(nóng)業(yè)行業(yè)大數(shù)據(jù),是關(guān)于土地資源、品種資源、勞動(dòng)力資源、涉農(nóng)企業(yè)、行業(yè)管理、組織機(jī)構(gòu)、農(nóng)業(yè)生產(chǎn)資料、農(nóng)業(yè)裝備、農(nóng)業(yè)科技,關(guān)于農(nóng)產(chǎn)品生產(chǎn)、田間管理、采收加工、產(chǎn)品銷售、價(jià)格變動(dòng)、市場(chǎng)供求、進(jìn)出口貿(mào)易,以及關(guān)于發(fā)展現(xiàn)狀、存在問(wèn)題、發(fā)展動(dòng)態(tài)和趨勢(shì)等所有相關(guān)的數(shù)據(jù)資料集合。農(nóng)業(yè)大數(shù)據(jù)涉及到的不同數(shù)據(jù),應(yīng)該由各自相關(guān)的管理部門、組織機(jī)構(gòu)、行業(yè)協(xié)會(huì)、企業(yè)及其企業(yè)內(nèi)部的不同部門來(lái)建立,而匯總統(tǒng)一的行業(yè)數(shù)據(jù),應(yīng)該由主管部門、行業(yè)組織、行業(yè)服務(wù)機(jī)構(gòu)和公司企業(yè)來(lái)建,分別用于不同的服務(wù)對(duì)象。比如,作為涉農(nóng)服務(wù)組織的供銷社,也可以建立自己的為“三農(nóng)”大數(shù)據(jù)。這個(gè)大數(shù)據(jù)自然應(yīng)該有供銷社的不同層級(jí)的機(jī)構(gòu)來(lái)建、所屬組織機(jī)構(gòu)和公司企業(yè)來(lái)建,并匯總統(tǒng)一為供銷社大數(shù)據(jù)。而且,大數(shù)據(jù)是動(dòng)態(tài)的數(shù)據(jù),隨著時(shí)間的推移,行業(yè)會(huì)有發(fā)展和變化,因而就會(huì)不斷有新的數(shù)據(jù)加入進(jìn)來(lái),而有些數(shù)據(jù)本來(lái)就是動(dòng)態(tài)數(shù)據(jù),比如價(jià)格行情數(shù)據(jù),每天都不同。
農(nóng)業(yè)大數(shù)據(jù)的用途
大數(shù)據(jù)的根本用途是用來(lái)為決策服務(wù)的,包括為行業(yè)管理決策、行業(yè)規(guī)劃決策、行業(yè)指導(dǎo)決策、行業(yè)服務(wù)決策、業(yè)務(wù)經(jīng)營(yíng)決策等。比如,通過(guò)行業(yè)大數(shù)據(jù),可以了解農(nóng)業(yè)生產(chǎn)資料生產(chǎn)現(xiàn)狀和供求平衡,決定是否需要增加化肥、農(nóng)藥、農(nóng)膜和小農(nóng)機(jī)具的產(chǎn)能,是否需要政府提供或如何提供政策支持、資金支持;根據(jù)農(nóng)產(chǎn)品的產(chǎn)能和市場(chǎng)需求,是否需要和如何進(jìn)行供給側(cè)改革。對(duì)于區(qū)域經(jīng)濟(jì)或種植企業(yè)來(lái)說(shuō),根據(jù)現(xiàn)有產(chǎn)能、市場(chǎng)需求和價(jià)格波動(dòng),如何調(diào)整種植結(jié)構(gòu),如何制定價(jià)格策略,鮮活農(nóng)產(chǎn)品是否需要冬儲(chǔ)、如何儲(chǔ)等。在市場(chǎng)經(jīng)濟(jì)背景下,農(nóng)業(yè)生產(chǎn)和產(chǎn)品價(jià)格由市場(chǎng)供求決定,但由于市場(chǎng)的盲目性、隨機(jī)性和無(wú)序性,單個(gè)的生產(chǎn)企業(yè)和一家一戶的農(nóng)民,根本無(wú)法直接準(zhǔn)確了解和掌握市場(chǎng)動(dòng)態(tài)信息,而通過(guò)行業(yè)大數(shù)據(jù)則可以較好地了解市場(chǎng),從而可以在一定程度上進(jìn)行市場(chǎng)經(jīng)濟(jì)條件下的計(jì)劃性生產(chǎn),以降低市場(chǎng)風(fēng)險(xiǎn),減少難以預(yù)測(cè)的市場(chǎng)自然波動(dòng)給農(nóng)業(yè)生產(chǎn)者帶來(lái)的損失。農(nóng)產(chǎn)品期貨和訂單農(nóng)業(yè),本質(zhì)上講也是大數(shù)據(jù),期貨價(jià)格和訂單價(jià)格及時(shí)大數(shù)據(jù)的組成成分,也是基于行業(yè)大數(shù)據(jù)形成的。
農(nóng)業(yè)大數(shù)據(jù)的建設(shè)、管理、使用與服務(wù)
1. 體系建設(shè)
作為行業(yè)大數(shù)據(jù),不可能由某一個(gè)機(jī)構(gòu)或單位自己獨(dú)立完成,必須由行業(yè)內(nèi)所有經(jīng)營(yíng)單位和個(gè)人的參與。各自建設(shè)自己的大數(shù)據(jù),或各自建設(shè)作為大數(shù)據(jù)的組成部分,形成海量數(shù)據(jù),并要能夠通過(guò)統(tǒng)一口徑或非統(tǒng)一口徑進(jìn)行數(shù)據(jù)的匯總集成。匯總集成的海量數(shù)據(jù),是進(jìn)行數(shù)據(jù)分析、歸納總結(jié)、進(jìn)行決策的基礎(chǔ)和依據(jù)。所以,需要有數(shù)據(jù)中心和各層級(jí)的支持體系、工作體系,才能完成數(shù)據(jù)建設(shè),也才能為不同層級(jí)的用戶提供數(shù)據(jù)服務(wù)。
2. 硬件和軟件建設(shè)
大數(shù)據(jù)首先需要有存儲(chǔ)介質(zhì)、傳播介質(zhì)和運(yùn)算介質(zhì)。所以,就目前的技術(shù)發(fā)展水平和科技手段而言,大數(shù)據(jù)必然需要依靠計(jì)算機(jī)、移動(dòng)通訊和互聯(lián)網(wǎng)的硬件環(huán)境支持,需要有辦公場(chǎng)所。這些都是硬件建設(shè)的范圍。大數(shù)據(jù)軟件建設(shè)則主要是指能夠保證以特定的數(shù)據(jù)格式存儲(chǔ)和管理數(shù)據(jù),并進(jìn)行檢索、統(tǒng)計(jì)、分析、運(yùn)算、形成結(jié)論和進(jìn)行決策的軟件系統(tǒng)的建設(shè)。當(dāng)然也包括數(shù)據(jù)安全保護(hù)。所以大數(shù)據(jù)建設(shè)中,硬件購(gòu)置和軟件開發(fā)是必須的,也是基礎(chǔ)的工作。
3. 數(shù)據(jù)建設(shè)
硬件和軟件建設(shè)只是大數(shù)據(jù)建設(shè)的物理環(huán)境建設(shè),是基礎(chǔ),而大數(shù)據(jù)的真正核心是數(shù)據(jù)建設(shè)。沒(méi)有數(shù)據(jù)的大數(shù)據(jù),就僅僅是個(gè)空殼數(shù)據(jù)庫(kù)。這樣的空殼數(shù)據(jù)庫(kù),從上世紀(jì)九十年來(lái)以來(lái),曾經(jīng)建設(shè)了很多,但都毫無(wú)用處。真正的大數(shù)據(jù),必須有豐富的、海量的數(shù)據(jù)作為內(nèi)容,并以規(guī)范的格式存儲(chǔ),可以方便地進(jìn)行檢索、統(tǒng)計(jì)、分析、形成結(jié)論、進(jìn)行決策、輸出決策并最終為用戶提供服務(wù)。相對(duì)于硬件建設(shè)和軟件開發(fā),數(shù)據(jù)建設(shè)需要更多的機(jī)構(gòu)和人員參與,投入的時(shí)間、精力和勞動(dòng)更多。
大數(shù)據(jù)檢索、權(quán)限和服務(wù)
大數(shù)據(jù)是供使用的,使用的第一個(gè)環(huán)節(jié)就是檢索。大數(shù)據(jù)必須能夠通過(guò)一定的檢索工具,通過(guò)一定的檢索方式,進(jìn)行檢索使用。比如百度搜索引擎,就是百度數(shù)據(jù)的檢索工具。通過(guò)關(guān)鍵詞及關(guān)鍵字組合,能比較準(zhǔn)確的搜索到需要的公眾數(shù)據(jù)。京東商城里的搜索引擎,也可以通過(guò)關(guān)鍵詞和關(guān)鍵詞組合搜索到你需要的商品,并可通過(guò)篩選條件,篩選到特定品類、特定品牌、特定價(jià)格及其他特征的目標(biāo)產(chǎn)品。
通常大數(shù)據(jù)的使用是有權(quán)限的,用以區(qū)分公共數(shù)據(jù)和不同層級(jí)的保密數(shù)據(jù),供相應(yīng)層級(jí)或類型用戶的檢索需要。
大數(shù)據(jù)對(duì)不同用戶層面的服務(wù)不同。行業(yè)管理者用來(lái)進(jìn)行行業(yè)管理決策,經(jīng)營(yíng)者用來(lái)經(jīng)營(yíng)決策,社會(huì)大眾用來(lái)為日常生活和工作服務(wù)。根據(jù)不同保密程度設(shè)置不同的權(quán)限,為不同的用戶服務(wù)。一般來(lái)講,一個(gè)海量數(shù)據(jù)的大數(shù)據(jù)不可能只為少數(shù)人服務(wù),受眾范圍越大,社會(huì)價(jià)值越大。
大數(shù)據(jù)是需要不斷發(fā)展、完善的數(shù)據(jù)
大數(shù)據(jù)永遠(yuǎn)不可能是最終的、最理想的數(shù)據(jù)。因?yàn)槭挛锸翘幱诓粩噙\(yùn)動(dòng)、發(fā)展、變化中的,大數(shù)據(jù)需要不斷豐富、完善、發(fā)展,是動(dòng)態(tài)的數(shù)據(jù)。一是大數(shù)據(jù)技術(shù)在不斷發(fā)展和進(jìn)步中,沒(méi)有最好,只有更好;二是大數(shù)據(jù)的數(shù)據(jù)是動(dòng)態(tài)變化的,產(chǎn)業(yè)在發(fā)展,時(shí)間在推移,所以大數(shù)據(jù)也必然是動(dòng)態(tài)變化的。大數(shù)據(jù)只能是不斷趨于理想的數(shù)據(jù),但永遠(yuǎn)不可能是理想數(shù)據(jù)。