亚洲乱码AV中文一区二区,亚洲日本精品中文字幕,欧美成人AA大片,国产精品成人专区,国产对白精品刺激一区二区,成人VA亚洲VA欧美天堂,国产AV久久人人澡人人爱,国产精品视频公开课福利,日韩精品午夜视频一区二区三区

歡迎訪問河南省科學院應用物理研究所有限公司官方網(wǎng)站!
首頁 > 科學普及 > “大數(shù)據(jù)”如此熱門,真正的源頭在哪里?

“大數(shù)據(jù)”如此熱門,真正的源頭在哪里?

        近些年來,“大數(shù)據(jù)(Big Data)”已成為一個受全世界關注的熱門詞匯,在科研、電信、金融、教育、醫(yī)療、軍事、電子商務甚至國家及政府機構的決策時都離不開大數(shù)據(jù)技術的身影,幾乎人類發(fā)展的所有領域都有大數(shù)據(jù)技術的應用,甚至有人宣告:人類已經(jīng)被大數(shù)據(jù)浪潮席卷而進入了大數(shù)據(jù)時代。

  其實,“大數(shù)據(jù)”并不是很新的概念,早在好幾十年前,從事粒子物理實驗研究的科學家就已經(jīng)面臨了如何處理實驗中所獲得的海量數(shù)據(jù)的問題,可那時大多數(shù)人還根本不知道大數(shù)據(jù)是什么。真正的大數(shù)據(jù)并不僅是數(shù)據(jù)量大,而是一個包含了數(shù)據(jù)的獲取、傳輸、存儲、分析等綜合性的最前沿技術。最早擁有這種全面應對技術的正是粒子物理實驗領域。以這個視角看,真正的大數(shù)據(jù)之源應屬于科學基礎研究前沿的粒子物理實驗。


  1.計數(shù)的進制
  先需要說明一下數(shù)字的進位制,這與后面要說到的數(shù)據(jù)格式相關。
  進位制是人們?yōu)榱擞嫈?shù)和運算而約定的記數(shù)方式。多位數(shù)中,數(shù)字的位置不同表示的數(shù)值是不同的。約定一個基數(shù)n,只要滿了n就進一位,這就是n進位制,簡稱n進制。
  從古至今,人類使用過的計數(shù)進制五花八門,以下列出的是最主要的幾種:
  60進制:古巴比倫人的計數(shù)采用60進制,每小時60分鐘,每分鐘60秒,以及將圓周分為360度角,每度為60分,每分為60秒,這些都是巴比倫人最早提出的。中國古歷法使用的“干支”紀年也屬于60進制,將10個“天干”(甲、乙、丙、丁、戊、己、庚、辛、壬、癸)與12個“地支”(子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥)按順序排列組合可列出60個不同的年份。
  20進制:古代瑪雅人計數(shù)時20以下用5進制,20以上用20進制。
  16進制:中國舊時稱重使用的是1斤=16兩。
  12進制:公元年月是12進制。古人由觀察天象認識了天、月、年,以及氣候冷暖的變化周期。因一年中月亮有12次盈虧,由此對應將一年分為12個月,這就是最初的12進制。
  10進制:很可能是因為人有10個手指,用手指數(shù)數(shù)最方便,10進制就成了人類最自然的計數(shù)方式,很多民族的文字中都有10個數(shù)字。目前使用最廣泛的10進制阿拉伯數(shù)字0-9其實是古印度人發(fā)明的,后經(jīng)阿拉伯人傳到了全世界,被稱為阿拉伯數(shù)字。中國早在商代就采用十進制(一、二、三、四、五、六、七、八、九、十、百、千、萬)。
  2進制:只用0和1兩個基本數(shù)字,逢2進位。大部分歷史資料中將2進制的發(fā)明與18世紀德國的數(shù)理哲學大師萊布尼茲(G. W. Leibniz)聯(lián)系在一起,也有資料介紹英國數(shù)學家哈里奧特(T. Harriot)17世紀初就提出過這種計數(shù)法。萊布尼茲沒能見到前人的論述,他一直以為這是自己的獨創(chuàng)。但萊布尼茨的確是大力提倡2進制的第一人,他在自己的論文中詳細說明了2進制的算術原理,還給出了加、減、乘、除四則運算的規(guī)則。只是在那個年代,這套2進制理論就像個數(shù)字游戲,并沒有發(fā)現(xiàn)它有什么實用的價值。
  除了上述的幾種進制還有8進制、7進制等等。

  2.數(shù)據(jù)的挑戰(zhàn)
  社會的發(fā)展使人們面臨了數(shù)據(jù)的挑戰(zhàn)。
  1880年,美國政府部門進行了全國人口普查,沒想到耗時約8年才完成了所有數(shù)據(jù)的匯總,但此時很多滯后的數(shù)據(jù)都已經(jīng)失去了價值,因為政府確定稅收分攤以及國會代表人數(shù)等,都需以人口普查的數(shù)據(jù)為基礎。美國政府每10年就進行一次人口普查,由于人口的不斷增長,預計匯總1890年進行的人口普查數(shù)據(jù)將要花費13年。

  幸虧美國的一位統(tǒng)計學家霍爾瑞斯(H. Hollerith)發(fā)明了利用穿孔卡片收集及整理數(shù)據(jù)的制表機,這大大加快了匯總人口普查數(shù)據(jù)的速度,使原本需要10多年才能處理完的數(shù)據(jù)僅用了1年就處理完畢。這可以算作自動處理數(shù)據(jù)的開端,只不過霍爾瑞斯的這種方法需要每個人填寫一張可制成穿孔卡片的表格然后再進行統(tǒng)計,不僅過程比較麻煩,成本也比較高。當所獲的數(shù)據(jù)用已有的數(shù)據(jù)處理工具難以應付之時——這就像要被數(shù)據(jù)所淹沒——迫切地需要數(shù)據(jù)處理的新技術。



美國人口調(diào)查局使用霍爾瑞斯發(fā)明的制表機匯總數(shù)據(jù)(圖片來自網(wǎng)絡)


  1965年,美國預算局提出創(chuàng)建一個國家級的數(shù)據(jù)中心,目的是記錄每個美國人的教育、醫(yī)療、福利、犯罪和納稅等情況,計劃將這些數(shù)據(jù)保存在磁帶上便于有關部門提取。沒想到,這個提案在美國國會和公眾中引起了一場大風波,人們認為這會侵犯個人的隱私。民眾的抵制最終導致該計劃于1968年中止,但這個計劃通常被認為是大規(guī)模存儲數(shù)據(jù)的第一個嘗試。
  那時,雖然人們已經(jīng)遇到了大量數(shù)據(jù)的挑戰(zhàn),但這并不能算是大數(shù)據(jù)的源頭,因為在那個年代,人們處理大量數(shù)據(jù)的能力實在太弱了。

  3.技術基礎
  20世紀40年代,初級的計算機已有人發(fā)明了。計算機的運行要靠電流,對每個電路節(jié)點而言,電流通過的狀態(tài)只有通電和斷電兩種狀態(tài),而計算機的信息存儲一般采用磁帶、磁盤,對每個記錄點來說只有磁化和未磁化兩種狀態(tài),正因如此,多年前認為沒有什么實用價值的2進制運算模式很自然地被應用在計算機上了,計算機運行時1表示通電,0表示斷電,存儲信息時1表示磁化,0表示未磁化。
  20世紀70年代后期,個人電腦開始正式進入商業(yè)市場,只是僅有計算機而沒有網(wǎng)絡仍然對付不了大量的數(shù)據(jù)。
  1980年,美國思想家、未來學家托夫勒(A. Toffler)在他所撰寫的《第三次浪潮》中預言:大數(shù)據(jù)將成為“第三次浪潮的華彩樂章”。
  全球性的計算機網(wǎng)絡體系——因特網(wǎng)于80年代基本形成,而真正為全世界信息交流和傳播帶來革命性變化的萬維網(wǎng)(Web)則于1990年12月在歐洲核子研究中心(CERN)誕生。
  這里還有個關鍵的問題:1993年4月30日,CERN正式?jīng)Q定將Web軟件放到因特網(wǎng)的公共領域,并宣布Web軟件可對任何人開放,不收取任何費用。CERN和Web的發(fā)明人伯納斯-李(Tim Berners-Lee)放棄了為Web技術申請專利,這對因特網(wǎng)在全世界的推廣起了極為重要的作用。此后,Web的應用遠遠超出了最初的設想。
  設想一下,如果沒有二進制等數(shù)學基礎、沒有計算機、沒有存儲設備、沒有因特網(wǎng)在全世界的廣泛應用,根本談不上如何應對大數(shù)據(jù)的挑戰(zhàn),正因為有了這些關鍵技術的基礎,人們處理大量數(shù)據(jù)的能力才得以大大提高。

  4.“大數(shù)據(jù)”之源
  2008年9月,《自然》雜志推出一個“大數(shù)據(jù)”封面專欄,“大數(shù)據(jù)”此時已受到了關注。

  而“大數(shù)據(jù)”真正成為互聯(lián)網(wǎng)技術的熱門詞匯大約是在2009年之后。據(jù)媒體資料的介紹,世界著名的管理咨詢公司麥肯錫公司2011年5月發(fā)布了一份題為“大數(shù)據(jù):競爭、創(chuàng)新和生產(chǎn)力的下一個前沿”的報告。該報告認為,所謂大數(shù)據(jù)是指“規(guī)模已經(jīng)超出典型數(shù)據(jù)庫軟件所能獲取、存儲、管理和分析能力之外的數(shù)據(jù)集”,報告提出了對大數(shù)據(jù)進行收集和分析的設想,并對大數(shù)據(jù)會產(chǎn)生的影響、所需關鍵技術以及應用領域等進行了較詳盡的分析。





  《自然》雜志2008年9月的“大數(shù)據(jù)”封面專欄(上)、麥肯錫公司2011年5月發(fā)布的“大數(shù)據(jù)”報告(下)(圖片來自網(wǎng)絡)



  如果據(jù)此認為大數(shù)據(jù)起源于上述時間段有些失于偏頗。實際上,大數(shù)據(jù)并不算個全新的概念,早在麥肯錫公司發(fā)布大數(shù)據(jù)報告的好幾十年前,從事粒子物理研究的科學家就已經(jīng)面臨了如何處理粒子物理研究所獲得的海量數(shù)據(jù)信息的問題,可那時大多數(shù)人還根本不知道大數(shù)據(jù)到底是什么。

  世界上任何東西的“大”與“小”都是相對的,大數(shù)據(jù)也是一個相對術語,設置某個具體的數(shù)據(jù)量標準作為大數(shù)據(jù)的“門檻”,即數(shù)據(jù)量超過多少字節(jié)就算大數(shù)據(jù)(參考知識鏈接)并不科學。大數(shù)據(jù)應是一個動態(tài)的、能夠隨著數(shù)據(jù)規(guī)模和處理能力增長而不斷變化的概念。真正的大數(shù)據(jù)也并不僅是指所獲數(shù)據(jù)的量大,而是包含了數(shù)據(jù)的獲取、傳輸、存儲、分析等綜合性的最前沿技術。數(shù)據(jù)也并不總是量越大越有價值,沒有價值的大量數(shù)據(jù)只會造成數(shù)據(jù)傳輸、存儲方面的過重負擔,對數(shù)據(jù)的準確分析產(chǎn)生負面的影響。




  基于計算機、因特網(wǎng)、萬維網(wǎng)等高新技術的發(fā)展,人們在面臨大數(shù)據(jù)挑戰(zhàn)的同時,也在不斷增強收集、傳輸、存儲、分析處理及廣泛應用大數(shù)據(jù)的能力。大數(shù)據(jù)的范疇及內(nèi)涵也在此過程中不斷豐富及延伸,不僅與數(shù)據(jù)量的規(guī)模、數(shù)據(jù)即時處理的速度、數(shù)據(jù)格式的多樣化相關,還涉及到數(shù)據(jù)的準確性、可視性、合法性等等特性。

  5.粒子物理實驗
  那么粒子物理實驗與大數(shù)據(jù)有何關系呢?
  粒子物理實驗主要研究構成宇宙中所有物質(zhì)的基本粒子,以及使這些物質(zhì)聚集在一起的基本作用力。粒子物理實驗研究除了可通過接收宇宙射線進行,主要是通過粒子加速器將某種粒子加速至很高能量后與其他粒子相碰撞,然后由各種類型的粒子探測器記錄下粒子碰撞產(chǎn)生的各種事例(包括事例發(fā)生的位置、能量、時間等等數(shù)據(jù)信息)。這些數(shù)據(jù)記錄到磁帶、磁盤等存儲設備中并提供給科學家們分析研究。
  最早使用的粒子探測器有云室、氣泡室、流光室等,屬于記錄粒子徑跡類型。這些粒子實驗所獲的事例圖像直接保留在照相底片上,通過掃描測量儀將信息數(shù)字化后成為原始數(shù)據(jù)。之后,陸續(xù)發(fā)展了多絲正比室、漂移室、閃爍計數(shù)器等多種電子學型的粒子探測器。
  20世紀70年代后,隨著超大型粒子物理實驗裝置的建設以及電子學、計算機技術的快速發(fā)展,數(shù)據(jù)的傳輸、存儲、分析等方面的技術也有了質(zhì)的飛躍,粒子物理實驗所獲的原始數(shù)據(jù)量的規(guī)模越來越大,不得不設定各種條件初步篩選后再存入存儲設備。這些數(shù)據(jù)要通過科學家分析后實現(xiàn)重構,再現(xiàn)各類粒子的物理性質(zhì)(如能量、電荷、磁矩等)還原事例中的物理過程,經(jīng)模擬計算便可了解探測器里到底發(fā)生了什么。
  1989年3月,CERN建造的大型正負電子對撞機LEP開始運行,正負電子分別被加速至每秒圍繞周長27公里的加速器真空管道運轉(zhuǎn)11000周(接近光速)。LEP上有四個大型粒子探測裝置:ALEPH、DELPHI、L3和OPAL,探測器獲得原始數(shù)據(jù)的速率為1MB/秒,每年的總數(shù)據(jù)量達0.2-0.3TB(1TB相當于50000棵樹制成紙張上打印的信息量),這在當時已屬空前,屬于真正的大數(shù)據(jù)了。

  到了2008年,CERN在原LEP的隧道中建成了能量更高的大型強子對撞機LHC(拆除了LEP的全部磁鐵和設備)。LHC上建有ATLAS、ALICE、CMS和LHCb等規(guī)模更大的粒子探測器。LHC每25納秒就可發(fā)生一次質(zhì)子對撞,各類探測器獲得的數(shù)據(jù)達1PB/秒。如此大的數(shù)據(jù)量實際上無法完全記錄下來,只能通過特殊的方法進行過濾后將那些科學家們可能感興趣的數(shù)據(jù)存儲在特殊的存儲設備上。近年來,過濾后每年的數(shù)據(jù)量竟達60PB(每保存1PB的數(shù)據(jù)就需要約22.3萬張DVD盤的容量),這數(shù)據(jù)量已大到令人瞠目結舌。



大型強子對撞機LHC鳥瞰及探測器位置示意圖(圖片來自網(wǎng)絡)



緊湊型μ子螺旋型磁譜儀(CMS)結構示意圖(21米×15米×15米)(圖片來自網(wǎng)絡)



超環(huán)面探測譜儀(ATLAS)結構示意圖(46米×25米×25米)(圖片來自網(wǎng)絡)


  如何分解存貯和處理這些海量數(shù)據(jù)正是粒子物理實驗研究所面臨的巨大挑戰(zhàn),各種類型的數(shù)據(jù)處理方法應運而生。例如,歐洲在2000年啟動的名為DataGrid的研究項目,不僅能滿足高能物理實驗研究的數(shù)據(jù)處理需要,同時擴展到地球觀察、生物研究等廣泛的應用領域。

  粒子物理實驗所獲得的海量數(shù)據(jù)經(jīng)過各種手段的分解、處理,最終以約100MB/秒的速率寫入存儲設備。CERN的計算機中心負責將這些數(shù)據(jù)通過高速網(wǎng)絡分配給歐洲、北美、日本等國的區(qū)域中心,后者再將任務作進一步分解。提供給世界各相關研究機構的數(shù)據(jù)量約為1MB/秒,這樣,物理學家們就可以很方便地進行分析研究了。



  CERN計算機中心的自動磁帶存儲庫(2008年),磁帶用來存儲LHC的實驗數(shù)據(jù),機械臂用于在存儲架和驅(qū)動器間運送磁帶,磁帶的調(diào)用完全自動化(圖片來自網(wǎng)絡)


  正因具備了超強的數(shù)據(jù)獲取及處理能力,CERN才能在極為復雜的數(shù)據(jù)背景之下,以海底撈針的精湛技術于2012年7月捕捉到了物理學家們期盼已久的希格斯(Higgs)粒子,其中,大數(shù)據(jù)技術功不可沒,發(fā)揮了極為重要的作用!
  由此可見,在一般人認為的“大數(shù)據(jù)”成為互聯(lián)網(wǎng)技術熱門詞匯(約2009年)之前,粒子物理實驗研究早已與“大數(shù)據(jù)”打了多年交道,真正的“大數(shù)據(jù)”之源在哪里應該毫無懸念了。

  6.結語
  粒子物理、宇宙天文學、人體基因等最前沿的基礎研究都離不開大數(shù)據(jù),隨著信息技術的飛速發(fā)展和應用,大數(shù)據(jù)近些年來已深深滲入了社會的發(fā)展及人類的日常生活。網(wǎng)格計算、云計算、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、社交網(wǎng)、移動互聯(lián)網(wǎng)、GPS定位、電子商務、醫(yī)學影像、安全監(jiān)控、金融、電信、人工智能等技術的發(fā)展都基于大數(shù)據(jù)并且更瘋狂地產(chǎn)生著大數(shù)據(jù),大數(shù)據(jù)就如大海的浪潮一浪高過一浪,勢不可擋。
  而科學家們面臨的則是更嚴峻的挑戰(zhàn):需要處理的數(shù)據(jù)量更加龐大,數(shù)據(jù)類型更加多樣,需要更快的數(shù)據(jù)傳輸及處理速度,需要容量更大而體積更小的存儲介質(zhì),需要更智能的數(shù)據(jù)分析工具,這些需求又進一步推動了相關高新技術的發(fā)展。

  浪潮自有源頭,在幾乎人人都被大數(shù)據(jù)浪潮席卷的時代,不能忘記粒子物理實驗研究在大數(shù)據(jù)的獲取、傳輸、存儲、分析等最前沿技術領域打下的基礎與巨大的貢獻。真正的“大數(shù)據(jù)”源頭來自基礎研究最前沿的粒子物理實驗研究。

        (來源:高能物理研究所)