<progress id="uuezx"></progress>
<th id="uuezx"></th>
  • <li id="uuezx"><acronym id="uuezx"><cite id="uuezx"></cite></acronym></li>

    學習大數據需要哪些數學知識

    我們都知道編程技術是需要一定的邏輯能力的,不管哪種語言,都繞不過“規律”這一說,那么大家知道對于大數據技術,我們需要了解哪些數學知識嗎?陸老師帶你了解一下吧。

        (1)概率論與數理統計

        這部分與大數據技術開發的關系非常密切,條件概率、獨立性等基本概念、隨機變量及其分布、多維隨機變量及其分布、方差分析及回歸分析、隨機過程(特別是Markov)、參數估計、Bayes理論等在大數據建模、挖掘中就很重要。

        大數據具有天然的高維特征,在高維空間中進行數據模型的設計分析就需要一定的多維隨機變量及其分布方面的基礎。Bayes定理更是分類器構建的基礎之一。除了這些這些基礎知識外,條件隨機場CRF、隱Markov模型、n-gram等在大數據分析中可用于對詞匯、文本的分析,可以用于構建預測分類模型。

        當然以概率論為基礎的信息論在大數據分析中也有一定作用,比如信息增益、互信息等用于特征分析的方法都是信息論里面的概念。

        (2)線性代數

        這部分的數學知識與大數據技術開發的關系也很密切,矩陣、轉置、秩分塊矩陣、向量、正交矩陣、向量空間、特征值與特征向量等在大數據建模、分析中也是常用的技術手段。

        在互聯網大數據中,許多應用場景的分析對象都可以抽象成為矩陣表示,大量Web頁面及其關系、微博用戶及其關系、文本集中文本與詞匯的關系等等都可以用矩陣表示。比如對于Web頁面及其關系用矩陣表示時,矩陣元素就代表了頁面a與另一個頁面b的關系,這種關系可以是指向關系,1表示a和b之間有超鏈接,0表示a,b之間沒有超鏈接。著名的PageRank算法就是基于這種矩陣進行頁面重要性的量化,并證明其收斂性。

        以矩陣為基礎的各種運算,如矩陣分解則是分析對象特征提取的途徑,因為矩陣代表了某種變換或映射,因此分解后得到的矩陣就代表了分析對象在新空間中的一些新特征。所以,奇異值分解SVD、PCA、NMF、MF等在大數據分析中的應用是很廣泛的。

        (3)最優化方法

        模型學習訓練是很多分析挖掘模型用于求解參數的途徑,基本問題是:給定一個函數f:A→R,尋找一個元素a0∈A,使得對于所有A中的a,f(a0)≤f(a)(最小化);或者f(a0)≥f(a)(最大化)。優化方法取決于函數的形式,從目前看,最優化方法通常是基于微分、導數的方法,例如梯度下降、爬山法、最小二乘法、共軛分布法等。

        (4)離散數學

        離散數學的重要性就不言而喻了,它是所有計算機科學分支的基礎,自然也是大數據技術的重要基礎。


    上下文導航
    相關內容
    全國熱線

    0551-69117050

    咨詢服務熱線:8:00-23:00

    合肥一元教育咨詢有限公司版權所有 如有圖片侵權請及時聯系本站,將及時刪錯或更改

    皖ICP備13012660號-1

    在線咨詢
    電話咨詢
    Tel:0551-69117050
    微信

    掃一掃
    歡迎微信咨詢

    QQ咨詢
    返回頂部