大數據時代,機器學習算法該如何升級?

發布:武漢新聞網

文 /楊曉寧

隨著產業界數據量的爆炸式增長,大數據概念受到越來越多的關注。由于大數據的海量、復雜多樣、變化快的特性,對于大數據環境下的應用問題,傳統的小數據上的機器學習算法很多已不再適用。因此,研究大數據環境下的機器學習算法成為學術界和產業界共同關注的話題。

BBTI論文 http://www.bbti.cc

傳統機器學習的問題主要包括如下4個方面:理解并模擬人類的學習過程;針對計算機系統和人類用戶之間的自然語言接口的研究;針對不完全的信息進行推理的能力,及自動規劃的問題;構造可發現新事物的程序。

麻城教育網 http://www.machengedu.cn/

傳統機器學習面臨的一個新挑戰是如何處理大數據。由于現有的機器學習算法是基于內存的,大數據卻無法裝載進計算機內存,故現有的諸多算法不能處理大數據。如何讓新機器學習算法適應大數據處理需求,是大數據時代的研究熱點之一。 武漢新聞網 http://www.315747.tw/

數據分治與并行處理策略是大數據處理的基本策略,尤其是近年來在分布式和并行計算有很大發展的情況下,分治策略顯得尤為重要。一般來說,數據中不同樣本對學習結果的重要程度并不相同,一些冗余和噪音數據不僅造成大量的存儲耗費,武漢新聞網,降低學習運行效率,還會影響學習進度,因此更傾向于依據一定的性能標準(如保持樣本分布、拓撲結構以及保持分類精度等)選擇代表性樣本形成原樣本空間的子集,之后在子集上構造學習方法,完成學習任務。 麻城教育網 http://www.machengedu.cn/

在數據挖掘、文檔分類和多媒體索引等新興領域中,所面臨的數據往往是大數據集,其中包含的屬性和記錄數據都很大,導致處理算法的執行效率低下,通過屬性選擇可剔除無關屬性,增加分析任務的有效性,從而提高模型精度,減少運行時間。

武漢新聞網 http://www.315747.tw/

魯棒是Robust的譯音,是在異常和危險情況下系統生存的能力。比如說,計算機軟件在輸入錯誤、磁盤故障、網絡過載或有意攻擊情況下,能否不死機、不崩潰,也指控制系統在一定結構、大小的參數攝動下,維持其他某些性能的特性。

在監督學習中面臨的挑戰是如何處理大數據,面臨的兩大瓶頸是計算密集幾乎不能用于大規模數據集,魯棒和非參數的置信區間的擬合預測往往是未知的。

國內外學者已開始對機器學習算法進行改進,針對大規模數據的分類問題,在增量核主成分分析和基于共軛梯度的最小二乘支持向量機算法基礎上,大數據領域專家卡姆等提出適用于大數據特征提取和分類算法。該算法所需內存較少,無需存儲較大矩陣,可更好地解決大規模數據分類問題。類似改進還有很多,常用的改進方法有隨機梯度下降、小批量梯度下降、在線學習等。

(作者單位:北京弘治銳龍教育科技有限公司)

從做產品到做生態,華為開啟共贏時代

小企業做產品,大企業做技術,超大企業必須做生態。要成為世界頂級企業,必須建立起強大的生態,通過生態整個生態鏈,大家一起共同發展,今天世…

數字經濟時代 一起來做乘風破浪de懂行人?

日前,《乘風破浪的姐姐》終于迎來了收官之戰,從開播起就廣受關注,播出過程中更是憑借各種話題屢屢登上熱搜,《乘風破浪的姐姐》也成為這個夏…

動力電池江湖亂戰開啟:寧德時代、比亞迪們地位難保?

產業作者|王晶晶 編輯 | 譚松 來源|一鳴網 隨著盛夏的燥熱進入尾聲, 動力電池江湖又開始一片火熱。 811電池失寵、寧德、孚能科技等股價下行、特斯拉…

向英雄城市致敬,又一場國內頂尖汽車論壇首次在漢舉辦

長江網9月15日訊(記者鄧志鵬 通訊員張敏) 繼上個月中國汽車藍皮書論壇首次在漢舉辦之后,9月15日,又一場國內頂尖的汽車高峰論壇——新能源汽車…

診室隔成單間,診療流程嚴格,口腔門診整改后患者放心了

長江網9月15日訊(記者陶可祎 通訊員張伶) 進門測溫,在預檢分診人員指導下填寫身份信息和流行病學篩查表,看病診療全程享受“單間”待遇。11日上…

編鐘禮樂開啟新生第一課|圖集

長江網9月15日訊 9月15日下午,武漢音樂學院中國器樂系舉行一場特殊的編鐘禮樂,歡迎2020級的137名新生。在由大二學生演奏的鏗鏘的編鐘聲和典雅的古…

點擊閱讀更多媒體報道
2013年排列5走势