中文国产日韩欧美视频,午夜精品999,色综合天天综合网国产成人网,色综合视频一区二区观看,国产高清在线精品,伊人色播,色综合久久天天综合观看

基于云計算的數(shù)據挖掘技術探討論文

時間:2023-05-02 06:06:36 論文范文 我要投稿
  • 相關推薦

基于云計算的數(shù)據挖掘技術探討論文

  1、前言

基于云計算的數(shù)據挖掘技術探討論文

  毫無疑問,21世紀10年代,已經是不折不扣的信息時代,或者也可以稱之為數(shù)據時代。隨著計算機的發(fā)展,網絡的快速普及,尤其是移動互聯(lián)網在近年來的蓬勃發(fā)展,數(shù)據量、信息量無時無刻不在海量增長著。目前,面對海量的信息,找出自己真正感興趣的內容已經成為用戶最為頭疼的事情,數(shù)據挖掘已經成為當前最為熱門的技術領域。近年來,云計算成為廣受關注的技術領域,也使得數(shù)據挖掘平臺有了新的發(fā)展方向,構建新一代的數(shù)據挖掘平臺來應對數(shù)據的日趨復雜龐大成為可能。云計算實為傳統(tǒng)計算機技術與網絡技術融合的產物。云計算并非簡單的計算,它是新型計算方式、數(shù)據存儲方式、備份方式、網絡資源分配方式的綜合體,是基于互聯(lián)網的相關服務的增加、使用和交付模式。傳統(tǒng)的數(shù)據挖掘技術是建立在數(shù)據庫之上的,是通過對已收集數(shù)據信息的計算,找出隱藏在不同數(shù)據中的相關信息。傳統(tǒng)的數(shù)據挖掘技術需要在海量數(shù)據的基礎上進行大量的數(shù)據訪問與統(tǒng)計計算,在對數(shù)據進行挖掘的過程中需要消耗及占用大量的計算以及存儲資源,面對規(guī)模不斷增長的海量數(shù)據,需要消耗及占用大量計算及存儲資源的傳統(tǒng)數(shù)據挖掘技術顯得越來越力不從心,難以勝任。而云計算獨特的計算模式,為海量數(shù)據的挖掘提供了一種新的解決方案。

  2、云計算與數(shù)據挖掘

  2.1云計算。云計算是基于互聯(lián)網的一種商業(yè)計算模式,對于云計算的定義,目前并沒有一個統(tǒng)一的說法,現(xiàn)階段廣為人接受的是美國國家標準與技術研究院對云計算所做出的定義,即:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。從云計算的定義我們可以知道,云計算擁有可配置的、大型的計算資源共享池,這種資源共享池包括了網絡、服務器、存儲器、應用軟件以及服務。那也就是說,云計算就是對計算資源共享池的一種資源分配技術或服務,它的特點是可以快速提供這些計算資源,可以減少客戶的管理工作。云計算將計算任務分布在了由大量計算機或服務器構成的共享資源池上,大大提高了資源的有效利用,使計算處理能力以及存儲能力等得到了提高,并且具有更好的擴展性。云計算具有虛擬化的特點,用戶不再受到地理位置以及終端設備的限制,只要接入互聯(lián)網,即可獲取所請求的應用服務,也就是說,用戶只需要擁有一臺可以接入互聯(lián)網的終端設備,即可獲利所需要的各種應用服務;云計算擁有通用性的特點,云平臺可以構造出千萬種應用,用戶沒有應用限制,在同一個云平臺即可運行不同的應用;云計算具有超大規(guī)模以及高擴展性的特點,對于云計算來說,云的規(guī)模擴展不會影響用戶應用服務的質量,而目前,云計算的規(guī)模已經發(fā)展出了超大型,如谷歌的云計算已經擁有了上百萬臺的服務器;云計算擁有高可靠性以及經濟性好的特點,多副本容錯、多計算節(jié)點同構可互換等技術確保了服務的高可靠性,而云計算采用廉價的節(jié)點構成云,自動化集中式管理相較于企業(yè)傳統(tǒng)的數(shù)據中心管理成本來說,經濟性能十分優(yōu)越。

  2.2數(shù)據挖掘。數(shù)據挖掘是數(shù)據庫知識發(fā)現(xiàn)中的一個步驟,數(shù)據挖掘又被稱為數(shù)據采礦,顧名思義,數(shù)據挖掘就是在已有的海量數(shù)據中通過特定的算法來挖掘、發(fā)現(xiàn)有用信息或知識的過程。數(shù)據挖掘是為了解決需求的問題,也是為了解決數(shù)據管理的問題。數(shù)據挖掘對于信息產業(yè)界來說,是產生價值的關鍵環(huán)節(jié),只有將數(shù)據轉馮波換成具有應用價值的信息或是知識,才能具有實在商業(yè)價值。傳統(tǒng)的數(shù)據挖掘技術是建立在數(shù)據庫的基礎之上的,需要數(shù)據庫系統(tǒng)提供有效的存儲、索引和查詢處理支持,而高性能的計算技術是對海量數(shù)據進行處理的關鍵支撐,在處理效率方面具有重要影響。隨著互聯(lián)網規(guī)模的不斷擴大以及移動互聯(lián)網的興趣,數(shù)據規(guī)模呈現(xiàn)更快的增長速度,而對于數(shù)據挖掘的需求也日益增多,這使得傳統(tǒng)的數(shù)據挖掘技術暴露出一些問題,首先是數(shù)據挖掘效率的問題,傳統(tǒng)的基于數(shù)據庫的數(shù)據挖掘技術在面對如今海量數(shù)據的增長規(guī)模已經很難高效的完成計算分析任務;其次,面對海量數(shù)據規(guī)模的增長,傳統(tǒng)的數(shù)據挖掘技術需要更高的軟硬件成本的支持,這種成本的支撐面對數(shù)據量的大規(guī)模增長是長期性的;第三,傳統(tǒng)的基于數(shù)據系統(tǒng)的數(shù)據挖掘技術平臺架構,已經無法為挖掘算法能力的提升提供更多支持,算法受限于系統(tǒng)架構影響了數(shù)據挖掘技術的發(fā)展。

  3、基于云計算的數(shù)據挖掘關鍵技術

  云計算的出現(xiàn)為數(shù)據挖掘技術的發(fā)展提供了新的方向,數(shù)據挖掘技術基于云計算可以發(fā)展出新的模式,就具體的實現(xiàn)來說,其中幾個關鍵技術的發(fā)展至關重要。

  3.1云計算技術。分布式計算是云計算平臺的關鍵技術,是目前應對海量數(shù)據挖掘任務,提高數(shù)據挖掘效率的有效手段之一。分布式計算包含分布式存儲和并行計算兩方面內容,分布式存儲有效解決了海量數(shù)據的存儲問題,實現(xiàn)了數(shù)據存儲高容錯、高安全、高性能等關鍵功能。目前,谷歌提出的分布式文件系統(tǒng)理論是業(yè)界流行的分布式文件系統(tǒng)的基礎,谷歌文件系統(tǒng)(GFS)就是為了解決其海量數(shù)據的存儲、搜索與分析等問題而研發(fā)的,其它如Hadoop分布式文件系統(tǒng)(HDFS)、Kosmos文件系統(tǒng)(KFs)是基于Goolgle分布式文件系統(tǒng)理論進行研發(fā)的開源系統(tǒng)。分布式并行計算框架是高效完成數(shù)據挖掘計算任務的關鍵。目前流行的一些分布式并行計算框架都對分布式計算的一些技術細節(jié)進行了封裝,這樣用戶只需要考慮任務間的邏輯關系,而不用再過多的關注這些技術細節(jié),不僅大大提高了研發(fā)的效率,而且還可以有效的降低系統(tǒng)維護的成本。典型的分布式并行計算框架如谷歌提出的MapReduce并行計算框架、Pregel迭代處理計算框架等。目前業(yè)界開源的云計算平臺Hadoop平臺,包含HDFS和MapReduce,為海量數(shù)據挖掘平臺提供完備的云計算平臺支撐平臺。

  3.2數(shù)據匯集調度技術。數(shù)據匯集調度技術需要實現(xiàn)的是對接入云計算平臺的不同類型數(shù)據的匯集與調度。數(shù)據匯集與調度需要支持不同格式的源數(shù)據,還要提供多種數(shù)據同步方式。解決不同數(shù)據的規(guī)約問題是數(shù)據匯集調度技術的任務,技術解決方案需要考慮對網絡上不同系統(tǒng)生成的數(shù)據格式的支持,如聯(lián)機事務處理系統(tǒng)(0LTP)數(shù)據、聯(lián)機分析處理系統(tǒng)(0LAP)數(shù)據、各種日志數(shù)據、爬蟲數(shù)據等,如此才能實現(xiàn)數(shù)據的挖掘與分析。

  3.3服務調度和服務管理技術。為了能夠讓不同的業(yè)務系統(tǒng)使用本計算平臺,平臺必須要提供服務調度和服務管理功能。服務調度根據服務的優(yōu)先級以及服務和資源的匹配情況等進行調度,解決服務的并行互斥、隔離等,保證數(shù)據挖掘平臺的云服務是安全、可靠的,并根據服務管控進行調度控制。服務管理實現(xiàn)統(tǒng)一的服務注冊、服務暴露等功能,不僅支持本地服務能力的暴露,也支持第三方數(shù)據挖掘能力的接入,很好地擴展數(shù)據挖掘平臺的服務能力。

  3.4挖掘算法并行化技術。挖掘算法并行化是有效利用云計算平臺提供的基礎能力的關鍵技術之一,涉及到算法是否可以并行、以及并行策略的選擇等技術。數(shù)據挖掘算法主要有決策樹算法、關聯(lián)規(guī)則算法以及K-平均值算法等,算法的并行化,是利用云計算平臺進行數(shù)據挖掘的關鍵技術。

【基于云計算的數(shù)據挖掘技術探討論文】相關文章:

云計算與云數(shù)據管理技術研究的論文05-02

數(shù)據挖掘論文04-29

基于數(shù)據挖掘技術的交通事故分析04-26

一種基于數(shù)據挖掘技術的決策信息模型04-30

基于數(shù)據挖掘技術的高校管理決策支持系統(tǒng)04-29

網絡營銷中數(shù)據挖掘技術的應用論文11-27

數(shù)據挖掘技術在軟件工程的運用工程論文04-27

軟件工程數(shù)據挖掘開發(fā)測試技術論文04-27

數(shù)據挖掘論文[范例15篇]07-29

數(shù)據挖掘中抽樣技術的應用04-29