[實(shí)用]數(shù)據(jù)挖掘論文15篇
在日常學(xué)習(xí)、工作生活中,大家都寫(xiě)過(guò)論文吧,論文是我們對(duì)某個(gè)問(wèn)題進(jìn)行深入研究的文章。那么,怎么去寫(xiě)論文呢?以下是小編為大家收集的數(shù)據(jù)挖掘論文,歡迎閱讀,希望大家能夠喜歡。
數(shù)據(jù)挖掘論文1
1電子商務(wù)中的數(shù)據(jù)挖掘簡(jiǎn)介
電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即Web服務(wù))中自動(dòng)發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項(xiàng)綜合技術(shù),涉及到Internet技術(shù)學(xué)、人工智能等多個(gè)領(lǐng)域。當(dāng)電子商務(wù)在企業(yè)中得到應(yīng)用時(shí),企業(yè)信息系統(tǒng)將產(chǎn)生大量數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,為企業(yè)創(chuàng)造更多潛在的利潤(rùn),數(shù)據(jù)挖掘概念就是從這樣的商業(yè)角度開(kāi)發(fā)出來(lái)的。
2Web數(shù)據(jù)挖掘的流程
Web數(shù)據(jù)挖掘是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取商業(yè)決策的關(guān)鍵性數(shù)據(jù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。在電子商務(wù)環(huán)境下,Web數(shù)據(jù)挖掘主要分為以下幾步:(1)數(shù)據(jù)收集。首先數(shù)據(jù)收集主要針對(duì)web數(shù)據(jù)中的服務(wù)器數(shù)據(jù)、用戶數(shù)據(jù)。其中服務(wù)器數(shù)據(jù)是Web挖掘中的主要對(duì)象。服務(wù)器中承載著用戶訪問(wèn)時(shí)產(chǎn)生的對(duì)應(yīng)的服務(wù)數(shù)據(jù),其中包括了:日志文件、cookie文件、數(shù)據(jù)流。將這些數(shù)據(jù)進(jìn)行初步收集,再針對(duì)這些數(shù)據(jù)進(jìn)行深度分析挖掘。(2)數(shù)據(jù)選擇和預(yù)處理。通過(guò)數(shù)據(jù)收集將數(shù)據(jù)進(jìn)行分類(lèi),根據(jù)所需的信息主題對(duì)收集的數(shù)據(jù)進(jìn)行選擇,通過(guò)選擇相關(guān)的數(shù)據(jù)項(xiàng)縮小數(shù)據(jù)處理的范圍,挑選其中的有效數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理能夠提高挖掘效率,為之后的數(shù)據(jù)分析提供有效的數(shù)據(jù)。Web數(shù)據(jù)中大多數(shù)都是半結(jié)構(gòu)或非結(jié)構(gòu)化的,所以對(duì)web數(shù)據(jù)進(jìn)行直接處理是不可行的。數(shù)據(jù)預(yù)處理能夠把半結(jié)構(gòu)或非結(jié)構(gòu)化的數(shù)據(jù)處理成標(biāo)準(zhǔn)的數(shù)據(jù)集方便后期處理。(3)模式發(fā)現(xiàn)。模式發(fā)現(xiàn)是運(yùn)用各種方法,發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)則。通過(guò)模式發(fā)現(xiàn)技術(shù)對(duì)預(yù)處理之后的數(shù)據(jù)進(jìn)行處理得到相應(yīng)的事務(wù)數(shù)據(jù)庫(kù),利用模式發(fā)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行初步挖掘,將預(yù)處理下的事務(wù)數(shù)據(jù)轉(zhuǎn)換成可被挖掘的存儲(chǔ)方式,通過(guò)數(shù)據(jù)挖掘模式算法對(duì)其中有效的、新奇的、有用的及最終可以理解的信息和知識(shí)進(jìn)行挖掘與總結(jié)。(4)模式分析。模式分析主要是采用合適的技術(shù)和工具,對(duì)挖掘結(jié)果進(jìn)行模式的分析,其目的是根據(jù)實(shí)際應(yīng)用,通過(guò)觀察和選擇,把發(fā)現(xiàn)的統(tǒng)計(jì)結(jié)果、規(guī)則和模型轉(zhuǎn)換為知識(shí),經(jīng)過(guò)篩選后來(lái)指導(dǎo)實(shí)際的電子商務(wù)行為。
3電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)
(1)路徑分析技術(shù)。路徑分析主要是對(duì)web訪問(wèn)路徑進(jìn)行搜索分析,對(duì)于頻繁訪問(wèn)的路徑進(jìn)行總結(jié)。利用Web服務(wù)器的日志文件進(jìn)行數(shù)據(jù)分析,對(duì)訪客次數(shù)以及對(duì)應(yīng)路徑進(jìn)行分析挖掘出頻繁訪問(wèn)路徑。通過(guò)數(shù)據(jù)可以分析出大多數(shù)訪問(wèn)者的共同喜好,從而能夠幫助電子商務(wù)改進(jìn)web設(shè)計(jì)以及提供更好更符合客戶的服務(wù)。(2)關(guān)聯(lián)分析技術(shù)。關(guān)聯(lián)技術(shù)是通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析尋找出隱藏的數(shù)據(jù)聯(lián)系,關(guān)聯(lián)分析可是對(duì)單純的web數(shù)據(jù)與對(duì)應(yīng)的電子商務(wù)進(jìn)行聯(lián)系。從而可以在web數(shù)據(jù)挖掘中得到該商務(wù)網(wǎng)站的關(guān)聯(lián)原則和信息。從而更好的使得客戶和網(wǎng)站數(shù)據(jù)有之間的相互聯(lián)系。(3)聚類(lèi)分析技術(shù)。聚類(lèi)分析是根據(jù)對(duì)象進(jìn)行數(shù)據(jù)分析了之后,對(duì)數(shù)據(jù)的信息和客戶對(duì)象之間的關(guān)系進(jìn)行總結(jié)。對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組成為多個(gè)類(lèi)或簇,按照數(shù)據(jù)對(duì)象之間的相似度進(jìn)行劃分。(4)分類(lèi)分析技術(shù)。分類(lèi)分析是通過(guò)對(duì)數(shù)據(jù)庫(kù)中樣本數(shù)據(jù)的分析,對(duì)每個(gè)類(lèi)別做出準(zhǔn)確的描述或分析模型或挖掘分類(lèi)規(guī)則。分類(lèi)分析是電子商務(wù)中一個(gè)非常重要的任務(wù),也是應(yīng)用最廣泛的技術(shù)。通過(guò)分類(lèi)自動(dòng)推導(dǎo)給定數(shù)據(jù)的廣義描述,以便對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
4Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
(1)制定優(yōu)質(zhì)個(gè)性化服務(wù)。電子商務(wù)的發(fā)展給了人們更多元化的選擇,同時(shí),電商網(wǎng)站經(jīng)營(yíng)的商品也在不斷增加,在這樣多元化的網(wǎng)站結(jié)構(gòu)中想要快速找到符合自己的商品必定會(huì)是一個(gè)繁瑣的.過(guò)程。然而通過(guò)數(shù)據(jù)挖掘?qū)g覽量、購(gòu)買(mǎi)力、搜索強(qiáng)度進(jìn)行合理應(yīng)用,針對(duì)數(shù)據(jù)分析結(jié)果對(duì)網(wǎng)站進(jìn)行制定優(yōu)質(zhì)的個(gè)性化服務(wù)設(shè)計(jì),更合理的安排網(wǎng)站中的物品擺放,從而為用戶提供更個(gè)性化的服務(wù)。(2)優(yōu)化站點(diǎn)設(shè)計(jì)。Web設(shè)計(jì)者可通過(guò)挖掘用戶的Web日志文件,對(duì)Web站點(diǎn)的結(jié)構(gòu)和外觀進(jìn)行設(shè)計(jì)和修改。網(wǎng)站網(wǎng)頁(yè)的內(nèi)容設(shè)置直接影響網(wǎng)站的訪問(wèn)效率。網(wǎng)站管理員按照大多數(shù)訪問(wèn)者的瀏覽模式對(duì)網(wǎng)站進(jìn)行組織,盡量為大多數(shù)訪問(wèn)者的瀏覽提供方便,給客戶留下好的印象,增加下次訪問(wèn)的機(jī)率。(3)聚類(lèi)客戶。在電子商務(wù)中,聚類(lèi)客戶就是主要的運(yùn)營(yíng)策略,可以對(duì)客戶瀏覽的信息等內(nèi)容出發(fā),對(duì)客戶的共性進(jìn)行分類(lèi),從而讓電子商務(wù)的運(yùn)營(yíng)者能更加全面的了解客戶的需要,對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行適當(dāng)?shù)恼{(diào)整,并在多方面滿足客戶的內(nèi)在需要,盡最大限度的為客戶提供優(yōu)質(zhì)的、合適的服務(wù)。(4)營(yíng)銷(xiāo)效益分析。利用web數(shù)據(jù)挖掘?qū)ι唐吩L問(wèn)和銷(xiāo)售情況進(jìn)行有效分析,這樣能夠確定一些營(yíng)銷(xiāo)及消費(fèi)的生命周期。再者結(jié)合目前的市場(chǎng)變化,針對(duì)不同的產(chǎn)品進(jìn)行定制獨(dú)特的營(yíng)銷(xiāo)策略。數(shù)據(jù)挖掘能夠有助于提高電商的營(yíng)銷(xiāo)效益。
5結(jié)語(yǔ)
綜上所述,web數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用越來(lái)越廣泛,web數(shù)據(jù)挖掘能夠在海量數(shù)據(jù)里挖掘出有用的信息。通過(guò)數(shù)據(jù)處理把握客戶動(dòng)態(tài)、追蹤市場(chǎng)變化,在激烈的市場(chǎng)競(jìng)爭(zhēng)中,做出正確的決策。Web數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域中一定會(huì)有廣闊的應(yīng)用前景,它將帶領(lǐng)電子商務(wù)系統(tǒng)走向更加智能化、使客戶服務(wù)走向更加個(gè)性化。
參考文獻(xiàn):
。1]袁鴻雁.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].電腦與電信,20xx(3):23~24.
。2]葉小榮.WEB數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].北京電力高等專(zhuān)科學(xué)校學(xué)報(bào),20xx.
。3]馬宗亞,張會(huì)彥.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].現(xiàn)代經(jīng)濟(jì)信息,20xx(6X):395.
。4]邰宇.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].中國(guó)新技術(shù)新產(chǎn)品,20xx(2):21.
數(shù)據(jù)挖掘論文2
[1]劉瑩.基于數(shù)據(jù)挖掘的商品銷(xiāo)售預(yù)測(cè)分析[J].科技通報(bào).20xx(07)
[2]姜曉娟,郭一娜.基于改進(jìn)聚類(lèi)的電信客戶流失預(yù)測(cè)分析[J].太原理工大學(xué)學(xué)報(bào).20xx(04)
[3]李欣海.隨機(jī)森林模型在分類(lèi)與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào).20xx(04)
[4]朱志勇,徐長(zhǎng)梅,劉志兵,胡晨剛.基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J].計(jì)算機(jī)工程與科學(xué).20xx(03)
[5]翟健宏,李偉,葛瑞海,楊茹.基于聚類(lèi)與貝葉斯分類(lèi)器的網(wǎng)絡(luò)節(jié)點(diǎn)分組算法及評(píng)價(jià)模型[J].電信科學(xué).20xx(02)
[6]王曼,施念,花琳琳,楊永利.成組刪除法和多重填補(bǔ)法對(duì)隨機(jī)缺失的二分類(lèi)變量資料處理效果的比較[J].鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版).20xx(05)
[7]黃杰晟,曹永鋒.挖掘類(lèi)改進(jìn)決策樹(shù)[J].現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版).20xx(01)
[8]李凈,張范,張智江.數(shù)據(jù)挖掘技術(shù)與電信客戶分析[J].信息通信技術(shù).20xx(05)
[9]武曉巖,李康.基因表達(dá)數(shù)據(jù)判別分析的隨機(jī)森林方法[J].中國(guó)衛(wèi)生統(tǒng)計(jì).20xx(06)
[10]張璐.論信息與企業(yè)競(jìng)爭(zhēng)力[J].現(xiàn)代情報(bào).20xx(01)
[11]楊毅超.基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺(tái)分析與研究[D].湖南農(nóng)業(yè)大學(xué)20xx
[12]徐進(jìn)華.基于灰色系統(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學(xué)20xx
[13]俞馳.基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學(xué)20xx
[14]馮軍.數(shù)據(jù)挖掘在自動(dòng)外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)20xx
[15]于寶華.基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學(xué)20xx
[16]王仁彥.數(shù)據(jù)挖掘與網(wǎng)站運(yùn)營(yíng)管理[D].華東師范大學(xué)20xx
[17]彭智軍.數(shù)據(jù)挖掘的若干新方法及其在我國(guó)證券市場(chǎng)中應(yīng)用[D].重慶大學(xué)20xx
[18]涂繼亮.基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學(xué)20xx
[19]賈治國(guó).數(shù)據(jù)挖掘在高考填報(bào)志愿上的應(yīng)用[D].內(nèi)蒙古大學(xué)20xx
[20]馬飛.基于數(shù)據(jù)挖掘的航運(yùn)市場(chǎng)預(yù)測(cè)系統(tǒng)設(shè)計(jì)及研究[D].大連海事大學(xué)20xx
[21]周霞.基于云計(jì)算的太陽(yáng)風(fēng)大數(shù)據(jù)挖掘分類(lèi)算法的研究[D].成都理工大學(xué)20xx
[22]阮偉玲.面向生鮮農(nóng)產(chǎn)品溯源的基層數(shù)據(jù)庫(kù)建設(shè)[D].成都理工大學(xué)20xx
[23]明慧.復(fù)合材料加工工藝數(shù)據(jù)庫(kù)構(gòu)建及數(shù)據(jù)集成[D].大連理工大學(xué)20xx
[24]陳鵬程.齒輪數(shù)控加工工藝數(shù)據(jù)庫(kù)開(kāi)發(fā)與數(shù)據(jù)挖掘研究[D].合肥工業(yè)大學(xué)20xx
[25]岳雪.基于海量數(shù)據(jù)挖掘關(guān)聯(lián)測(cè)度工具的設(shè)計(jì)[D].西安財(cái)經(jīng)學(xué)院20xx
[26]丁翔飛.基于組合變量與重疊區(qū)域的SVM-RFE方法研究[D].大連理工大學(xué)20xx
[27]劉士佳.基于MapReduce框架的頻繁項(xiàng)集挖掘算法研究[D].哈爾濱理工大學(xué)20xx
[28]張曉東.全序模塊模式下范式分解問(wèn)題研究[D].哈爾濱理工大學(xué)20xx
[29]尚丹丹.基于虛擬機(jī)的Hadoop分布式聚類(lèi)挖掘方法研究與應(yīng)用[D].哈爾濱理工大學(xué)20xx
[30]王化楠.一種新的混合遺傳的基因聚類(lèi)方法[D].大連理工大學(xué)20xx
[31]楊毅超.基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺(tái)分析與研究[D].湖南農(nóng)業(yè)大學(xué)20xx
[32]徐進(jìn)華.基于灰色系統(tǒng)理論的.數(shù)據(jù)挖掘及其模型研究[D].北京交通大學(xué)20xx
[33]俞馳.基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學(xué)20xx
[34]馮軍.數(shù)據(jù)挖掘在自動(dòng)外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)20xx
[35]于寶華.基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學(xué)20xx
[36]王仁彥.數(shù)據(jù)挖掘與網(wǎng)站運(yùn)營(yíng)管理[D].華東師范大學(xué)20xx
[37]彭智軍.數(shù)據(jù)挖掘的若干新方法及其在我國(guó)證券市場(chǎng)中應(yīng)用[D].重慶大學(xué)20xx
[38]涂繼亮.基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學(xué)20xx
[39]賈治國(guó).數(shù)據(jù)挖掘在高考填報(bào)志愿上的應(yīng)用[D].內(nèi)蒙古大學(xué)20xx
[ 40]馬飛.基于數(shù)據(jù)挖掘的航運(yùn)市場(chǎng)預(yù)測(cè)系統(tǒng)設(shè)計(jì)及研究[D].大連海事大學(xué)20xx
數(shù)據(jù)挖掘論文3
摘要:文章首先對(duì)數(shù)據(jù)挖掘技術(shù)及其具體功能進(jìn)行簡(jiǎn)要分析,在此基礎(chǔ)上對(duì)科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)行論述。期望通過(guò)本文的研究能夠?qū)蒲泄芾硭降倪M(jìn)一步提升有所幫助。
關(guān)鍵詞:科研管理;數(shù)據(jù)挖掘;技術(shù)應(yīng)用
1數(shù)據(jù)挖掘技術(shù)及其具體功能分析
所謂的數(shù)據(jù)挖掘具體是指通過(guò)相關(guān)的算法在大量的數(shù)據(jù)當(dāng)中對(duì)隱藏的、有利用價(jià)值的信息進(jìn)行搜索的過(guò)程。數(shù)據(jù)挖掘是一門(mén)綜合性較強(qiáng)的科學(xué)技術(shù),其中涉及諸多領(lǐng)域的知識(shí),如人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)等等。數(shù)據(jù)挖掘技術(shù)具有如下幾個(gè)方面的功能:1.1關(guān)聯(lián)規(guī)則分析。這是數(shù)據(jù)挖掘技術(shù)較為重要的功能之一,可從給定的數(shù)據(jù)集當(dāng)中,找到出現(xiàn)比較頻繁的項(xiàng)集,該項(xiàng)集具體是指行形如X->Y,在數(shù)據(jù)庫(kù)當(dāng)中,X和Y所代表的均為屬性取值。在關(guān)聯(lián)規(guī)則下,只要數(shù)據(jù)滿足X條件,就一定滿足Y條件,數(shù)據(jù)挖掘技術(shù)的這個(gè)功能在商業(yè)金融等領(lǐng)域中的應(yīng)用較為廣泛。1.2回歸模式分析回歸模式主要是通過(guò)對(duì)連續(xù)數(shù)值的預(yù)測(cè),來(lái)達(dá)到挖掘數(shù)據(jù)的目的。例如,已知企業(yè)某個(gè)人的教育背景、工作年限等條件,可對(duì)其年薪的范圍進(jìn)行判定,整個(gè)分析過(guò)程是利用回歸模型予以實(shí)現(xiàn)的。在該功能中,已知的條件越多,可進(jìn)行挖掘的信息就越多。1.3聚類(lèi)分析聚類(lèi)具體是指將相似程度較高的.數(shù)據(jù)歸為同一個(gè)類(lèi)別,通過(guò)聚類(lèi)分析能夠從數(shù)據(jù)集中找出類(lèi)似的數(shù)據(jù),并組成不同的組。在聚類(lèi)分析的過(guò)程中,需要使用聚類(lèi)算法,借助該算法對(duì)數(shù)據(jù)進(jìn)行檢測(cè)后,可以判斷其隱藏的屬性,并將數(shù)據(jù)庫(kù)分為若干個(gè)相似的組。
2科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
科研是科學(xué)研究的簡(jiǎn)稱(chēng),具體是指為認(rèn)識(shí)客觀事物在內(nèi)在本質(zhì)及其運(yùn)動(dòng)規(guī)律,而借助某些技術(shù)手段和設(shè)備,開(kāi)展調(diào)查研究、實(shí)驗(yàn)等活動(dòng),并為發(fā)明和創(chuàng)造新產(chǎn)品提供理論依據(jù)?蒲泄芾硎菍(duì)科研項(xiàng)目全過(guò)程的管理,如課題管理、經(jīng)費(fèi)管理、成果管理等等。由于科學(xué)研究中涉及的內(nèi)容較多,從而給科研管理工作增添了一定的難度。為進(jìn)一步提升科研管理水平,可在不同的管理環(huán)節(jié)中,對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用。下面就此展開(kāi)詳細(xì)論述。
2.1在立項(xiàng)及可行性評(píng)估中的應(yīng)用
科研管理工作的開(kāi)展需要以相關(guān)的科研課題作為依托,當(dāng)課題選定之后,需要對(duì)其可行性及合理性進(jìn)行全面系統(tǒng)地評(píng)估,由此使得科研課題的立項(xiàng)及評(píng)估成為科研管理的主要工作內(nèi)容,F(xiàn)階段,國(guó)內(nèi)的科研課題立項(xiàng)采用的是申請(qǐng)審批制,具體的流程是:由科研機(jī)構(gòu)的相關(guān)人員負(fù)責(zé)提出申請(qǐng),然后再由科技主管部門(mén)從申請(qǐng)中進(jìn)行篩選,經(jīng)過(guò)業(yè)內(nèi)專(zhuān)家的評(píng)審論證之后,擇優(yōu)選取科研項(xiàng)目的承接單位。在進(jìn)行科研課題立項(xiàng)的過(guò)程中,涉及諸多方面的內(nèi)容,具體包括申請(qǐng)單位、課題的研究領(lǐng)域、經(jīng)費(fèi)安排、主管單位以及評(píng)審專(zhuān)家等。通過(guò)調(diào)查發(fā)現(xiàn),由于國(guó)家宏觀調(diào)控政策的缺失,導(dǎo)致科研立項(xiàng)中存在低水平、重復(fù)性研究的情況,從而造成大量的研究經(jīng)費(fèi)浪費(fèi),所取得的研究成果也不顯著?蒲泄芾聿块T(mén)雖然建立了相對(duì)完善的數(shù)據(jù)庫(kù)系統(tǒng),并且系統(tǒng)也涵蓋與項(xiàng)目申請(qǐng)、審評(píng)等方面有關(guān)的基本操作流程,如上傳項(xiàng)目申報(bào)文件、將文件發(fā)給相關(guān)的評(píng)審專(zhuān)家、對(duì)評(píng)審結(jié)果進(jìn)行自動(dòng)統(tǒng)計(jì)等。從本質(zhì)的角度上講,數(shù)據(jù)庫(kù)管理系統(tǒng)所完成的這些工作流程,就是將傳統(tǒng)管理工作轉(zhuǎn)變?yōu)樾畔⒒。故此,?yīng)當(dāng)對(duì)已有的數(shù)據(jù)進(jìn)行深入挖掘,從而找出其中更具利用價(jià)值的信息,據(jù)此對(duì)科研立項(xiàng)進(jìn)行指導(dǎo),這樣不但能夠使有限的科技資源得到最大限度地利用,而且還能使科研經(jīng)費(fèi)的使用效益獲得全面提升。在科研立項(xiàng)階段,可對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用,借此來(lái)對(duì)課題申請(qǐng)中涉及的各種因素進(jìn)行挖掘,找出其中潛在的規(guī)則,為指標(biāo)體系的構(gòu)建和遴選方法的選擇提供可靠依據(jù),最大限度地降低不合理因素對(duì)課題立項(xiàng)帶來(lái)的影響,對(duì)確需資助的科研項(xiàng)目進(jìn)行準(zhǔn)確選擇,并給予相應(yīng)的資助。在科研立項(xiàng)環(huán)節(jié)中,對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用時(shí),可以借助改進(jìn)后的Apriori算法進(jìn)行數(shù)據(jù)挖掘,從中找出關(guān)聯(lián)規(guī)則,在對(duì)該規(guī)則進(jìn)行分析的基礎(chǔ)上,對(duì)立項(xiàng)的合理性進(jìn)行評(píng)價(jià)。
2.2在項(xiàng)目管理中的應(yīng)用
項(xiàng)目管理是科研管理的關(guān)鍵環(huán)節(jié),為提高項(xiàng)目管理的效率和水平,可對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用。在信息時(shí)代到來(lái)的今天,計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的普及程度越來(lái)越高,國(guó)內(nèi)很多科研機(jī)構(gòu)都紛紛構(gòu)建起了相關(guān)的管理信息系統(tǒng),其中涵蓋了諸多的信息,如課題、科研人員、研究條件等等,而在這些信息當(dāng)中,隱藏著諸多具有特定意義的規(guī)則,為找出這些規(guī)則,需要借助數(shù)據(jù)挖掘技術(shù),對(duì)信息進(jìn)行深入分析,進(jìn)而獲取對(duì)科研項(xiàng)目有幫助的信息。由于大部分科研管理部門(mén)建立的科研管理信息系統(tǒng)時(shí)間較早,從而使得系統(tǒng)本身的功能比較單一,如信息刪減、修改、查詢(xún)、統(tǒng)計(jì)等等,雖然這些功能可以滿足對(duì)科研課題進(jìn)展、經(jīng)費(fèi)使用等方面的管理,但其面向的均為數(shù)據(jù)庫(kù)管理人員,處理的也都是常規(guī)事務(wù)。而從科研課題的管理者與決策者的角度上看,管理信息系統(tǒng)這些功能顯然是有所不足的,因?yàn)樗麄冃枰獙?duì)歷史進(jìn)行分析和提煉,從中獲取相應(yīng)的數(shù)據(jù),為決策和管理工作的開(kāi)展提供支撐。對(duì)此,可應(yīng)用數(shù)據(jù)挖掘技術(shù)的OLAP,即數(shù)據(jù)庫(kù)聯(lián)機(jī)分析處理,由此能夠幫助管理者從不同的方面對(duì)數(shù)據(jù)進(jìn)行觀察,進(jìn)而深入了解數(shù)據(jù)并獲取所需的信息。利用OLAP可以發(fā)現(xiàn)多種于科研課題有關(guān)信息之間的內(nèi)在聯(lián)系,這樣管理者便能及時(shí)發(fā)現(xiàn)其中存在的相關(guān)問(wèn)題,并針對(duì)問(wèn)題采取有效的方法和措施加以應(yīng)對(duì)。運(yùn)用數(shù)據(jù)挖掘技術(shù)能夠?qū)蒲许?xiàng)目的相關(guān)數(shù)據(jù)進(jìn)行分析,找出其中存在的矛盾,從而使管理工作的開(kāi)展更具針對(duì)性。
3結(jié)論
綜上所述,科研管理是一項(xiàng)較為復(fù)雜且系統(tǒng)的工作,其中涵蓋的信息相對(duì)較多。為此,可將數(shù)據(jù)挖掘技術(shù)在科研管理中進(jìn)行合理應(yīng)用,對(duì)相關(guān)信息進(jìn)行深入分析,從中挖掘出有利用價(jià)值的信息,為科研管理工作的開(kāi)展提供可靠的依據(jù),由此除了能夠確?蒲许(xiàng)目順利進(jìn)行之外,還能提高科研管理水平。
參考文獻(xiàn):
。1]劉占波,王立偉,王曉麗.大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的高?蒲泄芾硐到y(tǒng)的設(shè)計(jì)[J].電子測(cè)試,20xx(1):21-22.
。2]史子靜.高?蒲泄芾硐到y(tǒng)中計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的運(yùn)用研究[J].科技資訊,20xx(6):65-66.
。3]丁磊.?dāng)?shù)據(jù)挖掘技術(shù)在高校教師科研管理中的應(yīng)用研究[D].大連海事大學(xué),20xx.
數(shù)據(jù)挖掘論文4
引言 數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
一、數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘就是指
從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個(gè)過(guò)程中支持人機(jī)交互的模式。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到發(fā)展,并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、模糊推理、專(zhuān)家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計(jì)算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和方法,已成功應(yīng)用在超市、金融、銀行、生產(chǎn)企業(yè)和電信,并有很好的表現(xiàn)。
二、數(shù)據(jù)挖掘的過(guò)程
挖掘數(shù)據(jù)過(guò)程可以分為3個(gè)步驟:數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析。
(1)數(shù)據(jù)預(yù)處理。實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此,數(shù)據(jù)挖掘一般不對(duì)原始數(shù)據(jù)進(jìn)行挖掘,要通過(guò)預(yù)處理提供準(zhǔn)確、簡(jiǎn)潔的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個(gè)文件或多個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過(guò)濾,剔除一些無(wú)關(guān)記錄,將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。
(2)模式發(fā)現(xiàn)。模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識(shí)?捎糜赪eb的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類(lèi)規(guī)則、聚類(lèi)分析、序列分析、依賴(lài)性建模等等。
(3)模式分析。模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過(guò)濾掉不感興趣的規(guī)則和模式。通過(guò)技術(shù)手段,對(duì)得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)、序列模式等。
三、數(shù)據(jù)挖掘在電力系統(tǒng)負(fù)荷預(yù)測(cè)中的應(yīng)用
電力負(fù)荷預(yù)測(cè)是能量管理系統(tǒng)及配電管理系統(tǒng)的重要組成部分,是電力系統(tǒng)規(guī)劃和運(yùn)行調(diào)度的依據(jù),也是電力市場(chǎng)化商業(yè)運(yùn)營(yíng)所必需的基本內(nèi)容。負(fù)荷預(yù)測(cè)工作的關(guān)鍵在于收集大量的歷史數(shù)據(jù),建立科學(xué)有效的預(yù)測(cè)模型,采用有效的算法,以歷史數(shù)據(jù)為基礎(chǔ),進(jìn)行大量試驗(yàn)性研究,總結(jié)經(jīng)驗(yàn),不斷修正模型和算法,以真正反映負(fù)荷變化規(guī)律。其過(guò)程為:
(1) 調(diào)查和選擇歷史負(fù)荷數(shù)據(jù)資料
多方面調(diào)查收集資料,包括電力企業(yè)內(nèi)部資料和外部資料,從眾多的.資料中挑選出有用的一小部分,即把資料濃縮到最小量。挑選資料時(shí)的標(biāo)準(zhǔn)要直接、可靠并且是最新的資料。如果資料的收集和選擇得不好,會(huì)直接影響負(fù)荷預(yù)測(cè)的質(zhì)量。通過(guò)建立計(jì)算機(jī)數(shù)據(jù)管理系統(tǒng),利用計(jì)算機(jī)軟件系統(tǒng)來(lái)自動(dòng)管理數(shù)據(jù)。
(2) 負(fù)載數(shù)據(jù)預(yù)處理
經(jīng)過(guò)初步整理,還用于數(shù)據(jù)分析的預(yù)處理,平滑異常值的歷史數(shù)據(jù)和缺失數(shù)據(jù)的異常數(shù)據(jù)主要是水平的,垂直的方法附錄。正在分析數(shù)據(jù)之前和之后的兩個(gè)時(shí)間的負(fù)載數(shù)據(jù)作為基準(zhǔn),來(lái)設(shè)置要處理的數(shù)據(jù)時(shí),要處理的數(shù)據(jù)的范圍中最大的變化的數(shù)據(jù)的處理的水平超過(guò)該范圍時(shí),它被認(rèn)為是壞的數(shù)據(jù),使用平均法平滑變化;垂直負(fù)載數(shù)據(jù)預(yù)處理中的數(shù)據(jù)處理的考慮其24小時(shí)的小循環(huán),即,相同的時(shí)間的日期不同的負(fù)載應(yīng)具有相似的,同時(shí)負(fù)載值應(yīng)保持在一定范圍內(nèi),校正外的范圍內(nèi)的數(shù)據(jù)進(jìn)行處理,在最近幾天的壞數(shù)據(jù),力矩載荷的意思。
(3) 歷史資料的整理
一般來(lái)說(shuō),由于預(yù)測(cè)的質(zhì)量不會(huì)超過(guò)所用資料的質(zhì)量,所以要對(duì)所收集的與負(fù)荷有關(guān)的統(tǒng)計(jì)資料進(jìn)行審核和必要的加工整理,來(lái)保證資料的質(zhì)量,從而為保證預(yù)測(cè)質(zhì)量打下基礎(chǔ),即要注意資料的完整無(wú)缺,數(shù)字準(zhǔn)確無(wú)誤,反映的都是正常狀態(tài)下的水平,資料中沒(méi)有異常的“分離項(xiàng)”,還要注意資料的補(bǔ)缺,并對(duì)不可靠的資料加以核實(shí)調(diào)整。通過(guò)建立數(shù)據(jù)完整性、一致性約束模型,來(lái)建立海量數(shù)據(jù)集為后面的數(shù)據(jù)挖掘做好充分的準(zhǔn)備。
(4) 建立負(fù)荷預(yù)測(cè)模型
負(fù)荷預(yù)測(cè)模型是統(tǒng)計(jì)資料軌跡的概括,預(yù)測(cè)模型是多種多樣的,因此,對(duì)于具體資料要選擇恰當(dāng)?shù)念A(yù)測(cè)模型,這是負(fù)荷預(yù)測(cè)過(guò)程中至關(guān)重要的一步。當(dāng)由于模型選擇不當(dāng)而造成預(yù)測(cè)誤差過(guò)大時(shí),就需要改換模型,必要時(shí),還可同時(shí)采用幾種數(shù)學(xué)模型進(jìn)行運(yùn)算,以便對(duì)比、選擇。
(5) 選擇算法
選擇聚類(lèi)法又稱(chēng)聚類(lèi)分析法,它是對(duì)一組負(fù)荷影響因素?cái)?shù)據(jù)進(jìn)行聚類(lèi)的方法,聚類(lèi)后的數(shù)據(jù)即構(gòu)成了一組分類(lèi)。聚類(lèi)的標(biāo)準(zhǔn)是以數(shù)據(jù)的表象(即數(shù)據(jù)屬性 值)為依據(jù)的,聚類(lèi)的工具是將一組數(shù)據(jù)按表象而將相近的歸并成類(lèi),最終形成若干個(gè)類(lèi),在類(lèi)內(nèi)數(shù)據(jù)具有表象的相似性,而類(lèi)間的數(shù)據(jù)具有表象的相異性。聚類(lèi)的算法也有很多,有遺傳算法,劃分法,層次法,基于密度方法,基于網(wǎng)格方法等。 四、CURE算法在負(fù)荷預(yù)測(cè)中的應(yīng)用 CURE算法是一種分層聚類(lèi)算法。典型的數(shù)據(jù)點(diǎn)來(lái)表示一個(gè)具有固定數(shù)目的聚類(lèi)。的CURE算法需要作為參數(shù)輸入的群集數(shù)?。由于CURE聚類(lèi)的代表點(diǎn)的某些有代表性的,可以發(fā)現(xiàn)具有任何尺寸和形狀的聚類(lèi)。同時(shí),在一個(gè)集群代表點(diǎn)的選擇方式的中心“縮水”排除“噪音”。
歷史上第一個(gè)數(shù)據(jù)庫(kù)負(fù)荷預(yù)測(cè),數(shù)據(jù)提取樣品。的數(shù)據(jù)樣本聚類(lèi),可以分為兩種方法:一個(gè)是所有樣本數(shù)據(jù)進(jìn)行聚類(lèi),這個(gè)方法會(huì)使主內(nèi)存容量是遠(yuǎn)遠(yuǎn)不夠的,系統(tǒng)無(wú)法掃描一次完成。我們使用所有的樣本數(shù)據(jù)被分成多個(gè)區(qū)域,每個(gè)區(qū)域的數(shù)據(jù)進(jìn)行聚類(lèi),使每個(gè)分區(qū)可以品嘗到所有的數(shù)據(jù)加載到主內(nèi)存。然后,針對(duì)每個(gè)分區(qū),使用分層算法的聚類(lèi)。
電力系統(tǒng)的應(yīng)用SCADA系統(tǒng)中的數(shù)據(jù)測(cè)量、記錄、轉(zhuǎn)換、傳輸、收集數(shù)據(jù),并可能導(dǎo)致故障和負(fù)載數(shù)據(jù)丟失或異常。異常數(shù)據(jù)的生成是隨機(jī)的,因此,在數(shù)據(jù)庫(kù)中的不確定性的分布,不同類(lèi)型的異常數(shù)據(jù)出現(xiàn)單獨(dú)或在一個(gè)特定的時(shí)刻,或交叉混合發(fā)生在同一天連續(xù),或在相同的連續(xù)天期的橫分布,以及許多其他場(chǎng)合。異常數(shù)據(jù)的處理的關(guān)鍵影響的預(yù)測(cè)結(jié)果的準(zhǔn)確性。使用兩種不同的技術(shù),以刪除異常。第一種技術(shù)是要?jiǎng)h除的集群增長(zhǎng)緩慢。當(dāng)簇的數(shù)量低于某一閾值,將只包含一個(gè)或兩個(gè)集群成員的刪除,第二種方法是在集群的最后階段,非常小的集群中刪除。
最后對(duì)樣本中的全部數(shù)據(jù)進(jìn)行聚類(lèi),為了保證可以在內(nèi)存中處理,輸入只包括各個(gè)分區(qū)獨(dú)自聚類(lèi)時(shí)發(fā)現(xiàn)的簇的代表性點(diǎn)。使用c個(gè)點(diǎn)代表每個(gè)簇,對(duì)磁盤(pán)上的整個(gè)數(shù)據(jù)庫(kù)進(jìn)行聚類(lèi)。數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)被分配到與最近的代表性點(diǎn)表示的簇中。代表性點(diǎn)的集合必須足夠小以適應(yīng)主存的大小。
結(jié)束語(yǔ)
數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將更加成熟,并取得更加顯著的效果。
數(shù)據(jù)挖掘論文5
題目:檔案信息管理系統(tǒng)中的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)探討
摘要:伴隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步和發(fā)展, 數(shù)據(jù)挖掘技術(shù)成為數(shù)據(jù)處理工作中的重點(diǎn)技術(shù), 能借助相關(guān)算法搜索相關(guān)信息, 在節(jié)省人力資本的同時(shí), 提高數(shù)據(jù)檢索的實(shí)際效率, 基于此, 被廣泛應(yīng)用在數(shù)據(jù)密集型行業(yè)中。筆者簡(jiǎn)要分析了計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 并集中闡釋了檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立和技術(shù)實(shí)現(xiàn)過(guò)程, 以供參考。
關(guān)鍵詞:檔案信息管理系統(tǒng); 計(jì)算機(jī); 數(shù)據(jù)挖掘技術(shù); 1 數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)就是指在大量隨機(jī)數(shù)據(jù)中提取隱含信息, 并且將其整合后應(yīng)用在知識(shí)處理體系的技術(shù)過(guò)程。若是從技術(shù)層面判定數(shù)據(jù)挖掘技術(shù), 則需要將其劃分在商業(yè)數(shù)據(jù)處理技術(shù)中, 整合商業(yè)數(shù)據(jù)提取和轉(zhuǎn)化機(jī)制, 并且建構(gòu)更加系統(tǒng)化的分析模型和處理機(jī)制, 從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術(shù)能建構(gòu)完整的數(shù)據(jù)倉(cāng)庫(kù), 滿足集成性、時(shí)變性以及非易失性等需求, 整和數(shù)據(jù)處理和冗余參數(shù), 確保技術(shù)框架結(jié)構(gòu)的完整性。
目前, 數(shù)據(jù)挖掘技術(shù)常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應(yīng)用都十分廣泛。企業(yè)在實(shí)際工作過(guò)程中, 往往會(huì)利用數(shù)據(jù)源和數(shù)據(jù)預(yù)處理工具進(jìn)行數(shù)據(jù)定型和更新管理, 并且應(yīng)用聚類(lèi)分析模塊、決策樹(shù)分析模塊以及關(guān)聯(lián)分析算法等, 借助數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理。
2 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立
2.1 客戶需求單元
為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢(shì), 要結(jié)合客戶的實(shí)際需求建立完整的處理框架體系。在數(shù)據(jù)庫(kù)體系建立中, 要適應(yīng)迭代式處理特征, 并且從用戶需求出發(fā)整合數(shù)據(jù)模型, 保證其建立過(guò)程能按照整體規(guī)劃有序進(jìn)行, 且能按照目標(biāo)和分析框架參數(shù)完成操作。首先, 要確立基礎(chǔ)性的數(shù)據(jù)倉(cāng)庫(kù)對(duì)象, 由于是檔案信息管理, 因此, 要集中劃分檔案數(shù)據(jù)分析的主題, 并且有效錄入檔案信息, 確保滿足檔案的數(shù)據(jù)分析需求。其次, 要對(duì)日常工作中的用戶數(shù)據(jù)進(jìn)行集中的挖掘處理, 從根本上提高數(shù)據(jù)倉(cāng)庫(kù)分析的完整性。
(1) 確定數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)性用戶, 其中, 主要包括檔案工作人員和使用人員, 結(jié)合不同人員的工作需求建立相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)。
(2) 檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進(jìn)行分類(lèi)描述。
(3) 確定檔案的基礎(chǔ)性分類(lèi)主題, 一般而言, 要將文書(shū)檔案歸檔情況、卷數(shù)等基礎(chǔ)性信息作為分類(lèi)依據(jù)。
2.2 數(shù)據(jù)庫(kù)設(shè)計(jì)單元
在設(shè)計(jì)過(guò)程中, 要針對(duì)不同維度建立相應(yīng)的參數(shù)體系和組成結(jié)構(gòu), 并且有效整合組成事實(shí)表的主鍵項(xiàng)目, 建立框架結(jié)構(gòu)。
第一, 建立事實(shí)表。事實(shí)表是數(shù)據(jù)模型的核心單元, 主要是記錄相關(guān)業(yè)務(wù)和統(tǒng)計(jì)數(shù)據(jù)的表, 能整合數(shù)據(jù)倉(cāng)庫(kù)中的信息單元, 并且提升多維空間處理效果, 確保數(shù)據(jù)儲(chǔ)存過(guò)程切實(shí)有效。 (1) 檔案管理中文書(shū)檔案目錄卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類(lèi)型Int, 字段為Id;文書(shū)歸檔年份, 字段類(lèi)型Int, 字段為Gdyear_key;文書(shū)歸檔類(lèi)型, 字段類(lèi)型Int, 字段為Ajtm_key;文書(shū)歸檔單位, 字段類(lèi)型Int, 字段為Gddw_key;文書(shū)檔案生成年份, 字段類(lèi)型Int, 字段為Ajscsj_key, 以及文書(shū)檔案包括的文件數(shù)目。 (2) 檔案管理中文書(shū)檔案卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類(lèi)型Int, 字段為Id;文書(shū)歸檔利用日期, 字段類(lèi)型Int, 字段為Date_key;文書(shū)歸檔利用單位, 字段類(lèi)型Int, 字段為Dw_key;文書(shū)歸檔利用類(lèi)別, 字段類(lèi)型Int, 字段為Dalb_key;文書(shū)歸檔利用年份, 字段類(lèi)型Int, 字段為Dayear_key等[1]。
第二, 建立維度表, 在實(shí)際數(shù)據(jù)倉(cāng)庫(kù)建立和運(yùn)維工作中, 提高數(shù)據(jù)管理效果和水平, 確保建立循環(huán)和反饋的系統(tǒng)框架體系, 并且處理增長(zhǎng)過(guò)程和完善過(guò)程, 有效實(shí)現(xiàn)數(shù)據(jù)庫(kù)模型設(shè)計(jì)以及相關(guān)維護(hù)操作。首先, 要對(duì)模式的基礎(chǔ)性維度進(jìn)行分析并且制作相應(yīng)的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構(gòu)數(shù)據(jù)庫(kù)星型模型體系。最后, 要集中判定數(shù)據(jù)庫(kù)工具, 保證數(shù)據(jù)庫(kù)平臺(tái)在客戶管理工作方面具備一定的優(yōu)勢(shì), 集中制訂商務(wù)智能解決方案, 保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉(cāng)庫(kù)建模的效果, 真正提高數(shù)據(jù)抽取以及轉(zhuǎn)換工作的實(shí)際水平。需要注意的是, 在全面整合和分析處理數(shù)據(jù)的過(guò)程中, 要分離文書(shū)檔案中的數(shù)據(jù), 相關(guān)操作如下:
from dag gd temp//刪除臨時(shí)表中的數(shù)據(jù)
Ch count=dag 1.importfile (dbo.u wswj) //將文書(shū)目錄中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)窗口
Dag 1.() //將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時(shí)表
相關(guān)技術(shù)人員要對(duì)數(shù)據(jù)進(jìn)行有效處理, 以保證相關(guān)數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預(yù)處理管理要求合理化進(jìn)行, 從根本上維護(hù)數(shù)據(jù)處理效果。
2.3 多維數(shù)據(jù)模型建立單元
在檔案多維數(shù)據(jù)模型建立的過(guò)程中, 相關(guān)技術(shù)人員要判定聯(lián)機(jī)分析處理項(xiàng)目和數(shù)據(jù)挖掘方案, 整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等, 保證具體單元能發(fā)揮其實(shí)際作用, 并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性?xún)?yōu)勢(shì)。
第一, 檔案事實(shí)表中的數(shù)據(jù)穩(wěn)定, 事實(shí)表是加載和處理檔案數(shù)據(jù)的基本模塊, 按照檔案目錄數(shù)據(jù)表和檔案利用情況表分析和判定其類(lèi)別和歸檔時(shí)間, 從而提高數(shù)據(jù)獨(dú)立分析水平。一方面, 能追加有效的數(shù)據(jù), 保證數(shù)據(jù)倉(cāng)庫(kù)信息的基本質(zhì)量, 也能追加時(shí)間判定標(biāo)準(zhǔn), 能在實(shí)際操作中減少掃描整個(gè)表浪費(fèi)的時(shí)間, 從根本上提高實(shí)際效率。另一方面, 能刪除數(shù)據(jù), 實(shí)現(xiàn)數(shù)據(jù)更新, 檢索相關(guān)關(guān)鍵詞即可。并且也能同時(shí)修改數(shù)據(jù), 維護(hù)檔案撤出和檔案追加的動(dòng)態(tài)化處理效果。
第二, 檔案維表的安全性。在維表管理工作中, 檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關(guān)鍵, 由于其不會(huì)隨著時(shí)間的推移出現(xiàn)變化, 因此, 要對(duì)其進(jìn)行合理的處理和協(xié)調(diào)。維表本身的存儲(chǔ)空間較小, 盡管結(jié)構(gòu)發(fā)生變化的概率不大, 但仍會(huì)對(duì)代表的對(duì)象產(chǎn)生影響, 這就會(huì)使得數(shù)據(jù)出現(xiàn)動(dòng)態(tài)的變化。對(duì)于這種改變, 需要借助新維生成的方式進(jìn)行處理, 從而保證不同維表能有效連接, 整合正確數(shù)據(jù)的同時(shí), 也能對(duì)事實(shí)表外鍵進(jìn)行分析[2]。
3 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)
3.1 描述需求
隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)不斷進(jìn)步, 要提高檔案數(shù)字化水平以及完善信息化整合機(jī)制, 加快數(shù)據(jù)庫(kù)管控體系的更新, 確保設(shè)備存儲(chǔ)以及網(wǎng)絡(luò)環(huán)境一體化水平能滿足需求, 尤其是在檔案資源重組和預(yù)測(cè)項(xiàng)目中, 只有從根本上落實(shí)數(shù)據(jù)挖掘體系, 才能為后續(xù)信息檔案管理項(xiàng)目升級(jí)奠定堅(jiān)實(shí)基礎(chǔ)。另外, 在數(shù)據(jù)表和文書(shū)等基礎(chǔ)性數(shù)據(jù)結(jié)構(gòu)模型建立的基礎(chǔ)上, 要按照規(guī)律制定具有個(gè)性化的主動(dòng)性服務(wù)機(jī)制。
3.2 關(guān)聯(lián)計(jì)算
在實(shí)際檔案分析工作開(kāi)展過(guò)程中, 關(guān)聯(lián)算法描述十分關(guān)鍵, 能對(duì)某些行為特征進(jìn)行統(tǒng)籌整合, 從而制定分析決策。在進(jìn)行關(guān)聯(lián)規(guī)則強(qiáng)度分析時(shí), 要結(jié)合支持度和置信度等系統(tǒng)化數(shù)據(jù)進(jìn)行綜合衡量。例如, 檔案數(shù)據(jù)庫(kù)中有A和B兩個(gè)基礎(chǔ)項(xiàng)集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時(shí)間出現(xiàn)的基礎(chǔ)性概率。若是兩者出現(xiàn)的概率并不大, 則證明兩者之間的關(guān)聯(lián)度較低。若是兩者出現(xiàn)的概率較大, 則說(shuō)明兩者的關(guān)聯(lián)度較高。另外, 在分析置信度時(shí), 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關(guān)系。在出現(xiàn)置信度A的情況下, B的出現(xiàn)概率則是整體參數(shù)關(guān)系的關(guān)鍵, 若是置信度的數(shù)值達(dá)到100%, 則直接證明A和B能同一時(shí)間出現(xiàn)。
3.3 神經(jīng)網(wǎng)絡(luò)算法
除了要對(duì)檔案的實(shí)際內(nèi)容進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)庫(kù)建構(gòu), 也要對(duì)其利用情況進(jìn)行判定, 目前較為常見(jiàn)的利用率分析算法就是神經(jīng)網(wǎng)絡(luò)算法, 其借助數(shù)據(jù)分類(lèi)系統(tǒng)判定和分析數(shù)據(jù)對(duì)象。值得注意的是, 在分類(lèi)技術(shù)結(jié)構(gòu)中, 要結(jié)合訓(xùn)練數(shù)據(jù)集判定分類(lèi)模型數(shù)據(jù)挖掘結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)算法類(lèi)似于人腦系統(tǒng)的運(yùn)行結(jié)構(gòu), 能建立完整的信息處理單元, 并且能夠整合非線性交換結(jié)構(gòu), 確保能憑借歷史數(shù)據(jù)對(duì)計(jì)算模型和分類(lèi)體系展開(kāi)深度分析[3]。
3.4 實(shí)現(xiàn)多元化應(yīng)用
在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 能對(duì)檔案分類(lèi)管理予以分析, 保證信息需求分類(lèi)總結(jié)工作的完整程度。尤其是檔案使用者在對(duì)檔案具體特征進(jìn)行差異化分析的過(guò)程中, 能結(jié)合不同的元素對(duì)具體問(wèn)題展開(kāi)深度調(diào)研。一方面, 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)借助決策樹(shù)算法處理規(guī)則化的檔案分析機(jī)制。在差異化訓(xùn)練體系中, 要對(duì)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行系統(tǒng)化分析以及處理, 確保構(gòu)建要求能適應(yīng)數(shù)據(jù)挖掘的基本結(jié)構(gòu)[4]。例如, 檔案管理人員借助數(shù)據(jù)挖掘技術(shù)能整合檔案使用人員長(zhǎng)期瀏覽與關(guān)注的信息, 并且能集中收集和匯總間隔時(shí)間、信息查詢(xún)停留時(shí)間等, 從而建構(gòu)完整的數(shù)據(jù)分析機(jī)制, 有效向其推送或者是提供便捷化查詢(xún)服務(wù), 保證檔案管理數(shù)字化水平的提高。另一方面, 在檔案收集管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 主要是對(duì)數(shù)據(jù)信息進(jìn)行分析, 結(jié)合基本結(jié)果建立概念模型, 保證模型以及測(cè)試樣本之間的比較參數(shù)符合標(biāo)準(zhǔn), 從而真正建立更加系統(tǒng)化的分類(lèi)框架體系。
4 結(jié)語(yǔ)
總而言之, 在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 能在準(zhǔn)確判定用戶需求的同時(shí), 維護(hù)數(shù)據(jù)處理效果, 并且減少檔案數(shù)字化的成本, 為后續(xù)工作的進(jìn)一步優(yōu)化奠定堅(jiān)實(shí)基礎(chǔ)。并且, 數(shù)據(jù)庫(kù)的建立, 也能節(jié)省經(jīng)費(fèi)和設(shè)備維護(hù)成本, 真正實(shí)現(xiàn)數(shù)字化全面發(fā)展的目標(biāo), 促進(jìn)檔案信息管理工作的長(zhǎng)效進(jìn)步。
參考文獻(xiàn)
[1]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用, 20xx (9) :285.
[2]王曉燕.數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用[J].蘭臺(tái)世界, 20xx (23) :25-26.
[3]韓吉義.基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館檔案信息管理平臺(tái)的構(gòu)筑[J].山西檔案, 20xx (6) :61-63.
[4]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館檔案信息管理平臺(tái)構(gòu)建[J].山西檔案, 20xx (5) :105-107.
數(shù)據(jù)挖掘論文四: 題目:機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用
摘要:隨著科學(xué)技術(shù)的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應(yīng)用。其中機(jī)器學(xué)習(xí)算法就是一則典型案例——作為一種新型的算法, 其廣泛應(yīng)用于各行各業(yè)之中。本篇論文旨在探討機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的具體應(yīng)用, 我們利用龐大的移動(dòng)終端數(shù)據(jù)網(wǎng)絡(luò), 加強(qiáng)了基于GSM網(wǎng)絡(luò)的戶外終端定位, 從而提出了3個(gè)階段的定位算法, 有效提高了定位的精準(zhǔn)度和速度。
關(guān)鍵詞:學(xué)習(xí)算法; GSM網(wǎng)絡(luò); 定位; 數(shù)據(jù);
移動(dòng)終端定位技術(shù)由來(lái)已久, 其主要是利用各種科學(xué)技術(shù)手段定位移動(dòng)物體的精準(zhǔn)位置以及高度。目前, 移動(dòng)終端定位技術(shù)主要應(yīng)用于軍事定位、緊急救援、網(wǎng)絡(luò)優(yōu)化、地圖導(dǎo)航等多個(gè)現(xiàn)代化的領(lǐng)域, 由于移動(dòng)終端定位技術(shù)可以提供精準(zhǔn)的位置服務(wù)信息, 所以其在市場(chǎng)上還是有較大的需求的, 這也為移動(dòng)終端定位技術(shù)的優(yōu)化和發(fā)展, 提供了推動(dòng)力。隨著通信網(wǎng)絡(luò)普及, 移動(dòng)終端定位技術(shù)的發(fā)展也得到了一些幫助, 使得其定位的精準(zhǔn)度和速度都得到了全面的優(yōu)化和提升。同時(shí), 傳統(tǒng)的定位方法結(jié)合先進(jìn)的算法來(lái)進(jìn)行精準(zhǔn)定位, 目前依舊還是有較大的進(jìn)步空間。在工作中我選取機(jī)器學(xué)習(xí)算法結(jié)合數(shù)據(jù)挖掘技術(shù)對(duì)傳統(tǒng)定位技術(shù)加以改進(jìn), 取得了不錯(cuò)的效果, 但也遇到了許多問(wèn)題, 例如:使用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行精準(zhǔn)定位暫時(shí)無(wú)法滿足更大的區(qū)域要求, 還有想要利用較低的設(shè)備成本, 實(shí)現(xiàn)得到更多的精準(zhǔn)定位的要求比較困難。所以本文對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行了深入的研究, 希望能夠幫助其更快速的定位、更精準(zhǔn)的定位, 滿足市場(chǎng)的需要。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫(kù)知識(shí)篩選中非常重要的一步。數(shù)據(jù)挖掘其實(shí)指的就是在大量的數(shù)據(jù)中通過(guò)算法找到有用信息的行為。一般情況下, 數(shù)據(jù)挖掘都會(huì)和計(jì)算機(jī)科學(xué)緊密聯(lián)系在一起, 通過(guò)統(tǒng)計(jì)集合、在線剖析、檢索篩選、機(jī)器學(xué)習(xí)、參數(shù)識(shí)別等多種方法來(lái)實(shí)現(xiàn)最初的目標(biāo)。統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法是數(shù)據(jù)挖掘算法里面應(yīng)用得比較廣泛的兩類(lèi)。統(tǒng)計(jì)算法依賴(lài)于概率分析, 然后進(jìn)行相關(guān)性判斷, 由此來(lái)執(zhí)行運(yùn)算。
而機(jī)器學(xué)習(xí)算法主要依靠人工智能科技, 通過(guò)大量的樣本收集、學(xué)習(xí)和訓(xùn)練, 可以自動(dòng)匹配運(yùn)算所需的相關(guān)參數(shù)及模式。它綜合了數(shù)學(xué)、物理學(xué)、自動(dòng)化和計(jì)算機(jī)科學(xué)等多種學(xué)習(xí)理論, 雖然能夠應(yīng)用的領(lǐng)域和目標(biāo)各不相同, 但是這些算法都可以被獨(dú)立使用運(yùn)算, 當(dāng)然也可以相互幫助, 綜合應(yīng)用, 可以說(shuō)是一種可以“因時(shí)而變”、“因事而變”的算法。在機(jī)器學(xué)習(xí)算法的領(lǐng)域, 人工神經(jīng)網(wǎng)絡(luò)是比較重要和常見(jiàn)的一種。因?yàn)樗膬?yōu)秀的數(shù)據(jù)處理和演練、學(xué)習(xí)的能力較強(qiáng)。
而且對(duì)于問(wèn)題數(shù)據(jù)還可以進(jìn)行精準(zhǔn)的識(shí)別與處理分析, 所以應(yīng)用的頻次更多。人工神經(jīng)網(wǎng)絡(luò)依賴(lài)于多種多樣的建模模型來(lái)進(jìn)行工作, 由此來(lái)滿足不同的數(shù)據(jù)需求。綜合來(lái)看, 人工神經(jīng)網(wǎng)絡(luò)的建模, 它的精準(zhǔn)度比較高, 綜合表述能力優(yōu)秀, 而且在應(yīng)用的過(guò)程中, 不需要依賴(lài)專(zhuān)家的輔助力量, 雖然仍有缺陷, 比如在訓(xùn)練數(shù)據(jù)的時(shí)候耗時(shí)較多, 知識(shí)的理解能力還沒(méi)有達(dá)到智能化的標(biāo)準(zhǔn), 但是, 相對(duì)于其他方式而言, 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)依舊是比較突出的。
2 以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位
2.1 定位問(wèn)題的建模
建模的過(guò)程主要是以支持向量機(jī)定位方式作為基礎(chǔ), 把定位的位置柵格化, 面積較小的柵格位置就是獨(dú)立的一種類(lèi)別, 在定位的位置內(nèi), 我們收集數(shù)目龐大的終端測(cè)量數(shù)據(jù), 然后利用計(jì)算機(jī)對(duì)測(cè)量報(bào)告進(jìn)行分析處理, 測(cè)量柵格的距離度量和精準(zhǔn)度, 然后對(duì)移動(dòng)終端柵格進(jìn)行預(yù)估判斷, 最終利用機(jī)器學(xué)習(xí)進(jìn)行分析求解。
2.2 采集數(shù)據(jù)和預(yù)處理
本次研究, 我們采用的模型對(duì)象是我國(guó)某一個(gè)周邊長(zhǎng)達(dá)10千米的二線城市。在該城市區(qū)域內(nèi), 我們測(cè)量了四個(gè)不同時(shí)間段內(nèi)的數(shù)據(jù), 為了保證機(jī)器學(xué)習(xí)算法定位的精準(zhǔn)性和有效性, 我們把其中的三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù), 最后一組數(shù)據(jù)作為定位數(shù)據(jù), 然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓(xùn)練數(shù)據(jù)的相關(guān)信息進(jìn)行清除。一旦確定某一待定位數(shù)據(jù), 就要在不同的時(shí)間內(nèi)進(jìn)行測(cè)量, 按照測(cè)量出的`數(shù)據(jù)信息的經(jīng)緯度和平均值, 再進(jìn)行換算, 最終, 得到真實(shí)的數(shù)據(jù)量, 提升定位的速度以及有效程度。
2.3 以基站的經(jīng)緯度為基礎(chǔ)的初步定位
用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行移動(dòng)終端定位, 其復(fù)雜性也是比較大的, 一旦區(qū)域面積增加, 那么模型和分類(lèi)也相應(yīng)增加, 而且更加復(fù)雜, 所以, 利用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行移動(dòng)終端定位的過(guò)程, 會(huì)隨著定位區(qū)域面積的增大, 而耗費(fèi)更多的時(shí)間。利用基站的經(jīng)緯度作為基礎(chǔ)來(lái)進(jìn)行早期的定位, 則需要以下幾個(gè)步驟:要將邊長(zhǎng)為十千米的正方形分割成一千米的小柵格, 如果想要定位數(shù)據(jù)集內(nèi)的相關(guān)信息, 就要選擇對(duì)邊長(zhǎng)是一千米的小柵格進(jìn)行計(jì)算, 而如果是想要獲得邊長(zhǎng)一千米的大柵格, 就要對(duì)邊長(zhǎng)是一千米的柵格精心計(jì)算。
2.4 以向量機(jī)為基礎(chǔ)的二次定位
在完成初步定位工作后, 要確定一個(gè)邊長(zhǎng)為兩千米的正方形, 由于第一級(jí)支持向量機(jī)定位的區(qū)域是四百米, 定位輸出的是以一百米柵格作為中心點(diǎn)的經(jīng)緯度數(shù)據(jù)信息, 相對(duì)于一級(jí)向量機(jī)的定位而言, 二級(jí)向量機(jī)在定位計(jì)算的時(shí)候難度是較低的, 更加簡(jiǎn)便。后期的預(yù)算主要依賴(lài)決策函數(shù)計(jì)算和樣本向量機(jī)計(jì)算。隨著柵格的變小, 定位的精準(zhǔn)度將越來(lái)越高, 而由于增加分類(lèi)的問(wèn)題數(shù)量是上升的, 所以, 定位的復(fù)雜度也是相對(duì)增加的。
2.5 以K-近鄰法為基礎(chǔ)的三次定位
第一步要做的就是選定需要定位的區(qū)域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴(lài)經(jīng)緯度來(lái)確定邊長(zhǎng)面積, 這些都是進(jìn)行區(qū)域定位的基礎(chǔ)性工作, 緊接著就是定位模型的訓(xùn)練。以K-近鄰法為基礎(chǔ)的三次定位需要的是綜合訓(xùn)練信息數(shù)據(jù), 對(duì)于這些信息數(shù)據(jù), 要以大小為選擇依據(jù)進(jìn)行篩選和合并, 這樣就能夠減少計(jì)算的重復(fù)性。當(dāng)然了, 選擇的區(qū)域面積越大, 其定位的速度和精準(zhǔn)性也就越低。
3 結(jié)語(yǔ)
近年來(lái), 隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步, 數(shù)據(jù)挖掘技術(shù)愈加重要。根據(jù)上面的研究, 我們證明了, 在數(shù)據(jù)挖掘的過(guò)程中, 應(yīng)用機(jī)器學(xué)習(xí)算法具有舉足輕重的作用。作為一門(mén)多領(lǐng)域互相交叉的知識(shí)學(xué)科, 它能夠幫助我們提升定位的精準(zhǔn)度以及定位速度, 可以被廣泛的應(yīng)用于各行各業(yè)。所以, 對(duì)于機(jī)器學(xué)習(xí)算法, 相關(guān)人員要加以重視, 不斷的進(jìn)行改良以及改善, 切實(shí)的發(fā)揮其有利的方面, 將其廣泛應(yīng)用于智能定位的各個(gè)領(lǐng)域, 幫助我們解決關(guān)于戶外移動(dòng)終端的定位的問(wèn)題。
參考文獻(xiàn)
[1]陳小燕, CHENXiaoyan.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù), 20xx, v.38;No.451 (20) :11-14.
[2]李運(yùn).機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學(xué), 20xx.
[3]莫雪峰.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯, 20xx (07) :175-178.
數(shù)據(jù)挖掘論文五: 題目:軟件工程數(shù)據(jù)挖掘研究進(jìn)展
摘要:數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開(kāi)發(fā)出有價(jià)值信息數(shù)據(jù)的過(guò)程。計(jì)算機(jī)技術(shù)的不斷進(jìn)步, 通過(guò)人工的方式進(jìn)行軟件的開(kāi)發(fā)與維護(hù)難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開(kāi)發(fā)的效率, 并能夠在大量的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術(shù)的任務(wù)和存在的問(wèn)題, 并重點(diǎn)論述軟件開(kāi)發(fā)過(guò)程中出現(xiàn)的問(wèn)題和相關(guān)的解決措施。
關(guān)鍵詞:軟件工程; 數(shù)據(jù)挖掘; 解決措施;
在軟件開(kāi)發(fā)過(guò)程中, 為了能夠獲得更加準(zhǔn)確的數(shù)據(jù)資源, 軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時(shí)代, 人工獲取數(shù)據(jù)信息的難度極大。當(dāng)前, 軟件工程中運(yùn)用最多的就是數(shù)據(jù)挖掘技術(shù)。軟件挖掘技術(shù)是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在軟件工程方向的其中一部分。但是它具有自身的特征, 體現(xiàn)在以下三個(gè)方面:
(1) 在軟件工程中, 對(duì)有效數(shù)據(jù)的挖掘和處理;
(2) 挖掘數(shù)據(jù)算法的選擇問(wèn)題;
(3) 軟件的開(kāi)發(fā)者該如何選擇數(shù)據(jù)。
1 在軟件工程中數(shù)據(jù)挖掘的主要任務(wù)
在數(shù)據(jù)挖掘技術(shù)中, 軟件工程數(shù)據(jù)挖掘是其中之一, 其挖掘的過(guò)程與傳統(tǒng)數(shù)據(jù)的挖掘無(wú)異。通常包括三個(gè)階段:第一階段, 數(shù)據(jù)的預(yù)處理;第二階段, 數(shù)據(jù)的挖掘;第三階段, 對(duì)結(jié)果的評(píng)估。第一階段的主要任務(wù)有對(duì)數(shù)據(jù)的分類(lèi)、對(duì)異常數(shù)據(jù)的檢測(cè)以及整理和提取復(fù)雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性, 但是也存在一定的差異, 其主要體現(xiàn)在以下三個(gè)方面:
1.1 軟件工程的數(shù)據(jù)更加復(fù)雜
軟件工程數(shù)據(jù)主要包括兩種, 一種是軟件報(bào)告, 另外一種是軟件的版本信息。當(dāng)然還包括一些軟件代碼和注釋在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數(shù)據(jù)挖掘復(fù)雜性的重要原因。
1.2 數(shù)據(jù)分析結(jié)果的表現(xiàn)更加特殊
傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果可以通過(guò)很多種結(jié)果展示出來(lái), 最常見(jiàn)的有報(bào)表和文字的方式。但是對(duì)于軟件工程的數(shù)據(jù)挖掘來(lái)講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準(zhǔn)的案例, 軟件漏洞的實(shí)際定位以及設(shè)計(jì)構(gòu)造方面的信息, 同時(shí)也包括數(shù)據(jù)挖掘的統(tǒng)計(jì)結(jié)果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進(jìn)的結(jié)果提交方式和途徑。
1.3 對(duì)數(shù)據(jù)挖掘結(jié)果難以達(dá)成一致的評(píng)價(jià)
我國(guó)傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn), 而且評(píng)價(jià)體系相對(duì)成熟。但是軟件工程的數(shù)據(jù)挖掘過(guò)程中, 研發(fā)人員需要更多復(fù)雜而又具體的數(shù)據(jù)信息, 所以數(shù)據(jù)的表示方法也相對(duì)多樣化, 數(shù)據(jù)之間難以進(jìn)行對(duì)比, 所以也就難以達(dá)成一致的評(píng)價(jià)標(biāo)準(zhǔn)和結(jié)果。不難看出, 軟件工程數(shù)據(jù)挖掘的關(guān)鍵在于對(duì)挖掘數(shù)據(jù)的預(yù)處理和對(duì)數(shù)據(jù)結(jié)果的表示方法。
2 軟件工程研發(fā)階段出現(xiàn)的問(wèn)題和解決措施
軟件在研發(fā)階段主要的任務(wù)是對(duì)軟件運(yùn)行程序的編寫(xiě)。以下是軟件在編碼和結(jié)果的提交過(guò)程中出現(xiàn)的問(wèn)題和相應(yīng)的解決措施。
2.1 對(duì)軟件代碼的編寫(xiě)過(guò)程
該過(guò)程需要軟件的研發(fā)人員能夠?qū)ψ约盒枰帉?xiě)的代碼結(jié)構(gòu)與功能有充分的了解和認(rèn)識(shí)。并能夠依據(jù)自身掌握的信息, 在數(shù)據(jù)庫(kù)中搜集到可以使用的數(shù)據(jù)信息。通常情況下, 編程需要的數(shù)據(jù)信息可以分為三個(gè)方面:
(1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;
(2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規(guī)則, 比如繼承關(guān)系等。
(3) 軟件的開(kāi)發(fā)人員搜尋可以重用的動(dòng)態(tài)規(guī)則。
包括軟件的接口調(diào)用順序等。在尋找以上信息的過(guò)程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實(shí)現(xiàn), 但是以上方式在搜集信息過(guò)程中往往會(huì)遇到較多的問(wèn)題, 比如:幫助文檔的準(zhǔn)確性較低, 同時(shí)不夠完整, 可利用的重用信息不多等。
2.2 對(duì)軟件代碼的重用
在對(duì)軟件代碼重用過(guò)程中, 最關(guān)鍵的問(wèn)題是軟件的研發(fā)人員必須掌握需要的類(lèi)或方法, 并能夠通過(guò)與之有聯(lián)系的代碼實(shí)現(xiàn)代碼的重用。但是這種方式哦足跡信息將會(huì)耗費(fèi)工作人員大量的精力。而通過(guò)關(guān)鍵詞在代碼庫(kù)中搜集可重用的軟件代碼, 同時(shí)按照代碼的相關(guān)度對(duì)搜集到的代碼進(jìn)行排序, 該過(guò)程使用的原理就是可重用的代碼必然模式基本類(lèi)似, 最終所展現(xiàn)出來(lái)的搜索結(jié)果是以上下文結(jié)構(gòu)的方式展現(xiàn)的。比如:類(lèi)與類(lèi)之間的聯(lián)系。其實(shí)現(xiàn)的具體流程如下:
(1) 軟件的開(kāi)發(fā)人員創(chuàng)建同時(shí)具備例程和上下文架構(gòu)的代碼庫(kù);
(2) 軟件的研發(fā)人員能夠向代碼庫(kù)提供類(lèi)的相關(guān)信息, 然后對(duì)反饋的結(jié)果進(jìn)行評(píng)估, 創(chuàng)建新型的代碼庫(kù)。
(3) 未來(lái)的研發(fā)人員在搜集過(guò)程中能夠按照評(píng)估結(jié)果的高低排序, 便于查詢(xún), 極大地縮減工作人員的任務(wù)量, 提升其工作效率。
2.3 對(duì)動(dòng)態(tài)規(guī)則的重用
軟件工程領(lǐng)域內(nèi)對(duì)動(dòng)態(tài)規(guī)則重用的研究已經(jīng)相對(duì)成熟, 通過(guò)在編譯器內(nèi)安裝特定插件的方式檢驗(yàn)代碼是否為動(dòng)態(tài)規(guī)則最適用的, 并能夠?qū)⒉贿m合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:
(1) 軟件的研發(fā)人員能夠規(guī)定動(dòng)態(tài)規(guī)則的順序, 主要表現(xiàn)在:使用某一函數(shù)是不能夠調(diào)用其他的函數(shù)。
(2) 實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的保存, 可以通過(guò)隊(duì)列等簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)完成。在利用編譯拓展中檢測(cè)其中的順序。
(3) 能夠?qū)㈠e(cuò)誤的信息反饋給軟件的研發(fā)人員。
3 結(jié)束語(yǔ)
在軟件工程的數(shù)據(jù)挖掘過(guò)程中, 數(shù)據(jù)挖掘的概念才逐步被定義, 但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術(shù)在軟件工程中的運(yùn)用能夠降低研發(fā)人員的工作量, 同時(shí)軟件工程與數(shù)據(jù)挖掘的結(jié)合是計(jì)算機(jī)技術(shù)必然的發(fā)展方向。從數(shù)據(jù)挖掘的過(guò)程來(lái)講, 在其整個(gè)實(shí)施過(guò)程和周期中都包括軟件工程。而對(duì)數(shù)據(jù)挖掘的技術(shù)手段來(lái)講, 它在軟件工程中的運(yùn)用更加普遍。在對(duì)數(shù)據(jù)挖掘技術(shù)的研究過(guò)程中可以發(fā)現(xiàn), 該技術(shù)雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進(jìn)一步的研究和發(fā)現(xiàn)。
參考文獻(xiàn)
[1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開(kāi)發(fā)測(cè)試技術(shù)[J].電子技術(shù)與軟件工程, 20xx (18) :64.
[2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術(shù)的運(yùn)用探索[J].數(shù)字通信世界, 20xx (09) :187.
[3]周雨辰.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].電腦迷, 20xx (08) :27-28.
[4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用方式[J].中國(guó)新通信, 20xx, 19 (13) :119.
數(shù)據(jù)挖掘論文6
1理論研究
1.1客戶關(guān)系管理
客戶關(guān)系管理的目標(biāo)是依靠高效優(yōu)質(zhì)的服務(wù)吸引客戶,同時(shí)通過(guò)對(duì)業(yè)務(wù)流程的全面優(yōu)化和管理,控制企業(yè)運(yùn)行成本?蛻絷P(guān)系管理是一種管理理念,將企業(yè)客戶視作企業(yè)發(fā)展最重要的企業(yè)資源,采用企業(yè)服務(wù)優(yōu)化等手段來(lái)管理客戶關(guān)系?蛻絷P(guān)系管理并不是單純的信息技術(shù)或者管理技術(shù),而是一種企業(yè)生物戰(zhàn)略,通過(guò)對(duì)企業(yè)客戶的分段充足,強(qiáng)化客戶滿意的行為,優(yōu)化企業(yè)可盈利性,將客戶處理工作上升到企業(yè)級(jí)別,不同部門(mén)負(fù)責(zé)與客戶進(jìn)行交互,但是整個(gè)企業(yè)都需要向客戶負(fù)責(zé),在信息技術(shù)的支持下實(shí)現(xiàn)企業(yè)和客戶連接環(huán)節(jié)的自動(dòng)化管理。
1.2客戶細(xì)分
客戶細(xì)分由美國(guó)學(xué)者溫德?tīng)柺访芩乖?0世紀(jì)50年代提出,認(rèn)為客戶細(xì)分是根據(jù)客戶屬性將客戶分成集合,F(xiàn)代營(yíng)銷(xiāo)學(xué)中的客戶細(xì)分是按照客戶特征和共性將客戶群分為不同等級(jí)或者子群體,尋找相同要素,對(duì)不同類(lèi)別客戶心理與需求急性研究和評(píng)估,從而指導(dǎo)進(jìn)行企業(yè)服務(wù)資源的分配,是企業(yè)獲得客戶價(jià)值的一種理論與方法。因此我們注意到,客戶細(xì)分其實(shí)是一個(gè)分類(lèi)問(wèn)題,但是卻有著顯著的特點(diǎn)。
1.2.1客戶細(xì)分是動(dòng)態(tài)的企業(yè)不斷發(fā)展變化,用戶數(shù)據(jù)不斷積累,市場(chǎng)因素的變化,都會(huì)造成客戶細(xì)分的變化。所以客戶細(xì)分工作需要根據(jù)客戶情況的變化進(jìn)行動(dòng)態(tài)調(diào)整,
減少錯(cuò)誤分類(lèi),提高多次細(xì)分中至少有一次是正確分類(lèi)的可能性。
1.2.2受眾多因素影響
隨著時(shí)間的推移,客戶行為和心理會(huì)發(fā)生變化,所以不同時(shí)間的數(shù)據(jù)會(huì)反映出不同的規(guī)律,客戶細(xì)分方法需要在變化過(guò)程中準(zhǔn)確掌握客戶行為的規(guī)律性。
1.2.3客戶細(xì)分有不同的分類(lèi)標(biāo)準(zhǔn)
一般分類(lèi)問(wèn)題強(qiáng)調(diào)準(zhǔn)確性,客戶關(guān)系管理則強(qiáng)調(diào)有用性,講求在特定限制條件下實(shí)現(xiàn)特定目標(biāo)。
1.3數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(kù)數(shù)據(jù)中提取有價(jià)值的、隱含的、事前未知的潛在有用信息。數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,挖掘?qū)ο蟛辉偈菃我粩?shù)據(jù)庫(kù),已經(jīng)逐漸發(fā)展到文件系統(tǒng)、數(shù)據(jù)集合以及數(shù)據(jù)倉(cāng)庫(kù)的挖掘分析。
2客戶細(xì)分的數(shù)據(jù)挖掘
2.1邏輯模型
客戶數(shù)據(jù)中有著若干離散客戶屬性和連續(xù)客戶屬性,每個(gè)客戶屬性為一個(gè)維度,客戶作為空間點(diǎn),全部客戶都能夠形成多為空間,作為客戶的屬性空間,假設(shè)A={A1,A2,…Am}是一組客戶屬性,屬性可以是連續(xù)的,也可以離散型,這些屬性就形成了客戶m維屬性空間。同時(shí)設(shè)g是一個(gè)描述客戶屬性的一個(gè)指標(biāo),f(g)是符合該指標(biāo)的客戶集合,即為概率外延,則任一確定時(shí)刻都是n個(gè)互不相交集合。在客戶價(jià)值概念維度上,可分為“有價(jià)值客戶”“潛在價(jià)值客戶”“無(wú)價(jià)值客戶”三種類(lèi)型,定義RB如下:(1)顯然RB是一個(gè)等價(jià)關(guān)系,經(jīng)RB可分類(lèi)屬性空間為若干等價(jià)類(lèi),每個(gè)等價(jià)類(lèi)都是一個(gè)概念類(lèi),建立客戶細(xì)分,就是客戶屬性空間和概念空間映射關(guān)系的建立過(guò)程。
2.2客戶細(xì)分?jǐn)?shù)據(jù)挖掘?qū)嵤?/p>
通過(guò)數(shù)據(jù)庫(kù)已知概念類(lèi)客戶數(shù)據(jù)進(jìn)行樣本學(xué)習(xí)和數(shù)據(jù)挖掘,進(jìn)行客戶屬性空間與概念空間映射的自動(dòng)歸納。首先確定一組概念類(lèi)已知客戶集合。首先確定一個(gè)映射:p:C→L,使,如果,則。,求p(c)確定所屬概念類(lèi)。數(shù)據(jù)部分有客戶數(shù)據(jù)存儲(chǔ)和概念維數(shù)據(jù)構(gòu)成,客戶數(shù)據(jù)存儲(chǔ)有企業(yè)全部?jī)?nèi)在屬性、外在屬性以及行為屬性等數(shù)據(jù),方法則主要有關(guān)聯(lián)規(guī)則分析、深井網(wǎng)絡(luò)分類(lèi)、決策樹(shù)、實(shí)例學(xué)習(xí)等數(shù)據(jù)挖掘方法,通過(guò)對(duì)客戶數(shù)據(jù)存儲(chǔ)數(shù)據(jù)學(xué)習(xí)算法來(lái)建立客戶數(shù)據(jù)和概念維之間的映射關(guān)系。
2.3客戶細(xì)分?jǐn)?shù)據(jù)分析
建立客戶動(dòng)態(tài)行為描述模型,滿足客戶行為非確定性和非一致性要求,客戶中心的管理體制下,客戶細(xì)分影響企業(yè)戰(zhàn)術(shù)和戰(zhàn)略級(jí)別決策的生成,所以數(shù)據(jù)挖掘要能夠彌補(bǔ)傳統(tǒng)數(shù)據(jù)分析方法在可靠性方面的缺陷。
2.3.1客戶外在屬性
外在屬性有客戶地理分布、客戶組織歸屬情況和客戶產(chǎn)品擁有情況等?蛻舻慕M織歸屬是客戶社會(huì)組織類(lèi)型,客戶產(chǎn)品擁有情況是客戶是否擁有或者擁有哪些與其他企業(yè)或者其他企業(yè)相關(guān)產(chǎn)品。
2.3.2內(nèi)在屬性
內(nèi)在屬性有人口因素和心理因素等,人口因素是消費(fèi)者市場(chǎng)細(xì)分的重要變量。相比其他變量,人口因素更加容易測(cè)量。心理因素則主要有客戶愛(ài)好、性格、信用情況以及價(jià)值取向等因素。
2.3.3消費(fèi)行為
消費(fèi)行為屬性則重點(diǎn)關(guān)注客戶購(gòu)買(mǎi)前對(duì)產(chǎn)品的了解情況,是客戶細(xì)分中最客觀和重要的因素。
2.4數(shù)據(jù)挖掘算法
2.4.1聚類(lèi)算法
按照客戶價(jià)值標(biāo)記聚類(lèi)結(jié)果,通過(guò)分類(lèi)功能,建立客戶特征模型,準(zhǔn)確描述高價(jià)值客戶的一些特有特征,使得企業(yè)在之后的市場(chǎng)活動(dòng)中能夠迅速發(fā)現(xiàn)并抓住類(lèi)似的高價(jià)值客戶,全面提高客戶的整體價(jià)值水平。通常都采用中心算法進(jìn)行客戶的聚類(lèi)分析,分析涉及的`字段主要有客戶的基本信息以及與客戶相關(guān)業(yè)務(wù)信息,企業(yè)采用中心算法,按照企業(yè)自身的行業(yè)性質(zhì)以及商務(wù)環(huán)境,選擇不同的聚類(lèi)分析策略,有主屬性聚類(lèi)分析和全屬性聚類(lèi)分析兩類(lèi)。主屬性聚類(lèi)分析是企業(yè)根據(jù)在企業(yè)標(biāo)度變量中選擇主要弧形作為聚類(lèi)分析變量。通常區(qū)間標(biāo)度變量選用的度量單位會(huì)對(duì)聚類(lèi)分析結(jié)果產(chǎn)生很大影響,選擇的度量單位越小,就會(huì)獲得越大的可能值域,對(duì)聚類(lèi)結(jié)果的影響也就越大。
2.4.2客戶分析預(yù)測(cè)
行業(yè)競(jìng)爭(zhēng)愈加激烈,新客戶的獲得成本越來(lái)越高,在保持原有工作價(jià)值的同時(shí),客戶的流失也受到了企業(yè)的重視。為了控制客戶流失,就需要對(duì)流失客戶的數(shù)據(jù)進(jìn)行認(rèn)真分析,找尋流失客戶的根本原因,防止客戶的持續(xù)流失。數(shù)據(jù)挖掘聚類(lèi)功能同樣能夠利用在客戶流失數(shù)據(jù)分析工作中,建立基于流失客戶數(shù)據(jù)樣本庫(kù)的分類(lèi)函數(shù)以及分類(lèi)模式,通過(guò)模型分析客戶流失因素,能夠獲得一個(gè)最有可能流失的客戶群體,同時(shí)編制一個(gè)有針對(duì)性的挽留方案。之后對(duì)數(shù)據(jù)進(jìn)行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法在多個(gè)可供選擇的模型中找出最佳模型。初始階段,模型的擬合程度可能不理想,但是隨著模型的不斷更換和優(yōu)化,最終就有可能找出合適的模型進(jìn)行數(shù)據(jù)描述并挖掘出流失數(shù)據(jù)規(guī)律。通常模擬模型都通過(guò)數(shù)據(jù)分析專(zhuān)業(yè)和業(yè)務(wù)專(zhuān)家協(xié)作完成,采用決策樹(shù)、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等流失分析模型,實(shí)現(xiàn)客戶行為的預(yù)測(cè)分析。
3結(jié)語(yǔ)
從工業(yè)營(yíng)銷(xiāo)中的客戶細(xì)分觀點(diǎn)出發(fā),在數(shù)據(jù)挖掘、客戶關(guān)系管理等理論基礎(chǔ)上,采用統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)和數(shù)據(jù)挖掘技術(shù),對(duì)客戶細(xì)分的數(shù)據(jù)挖掘方法進(jìn)行了研究,建立了基于決策樹(shù)的客戶細(xì)分模型,是一種效率很高的管理工具。
作者:區(qū)嘉良 呂淑儀 單位:中國(guó)石化廣東石油分公司
數(shù)據(jù)挖掘論文7
摘要:橡膠是一種重要的戰(zhàn)略物資, 其種植受到土地資源、地理環(huán)境、橡膠機(jī)械化的影響, 產(chǎn)量波動(dòng)很大。本文對(duì)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工引入數(shù)據(jù)挖掘技術(shù)的必要性進(jìn)行了初步探究, 指出通過(guò)提取土壤圖像的特征, 用支持向量機(jī)的算法可以發(fā)現(xiàn)橡膠種植、生產(chǎn)加工的規(guī)律, 進(jìn)而制定精準(zhǔn)的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤(rùn)。
關(guān)鍵詞:橡膠種植; 數(shù)據(jù)挖掘; 特征提取; 支持向量機(jī).
基金:廣東農(nóng)工商職業(yè)技術(shù)學(xué)院校級(jí)課題“基于數(shù)據(jù)挖掘技術(shù)的橡膠產(chǎn)業(yè)的數(shù)字化研究” (xykt1601)橡膠是一種重要的戰(zhàn)略物資, 與石油、鋼鐵、煤炭并稱(chēng)為四大工業(yè)原料。我國(guó)是全球最大的天然橡膠消費(fèi)國(guó)和進(jìn)口國(guó), 國(guó)內(nèi)天然橡膠長(zhǎng)期處于缺口狀態(tài), 需求的2/3依賴(lài)進(jìn)口來(lái)滿足[1]。天然橡膠產(chǎn)業(yè)屬于資源約束型、勞動(dòng)密集型產(chǎn)業(yè), 相對(duì)其他農(nóng)作物來(lái)說(shuō), 具有周期長(zhǎng)、收益長(zhǎng)等特點(diǎn)。農(nóng)墾橡膠業(yè)的產(chǎn)生、發(fā)展與壯大實(shí)際上是中國(guó)橡膠業(yè)發(fā)展的一個(gè)縮影, 一直是學(xué)術(shù)界研究的熱點(diǎn)。根據(jù)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工的歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘, 發(fā)現(xiàn)其種植、生產(chǎn)加工的規(guī)律, 進(jìn)而制定精準(zhǔn)的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤(rùn)的數(shù)字化研究, 目前國(guó)內(nèi)還比較少。
1 引入數(shù)據(jù)挖掘技術(shù)的必要性
天然橡膠以其獨(dú)具的高彈性、高強(qiáng)度、高伸長(zhǎng)率、耐磨、耐撕裂、耐沖擊、耐酸堿、耐油、耐腐蝕、耐高低溫和絕緣性好、粘合性、密封性強(qiáng)等特點(diǎn), 始終處于不可替代的地位。我國(guó)天然橡膠需求量大, 近幾年一直處于供不應(yīng)求的狀態(tài)。造成這種局面的原因主要有以下兩點(diǎn):一、國(guó)內(nèi)輪胎工業(yè)迅猛發(fā)展;二、天然橡膠的種植條件苛刻。其種植條件苛刻主要體現(xiàn)在對(duì)種植地要求高, 如對(duì)土地的含碳、含氮、濕度等要求都很?chē)?yán)格;容易受到寒害、蟲(chóng)害、臺(tái)風(fēng)的襲擊。橡膠的供應(yīng)不足阻礙了我國(guó)經(jīng)濟(jì) (特別是輪胎行業(yè)) 的發(fā)展;诖吮尘跋, 本文通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)橡膠樹(shù)生長(zhǎng)地的土壤進(jìn)行評(píng)價(jià)研究, 為尋找出最適合橡膠樹(shù)生長(zhǎng)的.土壤和尋找橡膠樹(shù)種植地提供依據(jù), 一方面可以降低種植橡膠的成本, 另一方面可以讓新的橡膠農(nóng)更容易掌握種植橡膠技巧, 讓更多的人加入種植橡膠的隊(duì)伍中。
2 數(shù)字化流程圖
2.1 樣本采集
研究的橡膠林可以分為4種不同林齡膠林:幼林早期 (0~2齡) 、幼林晚期 (2~7齡) 、開(kāi)割數(shù) (7~16齡) 、老齡即將更新數(shù) (>16齡) 。取土壤樣本的時(shí)間要在晴天上午, 如果遇雨天, 則等2個(gè)晴天后再進(jìn)行取樣。每個(gè)林齡段中隨機(jī)設(shè)置n個(gè)樣地:每個(gè)樣地的面積a (m) ×b (m) , 分0~15cm、15~30cm、30~45cm、45~60cm4個(gè)層次拍攝土壤樣品, 每個(gè)層次拍攝m張。每張土壤樣品圖片的命名規(guī)則為“膠林-層次.jpg”。
2.2 特征提取
通過(guò)拍攝得到的土壤圖像, 由于圖像的維度過(guò)大, 不容易分析, 需要從中提取土樣圖像的特征, 提取反應(yīng)圖像本質(zhì)的一些關(guān)鍵指標(biāo), 以達(dá)到自動(dòng)進(jìn)行圖像識(shí)別的目的。
圖像的特征主要包括顏色特征、紋理特征、形狀特征等。本文主要運(yùn)用圖片的顏色特征和紋理特征建立圖片自動(dòng)識(shí)別模型。
2.2.1 顏色特征
圖片的顏色特征用顏色矩表示;陬伾靥崛D像特征的數(shù)學(xué)基礎(chǔ)在于圖像中任何的顏色分布均可以用它的矩來(lái)表示。顏色的矩包含各個(gè)顏色通道的一階矩、二階矩和三階矩, 對(duì)于一幅RGB顏色空間的圖像, 具有R、G和B三個(gè)顏色通道, 共有9個(gè)分量。
2.2.2 紋理特征
圖片的紋理特征主要灰度共生矩陣?yán)锩嬷刑崛。因(yàn)榧y理是由灰度分布在空間位置上反復(fù)交替變化而形成的, 因而在圖像空間中相隔某距離的兩個(gè)像素間一定存在一定的灰度關(guān)系, 稱(chēng)為是圖像中灰度的空間相關(guān)特性。
其中L表示圖像的灰度級(jí), i, j分別表示像素的灰度。d表示兩個(gè)像素間的空間位置關(guān)系。不同的d決定了兩個(gè)像素間的距離和方向。元素Pd (1, 0) 代表了圖像上位置關(guān)系為d的兩個(gè)像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。
在建模中一般不直接用圖片的灰度共生矩陣建模, 往往要從灰度共生矩陣中提取它的特征參數(shù)用戶建模;叶裙采仃嚨奶卣鲄(shù)有二階距、對(duì)比度、相關(guān)、熵。
3 模型構(gòu)建
特征提取完之后, 用支持向量機(jī)算法對(duì)圖像進(jìn)行圖片識(shí)別。根據(jù)識(shí)別出的結(jié)果就可以有針對(duì)性的對(duì)土壤做些有利于橡膠樹(shù)生長(zhǎng)的干預(yù)工作, 如:如果識(shí)別出土壤缺少氮元素, 可以給土壤適當(dāng)?shù)氖┬┑?如果識(shí)別出土壤的水分較少, 就要給土壤澆水, 給農(nóng)墾橡膠產(chǎn)業(yè)提供數(shù)學(xué)指導(dǎo)意義。
4 結(jié)論
本文分析了橡膠種植中引入數(shù)據(jù)挖掘技術(shù)的必要性, 對(duì)橡膠種植數(shù)字化研究做了初步闡述?梢越o橡膠業(yè)提供一定的參考意義。
參考文獻(xiàn)
[1]黃冠, 吳紅宇.廣東農(nóng)墾天然橡膠種植現(xiàn)狀及“走出去”戰(zhàn)略實(shí)踐.中國(guó)熱帶農(nóng)業(yè), 20xx, 3 (4) , 18-21.
[2]李煒.廣東農(nóng)墾“走出去”做強(qiáng)做大橡膠產(chǎn)業(yè).今日熱作, 20xx, 19 (1) , 52-53.
[3]Rapepun Wititsuwannakul, Piyaporn Pasitkul, et.al.Hevea latex lectin binding protein in C-serum as an anti-latex coagulating factor and its role in a proposed new model for latex coagulation, Phytochemistry 20xx, 69 (1) , 656–662.
[4]勒碧.數(shù)據(jù)挖掘算法及其生產(chǎn)優(yōu)化應(yīng)用中的研究.浙江大學(xué)碩士學(xué)位論文, 20xx.
數(shù)據(jù)挖掘論文8
[摘要]處于大數(shù)據(jù)時(shí)代這一環(huán)境內(nèi),數(shù)據(jù)生成在方方面面,教育這一行業(yè)也囊括其內(nèi),大量原本無(wú)法緊抓、量化的教學(xué)訊息均變換成了數(shù)據(jù)施以?xún)?chǔ)藏與處理。新時(shí)期起始,是否可以發(fā)掘與運(yùn)用潛藏在教學(xué)相關(guān)數(shù)據(jù)中還沒(méi)有挖掘出來(lái)的價(jià)值,促使開(kāi)放型教育或是成人型教育這類(lèi)行業(yè)得以革新,關(guān)聯(lián)到教學(xué)相關(guān)工作中對(duì)于大數(shù)據(jù)與其潛藏的各類(lèi)價(jià)值與作用的認(rèn)知、心態(tài)和數(shù)據(jù)發(fā)掘?qū)哟巍?/p>
。關(guān)鍵詞]開(kāi)放教育;大數(shù)據(jù)思維;數(shù)據(jù)挖掘
大數(shù)據(jù)思維即借助大數(shù)據(jù)相關(guān)的思想、理念以思索并清除問(wèn)題的一類(lèi)方式。大數(shù)據(jù)相應(yīng)的思想與理念即借助大數(shù)據(jù)以凸顯出事物發(fā)展進(jìn)程中的各類(lèi)步驟、因素等,處于這一前提之下,借助構(gòu)建各式模型、方法施以把控,進(jìn)而達(dá)成精確清除各式問(wèn)題這一目標(biāo)。同時(shí),數(shù)據(jù)能夠凸顯出問(wèn)題,數(shù)據(jù)還能夠引導(dǎo)問(wèn)題得以清除。借用大數(shù)據(jù)相關(guān)的理念,開(kāi)放型教育相關(guān)的工作者可以全方位緊依并發(fā)掘教學(xué)本身的潛藏實(shí)際,調(diào)研教學(xué)相應(yīng)的革新及進(jìn)步。
一、開(kāi)放型教育行業(yè)內(nèi)部教學(xué)相關(guān)數(shù)據(jù)的運(yùn)用問(wèn)題
雖然開(kāi)放型教育這一行業(yè)早就生成了“大數(shù)據(jù)庫(kù)存”,不過(guò),學(xué)校內(nèi)部缺少對(duì)于數(shù)據(jù)本身的匯集監(jiān)管及科學(xué)運(yùn)用,對(duì)于數(shù)據(jù)相應(yīng)的運(yùn)用極為狹隘,許多數(shù)據(jù)僅儲(chǔ)藏在數(shù)據(jù)庫(kù)內(nèi),極難自其內(nèi)找出具備規(guī)律與價(jià)值的一類(lèi)訊息,這類(lèi)狀況大體上囊括了如下幾大模塊:
(一)業(yè)務(wù)機(jī)構(gòu)較難予以數(shù)據(jù)相應(yīng)的正確需要
學(xué)校內(nèi)部的業(yè)務(wù)機(jī)構(gòu)對(duì)于數(shù)據(jù)本身的搜集、歸整、調(diào)研大多由于業(yè)務(wù)驅(qū)使,業(yè)務(wù)進(jìn)程完成過(guò)后,數(shù)據(jù)就會(huì)被潛藏,數(shù)據(jù)調(diào)研處在被動(dòng)這一狀況內(nèi)。另外,許多業(yè)務(wù)機(jī)構(gòu)并未知曉大數(shù)據(jù)相應(yīng)的運(yùn)用價(jià)值與區(qū)域,還沒(méi)有生成大數(shù)據(jù)這一觀念以引領(lǐng)各項(xiàng)工作的實(shí)施,處于具體的工作內(nèi),極難予以大數(shù)據(jù)相應(yīng)的正確需要:要想改良某一業(yè)務(wù),所需哪類(lèi)數(shù)據(jù),這類(lèi)數(shù)據(jù)要從哪類(lèi)渠道內(nèi)獲得,搜集的數(shù)據(jù)應(yīng)依據(jù)怎樣的規(guī)范施以歸整、發(fā)掘與調(diào)研,數(shù)據(jù)本身的可視化操作要開(kāi)展至哪種程度等,均不具備明晰的規(guī)范。
(二)對(duì)數(shù)據(jù)開(kāi)展運(yùn)用被渠道與技術(shù)所約束
學(xué)校內(nèi)部各個(gè)層級(jí)與各個(gè)種類(lèi)的學(xué)習(xí)體系、訊息監(jiān)管體系的數(shù)據(jù)總量極多,然而,對(duì)于數(shù)據(jù)本身的儲(chǔ)存與運(yùn)用卻較低。就數(shù)據(jù)相應(yīng)的儲(chǔ)藏與歸整而言,存在數(shù)據(jù)種類(lèi)多元化、數(shù)據(jù)讀取受限、儲(chǔ)藏負(fù)擔(dān)、體系特性受限、數(shù)據(jù)調(diào)研成效較低、數(shù)據(jù)不夠安全等問(wèn)題。例如,開(kāi)放型教育相關(guān)的教務(wù)監(jiān)管體系,大量的學(xué)習(xí)成績(jī)有關(guān)數(shù)據(jù)已經(jīng)大于原本體系本身的儲(chǔ)藏與調(diào)研一類(lèi)能力,使得對(duì)數(shù)據(jù)相應(yīng)的歸整留存在簡(jiǎn)易的查閱、歸整、打印等步驟內(nèi),沒(méi)有對(duì)數(shù)據(jù)施以深層次調(diào)研,也沒(méi)有收獲對(duì)教學(xué)一類(lèi)工作具備益處的訊息。
(三)現(xiàn)行的數(shù)據(jù)調(diào)研極為分散與分裂
處于大數(shù)據(jù)這一時(shí)代內(nèi),要著眼于生成部門(mén)本身各大模塊數(shù)據(jù)、數(shù)據(jù)庫(kù)存、多媒體數(shù)據(jù)、各大渠道數(shù)據(jù)、各大訊息媒介數(shù)據(jù)間的關(guān)聯(lián)性,力爭(zhēng)最大程度地運(yùn)用數(shù)據(jù)。然而,現(xiàn)存的教育相關(guān)數(shù)據(jù)依舊存在機(jī)構(gòu)化、部門(mén)化一類(lèi)問(wèn)題,數(shù)據(jù)體現(xiàn)出分裂、分散等狀況,數(shù)據(jù)調(diào)研也極少注重?cái)?shù)據(jù)間的關(guān)聯(lián)性。例如。教務(wù)處會(huì)定期歸整每個(gè)學(xué)期相應(yīng)的在籍生總量、各大專(zhuān)業(yè)學(xué)生總量、設(shè)立科目明細(xì)、學(xué)期選課學(xué)生總量、學(xué)生上課率、按時(shí)畢業(yè)率、學(xué)位獲得率、退學(xué)率、終結(jié)性考試合格率一類(lèi)數(shù)據(jù),然而,卻較少發(fā)掘這類(lèi)數(shù)據(jù)間的關(guān)聯(lián)性與干涉關(guān)系,也沒(méi)有發(fā)掘各個(gè)機(jī)構(gòu)數(shù)據(jù)間的關(guān)聯(lián)性。
(四)不具備專(zhuān)業(yè)的數(shù)據(jù)調(diào)研崗位與人才
大數(shù)據(jù)這一時(shí)代予以了大量新興的觀念與技術(shù),具備與原本全然不一的數(shù)據(jù)儲(chǔ)藏與歸整方法,然而,現(xiàn)存的體系監(jiān)管者、數(shù)據(jù)庫(kù)監(jiān)管者依舊會(huì)運(yùn)用原本的數(shù)據(jù)庫(kù)監(jiān)管體系,短時(shí)間內(nèi)極難配備面對(duì)今后的數(shù)據(jù)調(diào)研技藝。其原因:其一,學(xué)校本身對(duì)于數(shù)據(jù)調(diào)研有關(guān)人才與崗位相應(yīng)的需要態(tài)度還沒(méi)有明晰;其二,新興技術(shù)的運(yùn)用條件極為繁雜,與大量數(shù)據(jù)相關(guān)的技術(shù)在成熟程度與可查看性方面比原數(shù)據(jù)庫(kù)和數(shù)據(jù)監(jiān)管配備更差,能夠運(yùn)用到輔助體系的監(jiān)管者也極少。
二、大數(shù)據(jù)相關(guān)思維對(duì)于開(kāi)放型教育各式數(shù)據(jù)發(fā)掘的啟迪
(一)從高至低生成與教學(xué)監(jiān)管相應(yīng)的數(shù)據(jù)思維
現(xiàn)階段,廣播電視大學(xué)等正朝著開(kāi)放型大學(xué)進(jìn)行轉(zhuǎn)變,成人學(xué)校的辦學(xué)類(lèi)型、辦學(xué)面積、專(zhuān)業(yè)構(gòu)造與總量、師生資源及其所處的環(huán)境均會(huì)發(fā)生變化。對(duì)于開(kāi)放型教育相關(guān)的數(shù)據(jù)施以發(fā)掘及調(diào)研,能夠輔助成人一類(lèi)學(xué)校獲取辦學(xué)定位信息,提升教學(xué)、監(jiān)管本身的合理性,還給學(xué)校改良并增強(qiáng)宏觀方面的監(jiān)管予以了有價(jià)值的監(jiān)測(cè)方法與評(píng)測(cè)技術(shù)。大數(shù)據(jù)相關(guān)思維獲得推行與運(yùn)用,規(guī)定學(xué)校內(nèi)部的監(jiān)管方法、構(gòu)造、技術(shù)都要與大數(shù)據(jù)這一時(shí)代相符。所以,應(yīng)在地區(qū)或是學(xué)校內(nèi)部生成總體的大數(shù)據(jù)相關(guān)戰(zhàn)略,并把此當(dāng)作學(xué)校本身的關(guān)鍵目標(biāo),借助大數(shù)據(jù)相關(guān)的思維把訊息化教學(xué)、訊息化監(jiān)管、遠(yuǎn)端教育扶持服務(wù)及學(xué)校平日的各類(lèi)工作加以歸整,借助調(diào)節(jié)化的方法,全部機(jī)構(gòu)一同訓(xùn)練并提升搜集、儲(chǔ)藏、監(jiān)管、調(diào)研與共享大量數(shù)據(jù)需要的技術(shù)及思維,逐漸促使數(shù)據(jù)監(jiān)管本身的常態(tài)化、時(shí)時(shí)化、開(kāi)放化與網(wǎng)絡(luò)化得以實(shí)現(xiàn)。
(二)以智慧型校園助推教學(xué)監(jiān)管智能化
現(xiàn)如今,物聯(lián)網(wǎng)與云計(jì)算得以生成,校園內(nèi)部的訊息化構(gòu)建要盡早從數(shù)字型校園朝智慧型校園轉(zhuǎn)變。構(gòu)建智慧型校園,需將傳感器融匯至校園內(nèi)部的各類(lèi)體系內(nèi),把校園監(jiān)管的各式軟件體系渠道融匯至校園云,促使網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云得以關(guān)聯(lián)與聯(lián)通,據(jù)此能夠促使校園內(nèi)部時(shí)時(shí)數(shù)據(jù)的收獲、儲(chǔ)藏與調(diào)研得以實(shí)現(xiàn),進(jìn)而給學(xué)校本身的進(jìn)步與教學(xué)運(yùn)用予以科學(xué)的決策憑據(jù),智慧型校園即教育訊息化構(gòu)建的一大實(shí)體,對(duì)于踐行大數(shù)據(jù)本身的價(jià)值來(lái)說(shuō)不可或缺。另外,智慧型校園還囊括了大數(shù)據(jù)相關(guān)的規(guī)范系統(tǒng)、校園內(nèi)部的數(shù)字化生態(tài)條件與相關(guān)的訊息化組織監(jiān)管系統(tǒng)等模塊的構(gòu)建。從基本設(shè)備構(gòu)建著手,逐漸實(shí)施基于云計(jì)算的大數(shù)據(jù)運(yùn)用,促使教師自身的教學(xué)動(dòng)作、學(xué)生遠(yuǎn)端的學(xué)習(xí)動(dòng)作、學(xué)生本身的特性特點(diǎn)等得以調(diào)研與評(píng)測(cè),給促使學(xué)生身心進(jìn)步予以適宜的引領(lǐng)與輔助,予以學(xué)校運(yùn)作所需的時(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),助推教學(xué)監(jiān)管得以合理化與智能化。
(三)全方位發(fā)掘并調(diào)研現(xiàn)存的各類(lèi)數(shù)據(jù)
處于大數(shù)據(jù)這一時(shí)代,數(shù)據(jù)種類(lèi)多元,不單具備構(gòu)造化數(shù)據(jù),還摻雜了許多半構(gòu)造化與非構(gòu)造化數(shù)據(jù)。把握、調(diào)研半構(gòu)造化與非構(gòu)造化數(shù)據(jù)本身的能力對(duì)于許多學(xué)校而言是一項(xiàng)極大的挑戰(zhàn)。學(xué)校要把構(gòu)造化數(shù)據(jù)發(fā)掘當(dāng)作大數(shù)據(jù)相關(guān)思維運(yùn)用的著眼點(diǎn),關(guān)注搜集并儲(chǔ)藏用戶訊息與動(dòng)作數(shù)據(jù),為今后各式運(yùn)用做好全方位的準(zhǔn)備。同時(shí),借用現(xiàn)存的數(shù)據(jù)調(diào)研方法,憑借數(shù)據(jù)引領(lǐng)開(kāi)放型教育本身的進(jìn)步。處于初始運(yùn)用時(shí)期,應(yīng)自教學(xué)數(shù)據(jù)、監(jiān)管數(shù)據(jù)以對(duì)教育數(shù)據(jù)施以發(fā)掘。1.網(wǎng)絡(luò)教學(xué)這一渠道相關(guān)的數(shù)據(jù)發(fā)掘。學(xué)習(xí)者自身特點(diǎn)辨別:辨別學(xué)習(xí)者本身的特點(diǎn),尤其是學(xué)習(xí)者群體相應(yīng)的特點(diǎn),并憑借某類(lèi)核心特點(diǎn)對(duì)學(xué)習(xí)者群體施以區(qū)分,促使前階段的教學(xué)相關(guān)設(shè)計(jì)得以全方位踐行,并給個(gè)體化學(xué)習(xí)的開(kāi)展予以憑據(jù)。例如,“學(xué)生總量歸整及趨向評(píng)測(cè)”“學(xué)生自身的特點(diǎn)歸類(lèi)及調(diào)研”等。學(xué)習(xí)者在線開(kāi)展學(xué)習(xí)動(dòng)作調(diào)研:在網(wǎng)絡(luò)教學(xué)這一渠道內(nèi)師生開(kāi)展學(xué)習(xí)期間的各類(lèi)數(shù)據(jù),對(duì)教師與學(xué)生自身的動(dòng)作方法,如登入、查閱資源、發(fā)帖、訓(xùn)練一類(lèi)動(dòng)作與動(dòng)作生成的時(shí)間,加上各式資源、教學(xué)模塊的運(yùn)用狀況施以歸整、可視化與發(fā)掘。例如,“學(xué)生登入動(dòng)作調(diào)研”“學(xué)生資源查閱方法調(diào)研”“師生互動(dòng)渠道調(diào)研”“學(xué)生動(dòng)作干涉要素調(diào)研”等等。師生互動(dòng)調(diào)研:對(duì)網(wǎng)絡(luò)教學(xué)相關(guān)渠道互動(dòng)論壇內(nèi)的數(shù)據(jù)施以調(diào)研,輔助教師評(píng)判學(xué)生對(duì)于教學(xué)目的的把握狀況,方便對(duì)學(xué)生隨時(shí)施以回饋與引導(dǎo)。2.教育監(jiān)管訊息這一體系相關(guān)的數(shù)據(jù)發(fā)掘。教師相關(guān)的監(jiān)管:從人事訊息有關(guān)的數(shù)據(jù)庫(kù)、后勤訊息體系、教師監(jiān)管與評(píng)測(cè)相關(guān)體系內(nèi)發(fā)掘現(xiàn)存數(shù)據(jù),對(duì)學(xué)校處于人才引用、教師成績(jī)?cè)u(píng)測(cè)、教師進(jìn)步、職業(yè)計(jì)劃、后勤監(jiān)管、教育決策扶持體系一類(lèi)模塊予以迅速、正確的決策輔助。學(xué)生方面的監(jiān)管:鑒于學(xué)籍相關(guān)的數(shù)據(jù)庫(kù)、招生相關(guān)的`數(shù)據(jù)庫(kù)實(shí)施數(shù)據(jù)發(fā)掘,改良學(xué)生方面的監(jiān)管工作,給學(xué)校內(nèi)部的就業(yè)引導(dǎo)、畢業(yè)生跟蹤、科目設(shè)立、招生決策等予以?xún)?yōu)良的輔助。例如,發(fā)掘?qū)W生自身的修業(yè)成果數(shù)據(jù)、對(duì)畢業(yè)生自身的特點(diǎn)施以調(diào)研、畢業(yè)成果干涉要素與畢業(yè)時(shí)間干涉要素調(diào)研、畢業(yè)成果評(píng)測(cè)規(guī)定與畢業(yè)時(shí)間評(píng)測(cè)規(guī)定等。
(四)全方位開(kāi)展數(shù)據(jù)式人才準(zhǔn)備
處于大數(shù)據(jù)這一時(shí)代內(nèi),學(xué)校內(nèi)部的監(jiān)管決策、教學(xué)相關(guān)的決策與對(duì)成人學(xué)習(xí)者相應(yīng)的學(xué)習(xí)扶持決策均要依靠大量數(shù)據(jù)的調(diào)研成果,數(shù)據(jù)調(diào)研及發(fā)掘會(huì)逐步變成學(xué)校自身的常規(guī)工作,不單應(yīng)關(guān)注增強(qiáng)各大機(jī)構(gòu)相關(guān)工作者自身的數(shù)據(jù)調(diào)研能力,成人學(xué)校還應(yīng)訓(xùn)練并準(zhǔn)備如下人才:一是大數(shù)據(jù)監(jiān)管方面的人才。處于大數(shù)據(jù)相關(guān)教育運(yùn)用的初始時(shí)期,學(xué)校對(duì)于大數(shù)據(jù)監(jiān)管方面人才需要的急迫性大于對(duì)于技術(shù)型人才的需要。訊息技術(shù)的全方位進(jìn)步,原本的教學(xué)與監(jiān)管相關(guān)經(jīng)歷有可能變成現(xiàn)階段的約束。為了應(yīng)對(duì)新時(shí)期的各式挑戰(zhàn),成人學(xué)校不單應(yīng)設(shè)定專(zhuān)業(yè)的數(shù)據(jù)監(jiān)管崗位,監(jiān)管者還務(wù)必要自行變換思維方法,知曉借助數(shù)據(jù)開(kāi)展思索與監(jiān)管;務(wù)必知曉借助大數(shù)據(jù)相關(guān)的方式,以尋求適宜的解決方法。二是大數(shù)據(jù)技術(shù)方面的人才。想要對(duì)教育相關(guān)的數(shù)據(jù)施以全方位發(fā)掘,成人學(xué)校就要知曉大數(shù)據(jù),還要有擅長(zhǎng)調(diào)研大數(shù)據(jù)、深層次發(fā)掘大數(shù)據(jù)的各式專(zhuān)家。這類(lèi)人才應(yīng)總體把握數(shù)據(jù)調(diào)研、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)械學(xué)習(xí)與自然語(yǔ)言操作一類(lèi)模塊的知識(shí)。具體人才包括:數(shù)據(jù)方面的科學(xué)家,即具備數(shù)據(jù)調(diào)研能力,擅長(zhǎng)各式算法,可以精準(zhǔn)地處理數(shù)據(jù);數(shù)據(jù)方面的架構(gòu)者,即擅長(zhǎng)各類(lèi)開(kāi)放型教育相關(guān)的業(yè)務(wù),把握業(yè)務(wù)需要與業(yè)務(wù)總體構(gòu)造,可以將數(shù)據(jù)與業(yè)務(wù)施以銜接;數(shù)據(jù)方面的工程者,即可以構(gòu)建數(shù)據(jù)儲(chǔ)藏、監(jiān)管與處理的一類(lèi)渠道,并扶持?jǐn)?shù)據(jù)方面的科學(xué)家予以數(shù)學(xué)相關(guān)模型或是算法的運(yùn)轉(zhuǎn)。
三、結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代對(duì)開(kāi)放型教育與成人型教育相應(yīng)的理念革新與教學(xué)革新予以了大量的機(jī)遇。大數(shù)據(jù)不單是一類(lèi)實(shí)用工具,還是一類(lèi)思維方式。開(kāi)放型教育務(wù)必要自原本的小數(shù)據(jù)相關(guān)思維更快地變換成大數(shù)據(jù)相應(yīng)的思維,進(jìn)而與這一迅速的革新相符。借助對(duì)數(shù)據(jù)本身的收獲、調(diào)研與智能化訊息發(fā)掘,給學(xué)校內(nèi)部的監(jiān)管、教學(xué)、服務(wù)予以具備價(jià)值的一類(lèi)數(shù)據(jù)訊息,輔助學(xué)校生成合理的決策,給教學(xué)相關(guān)活動(dòng)的改良施以客觀的憑據(jù)。
參考文獻(xiàn):
。1]呂蘇越.基于大數(shù)據(jù)思維的銀行監(jiān)管數(shù)據(jù)應(yīng)用初探———以3種數(shù)據(jù)挖掘技術(shù)為例[J].金融科技時(shí)代,20xx(5):32-36.
。2]孫力,程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)預(yù)測(cè)的研究與實(shí)現(xiàn)———以本科公共課程統(tǒng)考英語(yǔ)為例[J].開(kāi)放教育研究,20xx(3):74-80.
。3]呂海燕,周立軍,張杰.大數(shù)據(jù)背景下教育數(shù)據(jù)挖掘在學(xué)生在線學(xué)習(xí)行為分析中的應(yīng)用研究[J].計(jì)算技術(shù)與自動(dòng)化,20xx,36(1):136-140.
。4]舒曉靈,陳晶晶.重新認(rèn)識(shí)“數(shù)據(jù)驅(qū)動(dòng)”及因果關(guān)系———知識(shí)發(fā)現(xiàn)圖譜中的數(shù)據(jù)挖掘研究[J].中國(guó)社會(huì)科學(xué)評(píng)價(jià),20xx(3):28-38.
數(shù)據(jù)挖掘論文9
摘要:本文簡(jiǎn)述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)館各部門(mén)管理中,幫助圖書(shū)館管理者依據(jù)數(shù)據(jù)挖掘技術(shù)更好地為讀者提供科學(xué)化和人性化的服務(wù),促進(jìn)圖書(shū)館事業(yè)的創(chuàng)新與發(fā)展。
關(guān)鍵詞:高校圖書(shū)館;數(shù)據(jù)挖掘;創(chuàng)新;發(fā)展。
隨著網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)技術(shù)的快速發(fā)展,高校圖書(shū)館事業(yè)也順應(yīng)時(shí)變,不斷向高科技、高水平領(lǐng)域進(jìn)展,尤其是當(dāng)今處于數(shù)字信息發(fā)展的時(shí)代。如果利用圖書(shū)館現(xiàn)有以及收集的數(shù)據(jù)資源,通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)分析、篩選對(duì)圖書(shū)館有用的數(shù)據(jù)信息,依據(jù)提煉的數(shù)據(jù)資源來(lái)指導(dǎo)、推進(jìn)圖書(shū)館事業(yè)的創(chuàng)新與發(fā)展,是當(dāng)今信息時(shí)代圖書(shū)館亟待研究、探討的一個(gè)問(wèn)題。本文將簡(jiǎn)述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)館各部門(mén)管理之中,幫助圖書(shū)館管理者依據(jù)數(shù)據(jù)挖掘技術(shù)更好地為讀者提供科學(xué)化和人性化的服務(wù),促進(jìn)圖書(shū)館的事業(yè)創(chuàng)新與發(fā)展。
一、數(shù)據(jù)挖掘技術(shù)綜述。
數(shù)據(jù)挖掘定義。數(shù)據(jù)挖掘(Data Mining,DM)是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)單位、企業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換分析和其他模型化處理,以從中提取輔助管理決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。換句話說(shuō),數(shù)據(jù)挖掘技術(shù)就是從收集的大量、繁雜的數(shù)據(jù)中挖掘出其隱含的、未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過(guò)程。
數(shù)據(jù)挖掘的意義。在當(dāng)今的競(jìng)爭(zhēng)時(shí)代社會(huì)中,隨著計(jì)算機(jī)的飛速發(fā)展,計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理能力、內(nèi)存儲(chǔ)存容量和網(wǎng)絡(luò)寬帶等價(jià)格的持續(xù)快速下降,因此大型的數(shù)據(jù)分析、提取技術(shù)不再是一個(gè)障礙。面對(duì)圖書(shū)館每天接收的龐大數(shù)據(jù)源,管理者必須學(xué)會(huì)從所擁有的大量數(shù)據(jù)信息源中提取并利用隱含在這些數(shù)據(jù)中的有用價(jià)值以及有用新信息,從而獲取對(duì)圖書(shū)館事業(yè)研究領(lǐng)域的本質(zhì)認(rèn)知和未來(lái)認(rèn)知,幫助圖書(shū)館管理者從傳統(tǒng)的經(jīng)驗(yàn)管理、主觀管理提升為理性管理和科學(xué)管理。
數(shù)據(jù)挖掘的應(yīng)用分類(lèi)。目前較常用的一般有分類(lèi)與回歸、關(guān)聯(lián)規(guī)則、聚類(lèi)分析、時(shí)序模式等。
二、數(shù)據(jù)挖掘技術(shù)對(duì)圖書(shū)館事業(yè)創(chuàng)新與發(fā)展的影響。
面對(duì)大量數(shù)據(jù),如何去存儲(chǔ)和收集數(shù)據(jù),如何利用數(shù)據(jù)挖掘技術(shù)將圖書(shū)館海量信息數(shù)據(jù)中提取供管理者決策的有價(jià)值的數(shù)據(jù),提取并利用隱藏在這些數(shù)據(jù)中的有用知識(shí)的能力變得越來(lái)越重要。運(yùn)用數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中獲得有用的知識(shí),這在圖書(shū)館管理方面顯得尤為重要,本文將簡(jiǎn)述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)館各部門(mén)工作,為今后各部門(mén)的創(chuàng)新與發(fā)展提供策略分析。
流通部門(mén)。流通部門(mén)作為圖書(shū)館的一線服務(wù)崗位,對(duì)圖書(shū)館功能的發(fā)揮起著舉足輕重的作用。作為窗口形象崗位,直接體現(xiàn)了圖書(shū)館的整體工作狀態(tài)。
要實(shí)現(xiàn)從以往的經(jīng)驗(yàn)管理、主觀管理提升為科學(xué)管理和理性管理,數(shù)據(jù)挖掘技術(shù)將利用現(xiàn)代技術(shù)展現(xiàn)其獨(dú)天得厚的優(yōu)勢(shì)。圖書(shū)館每天都會(huì)產(chǎn)生大量的圖書(shū)流通數(shù)據(jù),這些數(shù)據(jù)包含進(jìn)、出館讀者人數(shù),借、還書(shū)數(shù)量,檢索查詢(xún)次數(shù)以及網(wǎng)上咨詢(xún)等大量繁雜的數(shù)據(jù)。在流通部門(mén)最為常用的數(shù)據(jù)就是借書(shū)、還書(shū)量,通過(guò)借書(shū)、還書(shū)數(shù)據(jù)的統(tǒng)計(jì),可獲取讀者信息行為、借閱書(shū)興趣導(dǎo)向,充分利用數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)、時(shí)間序列分析等,對(duì)圖書(shū)館蘊(yùn)含的大量豐富的用戶行為進(jìn)行建模,從而挖掘出有用的或有興趣的信息和知識(shí)。如可利用這些有價(jià)值的信息,借鑒“啤酒與尿布”的經(jīng)典商業(yè)案例,嘗試在流通部開(kāi)辟一塊試驗(yàn)田地――搭檔書(shū)架,即通過(guò)借、還書(shū)數(shù)據(jù)挖掘,將讀者感興趣、組合搭檔頻率高的書(shū)籍挑選出來(lái),開(kāi)辟一塊搭檔書(shū)架,方便讀者在借用專(zhuān)業(yè)書(shū)籍的同時(shí)順便也借閱自己感興趣的圖書(shū),既學(xué)習(xí)了自己的專(zhuān)業(yè)知識(shí),同時(shí)也順便閱讀了自己感興趣的書(shū)籍,充分實(shí)現(xiàn)了圖書(shū)館“第二課堂”的育人價(jià)值。
采編部門(mén)。傳統(tǒng)的采編部門(mén)在采集書(shū)籍時(shí)大多數(shù)情況是依據(jù)采集經(jīng)驗(yàn)或是依據(jù)各院系、讀者反饋的需求書(shū)籍進(jìn)行征訂。大部分購(gòu)買(mǎi)的圖書(shū)還是比較適合讀者所用的,但也會(huì)存在一些盲目性,有時(shí)會(huì)造成采集的偏差,這是采編部門(mén)一直比較困惑的問(wèn)題。如何既將購(gòu)書(shū)經(jīng)費(fèi)合理利用好,同時(shí)又能滿足讀者借閱所需,是采編部門(mén)長(zhǎng)期探索、研究的問(wèn)題。如果將數(shù)據(jù)挖掘技術(shù)運(yùn)用到采編部門(mén),通過(guò)一線的文獻(xiàn)借閱數(shù)據(jù),分析、挖掘、提煉讀者借、還書(shū)的信息量,且一直追蹤這些信息數(shù)源的變化,即可獲得可被部門(mén)利用的有價(jià)值數(shù)據(jù),并匯總出讀者借、還書(shū)的規(guī)律。依據(jù)這些一線信息數(shù)源的價(jià)值,加之網(wǎng)上薦購(gòu)及讀者書(shū)面薦購(gòu)等信息,匯總出哪些是讀者專(zhuān)業(yè)常用書(shū)籍,哪些是讀者感興趣的書(shū)籍,哪些又是常年被冷落的書(shū)籍,從中提煉出書(shū)籍采集的方向;合理化的采集方案繼續(xù)延用,不合理的采集要進(jìn)行科學(xué)化的數(shù)據(jù)分析,及時(shí)理清思路,盡可能做到書(shū)籍采集的合理化、科學(xué)化。
技術(shù)部門(mén)。在信息飛速發(fā)展的時(shí)代,作為圖書(shū)館負(fù)責(zé)信息網(wǎng)絡(luò)技術(shù)的部門(mén),其肩上的重量顯得格外沉重。技術(shù)部門(mén)不但肩負(fù)著網(wǎng)絡(luò)技術(shù)的責(zé)任,當(dāng)今也要肩負(fù)起圖書(shū)館所有數(shù)據(jù)的收集、存儲(chǔ)、挖掘及分析技術(shù)。數(shù)據(jù)挖掘及分析技術(shù)在技術(shù)部十分重要,技術(shù)部應(yīng)將圖書(shū)館各部門(mén)所產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行長(zhǎng)期性、系統(tǒng)性的收集和科學(xué)分析,并將研究數(shù)據(jù)的.挖掘及分析作為當(dāng)前和今后技術(shù)部研究及發(fā)展的方向,承擔(dān)起“數(shù)據(jù)監(jiān)護(hù)員”的角色,通過(guò)實(shí)踐為圖書(shū)館提供數(shù)據(jù)監(jiān)護(hù)操作技能及策略。注意將可獲得的數(shù)據(jù)及時(shí)進(jìn)行收集,并通過(guò)收集數(shù)據(jù)使用案例,分析并總結(jié)用戶需求及使用規(guī)律,為數(shù)據(jù)監(jiān)護(hù)提供基礎(chǔ)資料。
學(xué)科部門(mén)。學(xué)科部門(mén)作為一個(gè)新興的部門(mén),目前已在全國(guó)各高校圖書(shū)館廣泛推廣運(yùn)用。學(xué)科館員的主要任務(wù)是派專(zhuān)人與對(duì)口院系或?qū)W科專(zhuān)業(yè)搭建合作、交流平臺(tái),并利用圖書(shū)館信息檢索的技術(shù)優(yōu)勢(shì),為研究者開(kāi)展長(zhǎng)期追蹤、收集、傳遞文獻(xiàn)信息的科技服務(wù)。當(dāng)前大部分學(xué)科館員關(guān)注的是如何為院系教學(xué)提供良好的信息傳遞幫助,而忽略了在當(dāng)前信息飛速發(fā)展的時(shí)代,科研與教學(xué)走向數(shù)字化的趨勢(shì)。學(xué)者所做的所有工作,包括教案、論文、實(shí)驗(yàn)、畢業(yè)設(shè)計(jì)等等工作,基本上都是以電子信息的方式進(jìn)行編輯、存儲(chǔ)的。雖然極大地方便了學(xué)者們的工作,但同時(shí)也面臨這些電子數(shù)據(jù)的丟失風(fēng)險(xiǎn),一旦電子數(shù)據(jù)丟失,其損失的學(xué)術(shù)價(jià)值是不可估量的。為盡量避免這些事件的發(fā)生,學(xué)科部門(mén)可依托技術(shù)部門(mén)的支撐,利用數(shù)據(jù)挖掘技術(shù),開(kāi)展學(xué)者數(shù)據(jù)監(jiān)護(hù)服務(wù),保存這些非紙質(zhì)信息。這樣學(xué)科部門(mén)不僅為學(xué)者提供了科研信息的前沿追蹤,同時(shí)也提供了科學(xué)數(shù)據(jù)保存平臺(tái);既為學(xué)者科研開(kāi)辟道路,也為學(xué)者預(yù)防丟失科研數(shù)據(jù)提供保障,可謂雙保險(xiǎn)。數(shù)據(jù)挖掘技術(shù)還可以幫助學(xué)科部通過(guò)數(shù)據(jù)挖掘、分析出讀者關(guān)注以及咨詢(xún)較多的問(wèn)題,從中歸納出重點(diǎn)并分門(mén)別類(lèi),作為圖書(shū)館工作的重要依據(jù)。
三、結(jié)語(yǔ)。
數(shù)據(jù)挖掘技術(shù)在當(dāng)今大數(shù)據(jù)時(shí)代,已成為一個(gè)相對(duì)成熟的學(xué)科,融入到社會(huì)的各行各業(yè)。利用數(shù)據(jù)挖掘技術(shù)對(duì)圖書(shū)館數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘已經(jīng)成為圖書(shū)館需要開(kāi)展的一項(xiàng)重要工作。圖書(shū)館事業(yè)已全部進(jìn)入電子信息化,由此產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù)和信息資源是圖書(shū)館行業(yè)的一筆寶貴財(cái)富,它較真實(shí)地反映了讀者對(duì)圖書(shū)館事業(yè)運(yùn)作以及提供的服務(wù)是否到位。因此,通過(guò)數(shù)據(jù)挖掘分析,能夠幫助圖書(shū)館管理者分析并發(fā)現(xiàn)現(xiàn)有管理的不足之處,通過(guò)已知的現(xiàn)象預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。數(shù)據(jù)挖掘技術(shù)已成為今后圖書(shū)館事業(yè)保持競(jìng)爭(zhēng)力的必備法寶。
參考文獻(xiàn):
【1】顧倩.數(shù)據(jù)挖掘應(yīng)用于高校圖書(shū)館個(gè)性化服務(wù)的探討[J].圖書(shū)館雜志,20xx,8:63-65.。
【2】王偉.基于數(shù)據(jù)挖掘的圖書(shū)館用戶行為分析與偏好研究情報(bào)科學(xué),20xx,30(3):391-394.。
【3】楊海燕.大數(shù)據(jù)時(shí)代的圖書(shū)館服務(wù)淺析[J].圖書(shū)與情報(bào)。
【4】程蓮娟.美國(guó)高校圖書(shū)館數(shù)據(jù)監(jiān)護(hù)的實(shí)踐及其啟示[J].圖書(shū)館雜志,20xx,1(31):76-78.。
數(shù)據(jù)挖掘論文10
【摘要】企業(yè)精準(zhǔn)營(yíng)銷(xiāo)服務(wù)是在充分了解客戶的基礎(chǔ)上,針對(duì)客戶特點(diǎn)及需求,有針對(duì)性地進(jìn)行產(chǎn)品營(yíng)銷(xiāo)的行為。大數(shù)據(jù)時(shí)代數(shù)據(jù)呈現(xiàn)井噴式爆炸性增長(zhǎng),不斷驅(qū)動(dòng)企業(yè)大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)的應(yīng)用,數(shù)據(jù)挖掘成了企業(yè)從海量數(shù)據(jù)中獲取信息知識(shí)的必要技術(shù)手段。本文主要探討數(shù)據(jù)挖掘常見(jiàn)方法、挖掘過(guò)程及在企業(yè)精準(zhǔn)營(yíng)銷(xiāo)服務(wù)的應(yīng)用,以實(shí)際案例分析總結(jié)企業(yè)利用數(shù)據(jù)挖掘開(kāi)展精準(zhǔn)營(yíng)銷(xiāo)工作更為合理的方法、流程。
【關(guān)鍵詞】數(shù)據(jù)挖掘;方法論;精準(zhǔn)營(yíng)銷(xiāo)服務(wù);策略
一、引言
大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)呈現(xiàn)井噴式爆炸性增長(zhǎng)。在海量數(shù)據(jù)中,隱藏著無(wú)數(shù)商業(yè)機(jī)會(huì),但如何將大數(shù)據(jù)利用起來(lái)卻是一項(xiàng)艱巨的工作。在企業(yè)實(shí)施精準(zhǔn)營(yíng)銷(xiāo)服務(wù)過(guò)程中,面臨著客戶在哪?客戶有什么特征?客戶需要什么產(chǎn)品?如何進(jìn)行有效營(yíng)銷(xiāo),提升客戶價(jià)值?我們?cè)跀?shù)據(jù)的海洋里淹死了,卻在知識(shí)的海洋里渴死了……而從龐大的數(shù)據(jù)中,借助合適的數(shù)據(jù)挖掘技術(shù)及工具,借助結(jié)合實(shí)際的數(shù)據(jù)挖掘方法,以客觀統(tǒng)計(jì)分析和挖掘算法挖掘出企業(yè)精準(zhǔn)營(yíng)銷(xiāo)服務(wù)的潛在目標(biāo)用戶、用戶特征,同時(shí)匹配合適的營(yíng)銷(xiāo)服務(wù)策略,可以顯著提升企業(yè)營(yíng)銷(xiāo)服務(wù)精準(zhǔn)度與成功率。
二、數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘工作本質(zhì)上是一個(gè)解決實(shí)際業(yè)務(wù)問(wèn)題的過(guò)程,需要有系統(tǒng)、科學(xué)的數(shù)據(jù)挖掘方法論來(lái)指導(dǎo)。業(yè)內(nèi)主流的數(shù)據(jù)挖掘方法論有:歐盟機(jī)構(gòu)聯(lián)合起草的CRISP-DM、SAS公司提出的SEMMA。CRISP-DM將數(shù)據(jù)挖掘分為6個(gè)階段,即商業(yè)理解(Busi-nessunderstanding)、數(shù)據(jù)理解(Dataunderstanding)、數(shù)據(jù)準(zhǔn)備(Datapreparation)、建模(Modeling)、評(píng)估(Evaluation)、部署(Deployment)。而SEMMA將數(shù)據(jù)挖掘分為5個(gè)階段,即數(shù)據(jù)取樣(Sample)、數(shù)據(jù)特征探索、分析和預(yù)處理(Explore)、問(wèn)題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇(Modify)、模型的研發(fā)、知識(shí)的發(fā)現(xiàn)(Model)、模型和知識(shí)的綜合解釋和評(píng)價(jià)(Assess)。從工作流程來(lái)看,CRISP-DM是從項(xiàng)目執(zhí)行角度談的方法論,更關(guān)注與商業(yè)目標(biāo)的結(jié)合,而SEMMA則是從具體數(shù)據(jù)探測(cè)和挖掘出發(fā)談的方法論,更關(guān)注數(shù)據(jù)探索的過(guò)程。但從具體工作內(nèi)容來(lái)看,CRISP-DM和SEMMA本質(zhì)上都是在數(shù)據(jù)挖掘應(yīng)用中提出問(wèn)題、分析問(wèn)題和解決問(wèn)題的過(guò)程。因此,CRISP-DM和SEMMA互不矛盾,只是強(qiáng)調(diào)的重點(diǎn)不同而已。結(jié)合企業(yè)實(shí)施數(shù)據(jù)挖掘工作的實(shí)踐經(jīng)驗(yàn),經(jīng)常采用PDMA數(shù)據(jù)挖掘方法。PDMA將數(shù)據(jù)挖掘分為4個(gè)階段,即定義業(yè)務(wù)問(wèn)題(Problemdefinition)、數(shù)據(jù)準(zhǔn)備(DataPreparation)、模型構(gòu)建(ModelCreation)、模型應(yīng)用(ModelApplication)。與CRISP-DM、SEMMA等相比,PDMA類(lèi)似CRISP-DM,但又有較大差異。首先,PDMA將CRISP-DM的數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備做了提煉與分解。PDMA的數(shù)據(jù)準(zhǔn)備是在滿足業(yè)務(wù)目標(biāo)的前提下,確定挖掘建模的數(shù)據(jù)范圍,并構(gòu)建生成寬表數(shù)據(jù)及核查數(shù)據(jù)準(zhǔn)確性。PDMA的模型構(gòu)建是在數(shù)據(jù)準(zhǔn)備后,從數(shù)據(jù)集中采集業(yè)務(wù)問(wèn)題相關(guān)的.樣本數(shù)據(jù)集,探索數(shù)據(jù)的規(guī)律和趨勢(shì),針對(duì)數(shù)據(jù)建模的數(shù)據(jù)集數(shù)據(jù)進(jìn)行探索,選擇一種或幾種挖掘算法,進(jìn)行模型構(gòu)建及從技術(shù)和業(yè)務(wù)兩個(gè)角度進(jìn)行模型評(píng)估?梢(jiàn),PDMA的數(shù)據(jù)準(zhǔn)備只負(fù)責(zé)建模挖掘?qū)挶頊?zhǔn)備,數(shù)據(jù)探索包括衍生變量的生成、選擇等部分?jǐn)?shù)據(jù)處理工作在模型構(gòu)建階段實(shí)現(xiàn),各階段間的工作分工也更為清晰。其次,PDMA的模型應(yīng)用不僅僅是模型部署,還包括模型評(píng)分、模型監(jiān)控與維護(hù),確保當(dāng)市場(chǎng)環(huán)境、用戶數(shù)據(jù)發(fā)生變化時(shí),能及時(shí)判別在用的挖掘模型是否還有效、適用。對(duì)于不適用的挖掘模型及時(shí)調(diào)整優(yōu)化,實(shí)現(xiàn)模型閉環(huán)管理。同時(shí),PDMA的模型應(yīng)用還強(qiáng)調(diào)模型輸出目標(biāo)用戶的細(xì)分,及與市場(chǎng)營(yíng)銷(xiāo)策略的匹配建議,幫助業(yè)務(wù)部門(mén)更好理解模型輸出及指導(dǎo)后續(xù)工作的開(kāi)展。PDMA數(shù)據(jù)挖掘方法論是CRISP-DM、SEMMA等方法論的提煉優(yōu)化。
三、數(shù)據(jù)挖掘精準(zhǔn)營(yíng)銷(xiāo)應(yīng)用
隨著三大運(yùn)營(yíng)商全業(yè)務(wù)經(jīng)營(yíng)的迅猛發(fā)展,寬帶市場(chǎng)競(jìng)爭(zhēng)激烈、市場(chǎng)日益飽和,越發(fā)呈現(xiàn)價(jià)格戰(zhàn)的競(jìng)爭(zhēng)格局。借助大數(shù)據(jù)分析挖掘可精準(zhǔn)識(shí)別寬帶營(yíng)銷(xiāo)服務(wù)潛在目標(biāo)客戶及特征,從而實(shí)現(xiàn)營(yíng)銷(xiāo)服務(wù)有的放矢。
1、定義業(yè)務(wù)問(wèn)題
。1)基于歷史數(shù)據(jù)挖掘過(guò)往寬帶營(yíng)銷(xiāo)服務(wù)客戶寬帶使用特征、消費(fèi)水平特征、上網(wǎng)偏好等,剖析營(yíng)銷(xiāo)服務(wù)用戶的主要特征和原因,輸出潛在目標(biāo)用戶清單。(2)在輸出潛在目標(biāo)用戶清單的基礎(chǔ)上,對(duì)目標(biāo)客戶進(jìn)一步深入挖掘分群,剖析出不同人群客戶的寬帶使用、消費(fèi)行為的典型特點(diǎn),提出針對(duì)性營(yíng)銷(xiāo)服務(wù)策略。(3)針對(duì)輸出的潛在目標(biāo)用戶清單和分群制定具體的銷(xiāo)售策略,進(jìn)行派單執(zhí)行,跟蹤效果,做好下次模型迭代優(yōu)化。
2、數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是在滿足業(yè)務(wù)目標(biāo)前提下,確定數(shù)據(jù)建模的數(shù)據(jù)范圍,描述和檢查這些數(shù)據(jù),并構(gòu)建建模寬表。針對(duì)寬帶用戶的行為特征,可以選取以下幾個(gè)數(shù)據(jù)維度:上網(wǎng)偏好維度、消費(fèi)行為維度、產(chǎn)品及終端結(jié)構(gòu)維度。其中,偏好類(lèi)別數(shù)據(jù)主要利用DPI數(shù)據(jù)對(duì)用戶訪問(wèn)的目標(biāo)URL地址,進(jìn)行多維度的統(tǒng)計(jì)計(jì)算后,得出的興趣類(lèi)別標(biāo)簽。輸入模型的變量要根據(jù)不同區(qū)域和每次預(yù)測(cè)的數(shù)據(jù)源動(dòng)態(tài)調(diào)整。經(jīng)過(guò)數(shù)據(jù)清洗、整理、派生,最終確定模型輸入變量時(shí),主要依據(jù)對(duì)于模型輸出結(jié)果的影響顯著性選擇。
3、模型構(gòu)建
模型構(gòu)建就是在數(shù)據(jù)準(zhǔn)備后,從數(shù)據(jù)集市中采集業(yè)務(wù)問(wèn)題相關(guān)的樣本數(shù)據(jù)集,探索數(shù)據(jù)的規(guī)律和趨勢(shì),針對(duì)數(shù)據(jù)建模的數(shù)據(jù)集數(shù)據(jù)進(jìn)行修正,選擇一種或幾種挖掘方法,進(jìn)行數(shù)據(jù)模型構(gòu)建,從技術(shù)和業(yè)務(wù)兩個(gè)層面進(jìn)行模型評(píng)估。通常情況下,主要以邏輯回歸和決策樹(shù)等作為建模主要方法,此類(lèi)模型能輸出具體流失公式和規(guī)則。在進(jìn)行用戶分群時(shí),主要以聚類(lèi)模型為主要方法,尋找不同類(lèi)型用戶特征,制定分群針對(duì)性維系策略。
4、模型應(yīng)用
在輸出潛在目標(biāo)用戶清單的基礎(chǔ)上,對(duì)目標(biāo)客戶進(jìn)行分群。根據(jù)數(shù)據(jù)挖掘模型結(jié)果,寬帶營(yíng)銷(xiāo)服務(wù)用戶可以分為以下5類(lèi):低需求型用戶、供給過(guò)剩型用戶、供給不足型用戶、長(zhǎng)期高需求型用戶、短期高需求型用戶;诜秩汉蟮哪繕(biāo)用戶,可以針對(duì)性進(jìn)行營(yíng)銷(xiāo)服務(wù)策略匹配,如低需求型用戶可以采用寬帶資費(fèi)優(yōu)惠(如對(duì)上網(wǎng)少用戶采取特定的低資費(fèi)),供給不足型用戶可以采用加快低寬帶客戶向高帶寬的遷移政策。最后進(jìn)行派單執(zhí)行,跟蹤效果。
四、結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代,由于信息技術(shù)的應(yīng)用普及,產(chǎn)生了大量的數(shù)據(jù),每年都以指數(shù)級(jí)速度增長(zhǎng)。數(shù)據(jù)量大導(dǎo)致數(shù)據(jù)應(yīng)用也會(huì)變得越來(lái)越困難,而借助合適的數(shù)據(jù)挖掘技術(shù)及工具,結(jié)合實(shí)際的數(shù)據(jù)挖掘方法,可以更加有效地提高數(shù)據(jù)的利用率,更深層次地挖掘出對(duì)企業(yè)精準(zhǔn)營(yíng)銷(xiāo)有價(jià)值的信息,實(shí)現(xiàn)對(duì)海量信息的掌控,讓企業(yè)實(shí)現(xiàn)更為精準(zhǔn)的營(yíng)銷(xiāo)服務(wù)。
數(shù)據(jù)挖掘論文11
1.軟件工程數(shù)據(jù)的挖掘測(cè)試技術(shù)
1.1代碼編寫(xiě)
通過(guò)對(duì)軟件數(shù)據(jù)進(jìn)行分類(lèi)整理,在進(jìn)行缺陷軟件的排除工作以后,根據(jù)軟件開(kāi)發(fā)過(guò)程中的各種信息進(jìn)行全新的代碼編寫(xiě);诖a編寫(xiě)人員的編寫(xiě)經(jīng)驗(yàn),在一般情況,對(duì)結(jié)構(gòu)功能與任務(wù)類(lèi)似的模塊進(jìn)行重新編寫(xiě),這些重新編寫(xiě)的模塊應(yīng)遵循特定的編寫(xiě)規(guī)則,這樣才能保證代碼編寫(xiě)的合理有效性。
1.2錯(cuò)誤重現(xiàn)
代碼編寫(xiě)完成以后開(kāi)發(fā)者會(huì)將這些代碼進(jìn)行版本的確認(rèn),然后將正確有效的代碼實(shí)際應(yīng)用到適當(dāng)版本的軟件中去。而對(duì)于存在缺陷的代碼,開(kāi)發(fā)者需要針對(duì)代碼產(chǎn)生缺陷的原因進(jìn)行分析,通過(guò)不但調(diào)整代碼內(nèi)的輸入數(shù)據(jù),直到代碼內(nèi)的數(shù)據(jù)與程序報(bào)告中的描述接近為止。存在缺陷的代碼往往會(huì)以缺陷報(bào)告的形式對(duì)開(kāi)發(fā)者予以說(shuō)明,由于缺陷報(bào)告的模糊性,常常會(huì)誤導(dǎo)開(kāi)發(fā)者,進(jìn)而造成程序設(shè)計(jì)混亂。
1.3理解行為
軟件開(kāi)發(fā)者在設(shè)計(jì)軟件的過(guò)程中需要明確自己設(shè)計(jì)軟件中每一個(gè)代碼的內(nèi)容,同時(shí)還需要理解其他開(kāi)發(fā)者編寫(xiě)的.代碼,這樣才能有效地完善軟件開(kāi)發(fā)者的編寫(xiě)技術(shù)。同時(shí),軟件開(kāi)發(fā)者在進(jìn)行代碼編寫(xiě)的過(guò)程中,需要對(duì)程序行為進(jìn)行準(zhǔn)確的理解,以此保證軟件內(nèi)文檔和注釋的準(zhǔn)確性。
1.4設(shè)計(jì)推究
開(kāi)發(fā)者在準(zhǔn)備對(duì)軟件進(jìn)行完善設(shè)計(jì)的過(guò)程中,首先需要徹底了解軟件的總體設(shè)計(jì),對(duì)軟件內(nèi)部復(fù)雜的系統(tǒng)機(jī)構(gòu)進(jìn)行詳細(xì)研究與分析,充分把握軟件細(xì)節(jié),這有這樣才能真正實(shí)現(xiàn)軟件設(shè)計(jì)的合理性與準(zhǔn)確性。
2.軟件工程數(shù)據(jù)挖掘測(cè)試的有效措施
2.1進(jìn)行軟件工程理念和方法上的創(chuàng)新
應(yīng)通過(guò)實(shí)施需求分析,將數(shù)據(jù)挖據(jù)逐漸演變成形式化、規(guī)范化的需求工程,在軟件開(kāi)發(fā)理念上,加強(qiáng)對(duì)數(shù)據(jù)挖掘的重視,對(duì)軟件工程的架構(gòu)進(jìn)行演化性設(shè)計(jì)與創(chuàng)新,利用新技術(shù),在軟件開(kāi)發(fā)的過(guò)程中添加敏捷變成與間件技術(shù),由此,提高軟件編寫(xiě)水平。
2.2利用人工智能
隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展與創(chuàng)新,機(jī)器學(xué)習(xí)已經(jīng)逐漸被我國(guó)各個(gè)領(lǐng)域所廣泛應(yīng)用,在進(jìn)行軟件工程數(shù)據(jù)挖掘技術(shù)創(chuàng)新的過(guò)程中,可以將機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù)實(shí)際應(yīng)用于軟件工程中,以此為我國(guó)軟件研發(fā)提供更多的便捷。人工智能作為我國(guó)先進(jìn)生產(chǎn)力的重要表現(xiàn),在實(shí)際應(yīng)用于軟件工程數(shù)據(jù)的挖掘工作時(shí),應(yīng)該利用機(jī)器較強(qiáng)的學(xué)習(xí)能力與運(yùn)算能力,將數(shù)據(jù)統(tǒng)計(jì)及數(shù)據(jù)運(yùn)算通過(guò)一些較為成熟的方法進(jìn)行解決。在軟件工程數(shù)據(jù)挖掘的工作中,合理化的將人工智能實(shí)際應(yīng)用于數(shù)據(jù)挖掘,以此為數(shù)據(jù)挖掘提供更多的開(kāi)發(fā)測(cè)試技術(shù)。
2.3針對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià)
通過(guò)分析我國(guó)傳統(tǒng)的軟件工程數(shù)據(jù)挖掘測(cè)試工作,在很多情況下,傳統(tǒng)的數(shù)據(jù)挖掘測(cè)試技術(shù)無(wú)法做到對(duì)發(fā)掘數(shù)據(jù)的全面評(píng)價(jià)與實(shí)際應(yīng)用研究,這一問(wèn)題致使相應(yīng)的軟件數(shù)據(jù)在被發(fā)掘出來(lái)以后無(wú)法得到有效地利用,進(jìn)而導(dǎo)致我國(guó)軟件開(kāi)發(fā)工作受到嚴(yán)重的抑制影響。針對(duì)這一問(wèn)題,數(shù)據(jù)開(kāi)發(fā)者應(yīng)該利用挖掘缺陷檢驗(yàn)報(bào)告,針對(duì)缺陷檢驗(yàn)的結(jié)果,制定相應(yīng)的挖掘結(jié)構(gòu)報(bào)告。同時(shí),需要結(jié)合軟件用戶的體驗(yàn)評(píng)價(jià),對(duì)挖掘出的數(shù)據(jù)進(jìn)行系統(tǒng)化的整理與分析,建立一整套嚴(yán)謹(jǐn)、客觀的服務(wù)體系,運(yùn)用CodeCity軟件,讓用戶在的體驗(yàn)過(guò)后可以對(duì)軟件進(jìn)行評(píng)價(jià)?紤]到軟件的服務(wù)對(duì)象是人,因此,在軟件開(kāi)發(fā)的過(guò)程中要將心理學(xué)與管理學(xué)應(yīng)用于數(shù)據(jù)挖掘,建立數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘評(píng)價(jià)系統(tǒng)。
3.結(jié)束語(yǔ)
綜上所述,由于軟件工程數(shù)據(jù)挖掘測(cè)試技術(shù)廣闊的應(yīng)用前景,我國(guó)相關(guān)部門(mén)已經(jīng)加大了對(duì)軟件技術(shù)的投資與開(kāi)發(fā)力度,當(dāng)下,國(guó)內(nèi)已經(jīng)實(shí)現(xiàn)了軟件工程的數(shù)據(jù)挖掘、人工智能、模式識(shí)別等多種領(lǐng)域上的發(fā)展。
數(shù)據(jù)挖掘論文12
題目:數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢(shì)及應(yīng)用進(jìn)展
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù); 神經(jīng)根型頸椎病; 方劑; 綜述;
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術(shù), 它融匯了人工智能、模式別、模糊數(shù)學(xué)、數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)等多種技術(shù)方法, 專(zhuān)門(mén)用于海量數(shù)據(jù)的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識(shí), 其目的是發(fā)現(xiàn)規(guī)律而不是驗(yàn)證假設(shè)。數(shù)據(jù)挖掘技術(shù)主要適用于龐大的數(shù)據(jù)庫(kù)的研究, 其特點(diǎn)在于:基于數(shù)據(jù)分析方法角度的分類(lèi), 其本質(zhì)屬于觀察性研究, 數(shù)據(jù)來(lái)源于日常診療工作資料, 應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn), 分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選擇數(shù)據(jù), 數(shù)據(jù)處理, 挖掘分析, 結(jié)果解釋, 其中結(jié)果解釋是數(shù)據(jù)挖掘技術(shù)研究的關(guān)鍵。其方法包括分類(lèi)、聚類(lèi)、關(guān)聯(lián)、序列、決策樹(shù)、貝斯網(wǎng)絡(luò)、因子、辨別等分析[3], 其結(jié)果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當(dāng)今數(shù)據(jù)挖掘技術(shù)的方向主要在于:特定數(shù)據(jù)挖掘, 高效挖掘算法, 提高結(jié)果的有效性、確定性和表達(dá)性, 結(jié)果的可視化, 多抽象層上的交互式數(shù)據(jù)挖掘, 多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢(shì)和獨(dú)特性被運(yùn)用于多個(gè)領(lǐng)域中, 且結(jié)果運(yùn)用后取得顯著成效, 因此越來(lái)越多的中醫(yī)方劑研究者將其運(yùn)用于方劑中藥物的研究。
2 數(shù)據(jù)挖掘術(shù)在神經(jīng)根型頸椎病治方研究中的優(yōu)勢(shì)
中醫(yī)對(duì)于神經(jīng)根型頸椎病的治療準(zhǔn)則為辨證論治, 從古至今神經(jīng)根型頸椎病的中醫(yī)證型有很多, 其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合, 具有以“方-藥-證”為核心的多維結(jié)構(gòu)。方劑配伍本質(zhì)上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯(cuò)綜的關(guān)聯(lián)與對(duì)應(yīng)[5], 而中醫(yī)方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經(jīng)之別, 對(duì)于神經(jīng)根型頸椎病的治療, 治方中藥物的種類(lèi)、炮制方法、用量、用法等都是千變?nèi)f化的, 而這些海量、模糊、看似隨機(jī)的藥物背后隱藏著對(duì)臨床有用的信息和規(guī)律, 但這些大數(shù)據(jù)是無(wú)法在可承受的時(shí)間范圍內(nèi)可用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的, 是需要一個(gè)新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力, 而數(shù)據(jù)挖掘技術(shù)有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識(shí), 揭示背后隱藏的關(guān)系和規(guī)則, 并且對(duì)未知的情況進(jìn)行預(yù)測(cè)[6]。再者, 中醫(yī)辨治充滿非線性思維, “方-藥-證”間的.多層關(guān)聯(lián)、序列組合、集群對(duì)應(yīng), 形成了整體論的思維方式和原則, 而數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘在技術(shù)線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對(duì)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)以線性和非線性方式解析, 尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤(pán)突出癥的用藥規(guī)律時(shí), 選取了100張治方, 因該病病因病機(jī)復(fù)雜, 證候不一, 骨傷名師張玉柱先生對(duì)該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫(kù), 采用SPPS Clementine12.0軟件對(duì)這些數(shù)據(jù)的用藥頻次、藥物關(guān)聯(lián)規(guī)則及藥物聚類(lèi)進(jìn)行分析, 最后總結(jié)出張氏骨傷治療腰椎間盤(pán)突出癥遵循病從肝治、病從血治、標(biāo)本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類(lèi)自擬方。由此看出數(shù)據(jù)挖掘技術(shù)在方劑研究中的應(yīng)用對(duì)數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經(jīng)驗(yàn)的推廣具有重大意義, 因此數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。
3 數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎治方中的應(yīng)用進(jìn)展
神經(jīng)根型頸椎病在所有頸椎病中最常見(jiàn), 約占50%~60%[8], 醫(yī)家對(duì)其治方的研究也是不計(jì)其數(shù)。近年來(lái)數(shù)據(jù)挖掘技術(shù)也被運(yùn)用于其治方研究中, 筆者通過(guò)萬(wàn)方、中國(guó)知網(wǎng)等總共檢索出以下幾篇文獻(xiàn), 雖數(shù)量不多但其優(yōu)勢(shì)明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規(guī)律時(shí), 通過(guò)檢索《中華醫(yī)典》并從中篩選以治療頸項(xiàng)肩臂痛為主的古方219首并建立數(shù)據(jù)庫(kù), 對(duì)不同證治古方的用藥類(lèi)別、總味數(shù)、單味藥使用頻數(shù)及藥對(duì) (組) 出現(xiàn)頻數(shù)進(jìn)行統(tǒng)計(jì), 總結(jié)出風(fēng)寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點(diǎn), 得出解表藥、祛風(fēng)濕藥、活血化瘀藥、補(bǔ)虛藥是治療頸項(xiàng)肩臂痛古方組成的主要藥物。古為今用, 該研究對(duì)于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考意義。齊兵獻(xiàn)等[10]檢索CNKI (1980-20xx年) 相關(guān)文獻(xiàn)中治療神經(jīng)根型頸椎病的方劑建立數(shù)據(jù)庫(kù), 采用SPSS11.5統(tǒng)計(jì)軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較, 治療神經(jīng)根型頸椎病的中藥共計(jì)99味, 使用頻次479味次;所用藥物種類(lèi)依次以補(bǔ)益藥、活血化瘀藥、祛風(fēng)濕藥運(yùn)用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經(jīng)以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補(bǔ)益藥、活血化瘀藥、祛風(fēng)濕藥等中藥運(yùn)用最多。這對(duì)于醫(yī)家治療該病選用藥物的性味、歸經(jīng)等具有指導(dǎo)意義。陳元川等[11]檢索20xx年1月至20xx年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關(guān)文獻(xiàn), 對(duì)其中的方劑和藥物進(jìn)行統(tǒng)計(jì)、歸類(lèi)、分析, 最終納入32首方劑, 涉及111味中藥, 補(bǔ)氣藥、發(fā)散風(fēng)寒藥、活血止痛藥、補(bǔ)血藥等使用頻次較高;葛根、白芍、黃芪、當(dāng)歸、桂枝等藥物使用頻次較高, 證實(shí)與古方桂枝加葛根湯主藥相同, 且該方扶陽(yáng)解表的治法與該研究得出的扶正祛邪的結(jié)果相吻合, 同時(shí)也證實(shí)石氏傷科強(qiáng)調(diào)治傷科病當(dāng)“以氣為主, 以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關(guān)系在很多方面古今是一致的, 同時(shí)數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經(jīng)根型頸椎病治療提供有力的保障。謝輝等[12]收集20xx至20xx年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數(shù)據(jù)庫(kù), 采用關(guān)聯(lián)規(guī)則算法、復(fù)雜系統(tǒng)熵聚類(lèi)等無(wú)監(jiān)督數(shù)據(jù)挖掘方法, 利用中醫(yī)傳承輔助平臺(tái) (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關(guān)聯(lián)規(guī)則、核心藥物組合和新處方, 從中挖掘出治療該病中醫(yī)中的常用藥物、藥對(duì), 闡明了治療該病以解肌散寒藥、補(bǔ)氣活血藥、祛風(fēng)勝濕藥和溫經(jīng)通絡(luò)藥為主, 治法主要包括解肌舒筋、益氣活血和補(bǔ)益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實(shí)其與很多古代經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規(guī)律是吻合的, 是臨床用藥的積累和升華, 可有效地指導(dǎo)臨床并提高療效;另一方面也為中藥新藥的創(chuàng)制提供處方來(lái)源, 指導(dǎo)新藥研發(fā)[13]。
4 小結(jié)
數(shù)據(jù)挖掘技術(shù)作為一種新型的研究技術(shù), 在神經(jīng)根型頸椎病的治方研究中的運(yùn)用相對(duì)于其他領(lǐng)域是偏少的, 并且基本上是研究文獻(xiàn)資料上出現(xiàn)的治方, 在對(duì)名老中醫(yī)個(gè)人治療經(jīng)驗(yàn)及用藥規(guī)律的總結(jié)是缺乏的, 因此研究范圍廣而缺乏針對(duì)性, 同時(shí)使用該技術(shù)的相關(guān)軟件種類(lèi)往往是單一的,F(xiàn)在研究者在研究中醫(yī)方劑時(shí)往往采用傳統(tǒng)的研究方法, 這就導(dǎo)致在大數(shù)據(jù)的研究中耗時(shí)、耗力甚則無(wú)能為力, 同樣也難以精準(zhǔn)地提取大數(shù)據(jù)背后的隱藏的潛在關(guān)系和規(guī)則及缺乏對(duì)未知情況的預(yù)測(cè)。產(chǎn)生這樣的現(xiàn)狀, 一方面是很多研究者尚未清楚該技術(shù)在方劑研究中的優(yōu)勢(shì)所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術(shù)的操作技能及軟件種類(lèi)及其應(yīng)用范圍。故以后應(yīng)向更多研究者普及該技術(shù)的軟件種類(lèi)、其中的優(yōu)勢(shì)及操作技能, 讓該技術(shù)在臨床中使用更廣, 產(chǎn)生更大的效益。
參考文獻(xiàn)
[1]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國(guó)西部科技, 20xx, 9 (5) :38-39.
[2]曹毅, 季聰華.臨床科研設(shè)計(jì)與分析[M].杭州:浙江科學(xué)技術(shù)出版社, 20xx:189.
[3]王靜, 崔蒙.數(shù)據(jù)挖掘技術(shù)在中醫(yī)方劑學(xué)研究中的應(yīng)用[J].中國(guó)中醫(yī)藥信息雜志, 20xx, 15 (3) :103-104.
[4]陳丈偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社, 20xx:5.
[5]楊玉珠.數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用[J].河南科技, 20xx, 10 (19) :21.
[6]余侃侃.數(shù)據(jù)挖掘技術(shù)在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國(guó)醫(yī)藥指南, 20xx, 6 (24) :310-312.
[7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對(duì)腰椎間盤(pán)突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學(xué)學(xué)報(bào), 20xx, 39 (6) :44-46.
[8]李曙明, 尹戰(zhàn)海, 王瑩.神經(jīng)根型頸椎病的影像學(xué)特點(diǎn)和分型[J].中國(guó)矯形外科雜志, 20xx, 21 (1) :7-11.
[9]劉向前, 陳民, 黃廣平等.頸項(xiàng)肩臂痛內(nèi)治古方常用藥物的統(tǒng)計(jì)分析[J].中華中醫(yī)藥學(xué)刊, 20xx, 30 (9) :42-44.
[10]齊兵獻(xiàn), 樊成虎, 李兆和.神經(jīng)根型頸椎病中醫(yī)用藥規(guī)律的文獻(xiàn)研究[J].河南中醫(yī), 20xx, 32 (4) :518-519.
[11]陳元川, 王翔, 龐堅(jiān), 等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫(yī)藥雜志, 20xx, 48 (6) :78-80.
[12]謝輝, 劉軍, 潘建科, 等.基于數(shù)據(jù)挖掘方法的神經(jīng)根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結(jié)合雜志, 20xx, 10 (6) :849-852.
[13]唐仕歡, 楊洪軍.中醫(yī)組方用藥規(guī)律研究進(jìn)展述評(píng)[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志, 20xx (5) :359-363.
數(shù)據(jù)挖掘論文13
一、在對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘方面存在的問(wèn)題和局限
1.1對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘技術(shù)有限
據(jù)有關(guān)調(diào)查,目前的信息技術(shù)行業(yè)對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘在技術(shù)方面還是存在局限與問(wèn)題的;從客觀層面上來(lái)講,沒(méi)有哪一種計(jì)算機(jī)的技術(shù)可以完全杜絕或制止計(jì)算機(jī)病毒對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)的侵入和威脅,這種糟糕情況的出現(xiàn),不僅給單個(gè)計(jì)算機(jī)的系統(tǒng)造成損害,而且給整個(gè)計(jì)算機(jī)技術(shù)行業(yè)在某些時(shí)候也會(huì)造成不必要的損失和危害。所以說(shuō),開(kāi)創(chuàng)有關(guān)減弱甚至是消滅計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的計(jì)算機(jī)技術(shù)就顯得尤為重要。
1.2對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘效率極低
我們都知道,可以利用相應(yīng)的計(jì)算機(jī)技術(shù)來(lái)對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行挖掘,但是就目前而言,單一而又較為簡(jiǎn)單的計(jì)算機(jī)技術(shù)很難高效地對(duì)數(shù)據(jù)進(jìn)行挖掘,只能夠從具有病毒的數(shù)據(jù)庫(kù)中挖掘出極少數(shù)數(shù)據(jù)甚至是挖掘不出來(lái)。所以說(shuō),提高計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘效率也就顯得尤為重要。
1.3對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘成本較高
值得注意的`是,某些計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)中的數(shù)據(jù)是值得使用和發(fā)揮作用的,所以,計(jì)算機(jī)行業(yè)的某些操作人員就會(huì)盡可能采用多種渠道和方法來(lái)對(duì)有用的數(shù)據(jù)進(jìn)行挖掘和分析,這樣一來(lái),通;ㄙM(fèi)的成本就會(huì)相對(duì)地高,不免也就會(huì)給某些企業(yè)造成沉重的負(fù)擔(dān)。所以說(shuō),降低對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘成本就顯得尤為重要了。
二、計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘的策略與方法
2.1實(shí)施相應(yīng)的計(jì)算機(jī)病毒監(jiān)控技術(shù)
如何進(jìn)一步地減弱計(jì)算機(jī)病毒對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)的侵入和威脅,我們需要慎重考慮,而實(shí)施相應(yīng)的計(jì)算機(jī)病毒監(jiān)控技術(shù)已成為此時(shí)的無(wú)疑之策;進(jìn)一步來(lái)說(shuō),就是設(shè)置多種監(jiān)控技術(shù),例如設(shè)置內(nèi)存監(jiān)控,配備相應(yīng)的文件監(jiān)控,還有就是注冊(cè)不同的表監(jiān)控等等,這些都是有效地減弱甚至是防止計(jì)算機(jī)病毒侵襲數(shù)據(jù)庫(kù)的監(jiān)控技術(shù)。總之,我們通過(guò)這些技術(shù),就會(huì)盡可能的從計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)中挖掘出需要的數(shù)據(jù)。
2.2配置適當(dāng)?shù)挠?jì)算機(jī)病毒源的追蹤設(shè)備
據(jù)有關(guān)部門(mén)調(diào)查,目前使用較為有效的計(jì)算機(jī)病毒源的追蹤設(shè)備就是郵件追蹤設(shè)備,它能夠有效地通過(guò)相應(yīng)的消息或指令來(lái)對(duì)計(jì)算機(jī)的查詢(xún)進(jìn)行追蹤,這樣就能夠高效地檢測(cè)出是否有計(jì)算機(jī)病毒侵入。依據(jù)這種情況,我們可以進(jìn)一步開(kāi)拓思維,尤其是計(jì)算機(jī)行業(yè)的管理員和操作人員,更應(yīng)該為計(jì)算機(jī)設(shè)計(jì)出以及配置適當(dāng)?shù)牟煌挠?jì)算機(jī)病毒源的追蹤設(shè)備,從而使人們?cè)谟?jì)算機(jī)病毒侵入數(shù)據(jù)庫(kù)的情況下,仍然能夠得到自己想要的正常數(shù)據(jù)。
2.3設(shè)置獨(dú)特的計(jì)算機(jī)反病毒數(shù)據(jù)庫(kù)
所謂的計(jì)算機(jī)反病毒數(shù)據(jù)庫(kù),就是在計(jì)算機(jī)操作系統(tǒng)的底部值入反病毒的指令或程序,讓它成為計(jì)算機(jī)系統(tǒng)內(nèi)部數(shù)據(jù)庫(kù)的底層模塊,而不是計(jì)算機(jī)系統(tǒng)外部的某種軟件。這樣一來(lái),當(dāng)計(jì)算機(jī)的病毒侵入系統(tǒng)內(nèi)數(shù)據(jù)庫(kù)時(shí),就會(huì)被底層的反病毒程序代碼或指令反攻出來(lái),就進(jìn)一步達(dá)到了減弱甚至消除計(jì)算機(jī)病毒對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)的侵襲和威脅的目的,那么我們這時(shí)就可以挖掘出必需的數(shù)據(jù)了。
三、結(jié)束語(yǔ)
概而言之,就現(xiàn)在的計(jì)算機(jī)病毒來(lái)說(shuō),可謂是呈現(xiàn)日益猖獗的態(tài)勢(shì);也就是說(shuō),計(jì)算機(jī)技術(shù)迅速發(fā)展了,計(jì)算機(jī)病毒也就會(huì)跟其迅速“發(fā)展”。我們想要有效地遏制住計(jì)算機(jī)病毒,從計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)中挖掘出必需的數(shù)據(jù),對(duì)于普通人來(lái)說(shuō)就應(yīng)該多多了解一些預(yù)防計(jì)算機(jī)病毒侵入的知識(shí);而對(duì)于計(jì)算機(jī)行業(yè)的管理員或操作人員來(lái)說(shuō),就應(yīng)該多設(shè)計(jì)出一些遏制計(jì)算機(jī)病毒侵襲的軟件或方案,從而使我們的計(jì)算機(jī)環(huán)境更干凈,更安全。
數(shù)據(jù)挖掘論文14
網(wǎng)絡(luò)經(jīng)濟(jì)的關(guān)鍵在于能夠?yàn)樯唐返墓⿷?yīng)商及其合作者之間提供一個(gè)交流的平臺(tái),但是即便是最權(quán)威的搜索引擎也只能夠搜索到三分之一的web網(wǎng)頁(yè),并且這些Web都是沒(méi)有結(jié)構(gòu)的、動(dòng)態(tài)的、復(fù)雜的形式出現(xiàn)。人們要從各種各樣的文本網(wǎng)站中尋找自己想要的信息進(jìn)而變得更加困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)就是用來(lái)解決這一問(wèn)題的好辦法,利用數(shù)據(jù)挖掘技術(shù)能夠有效發(fā)現(xiàn)在web網(wǎng)頁(yè)中隱藏著的對(duì)用戶有力的數(shù)據(jù)信息,在對(duì)數(shù)據(jù)的分析中總結(jié)出規(guī)律。如何實(shí)現(xiàn)用戶對(duì)于Web上的有效數(shù)據(jù)的深度挖掘,使其成為工商管理領(lǐng)域中的重要應(yīng)用,成為了當(dāng)代許多網(wǎng)絡(luò)工作者所關(guān)注的話題。
一、數(shù)據(jù)挖掘概述
。ㄒ唬⿺(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DataMining)指的是,在大量的、不規(guī)則的、隨機(jī)的、復(fù)雜的、有噪聲的實(shí)際應(yīng)用數(shù)據(jù)中,獲得一些信息和知識(shí),能夠?qū)τ脩羝矶\潛在作用的效果的過(guò)程。將數(shù)據(jù)挖掘用通俗的話來(lái)描述就是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)潛在有用的知識(shí)發(fā)現(xiàn)(KDDKnowledgeDiscoveryinDatabase)。在這個(gè)定義中主要包含了以下幾方面的含義:首先數(shù)據(jù)源的特性是大量、隨機(jī)、不規(guī)則、噪聲;信息是客戶所感興趣的對(duì)象;選取的知識(shí)必須是在可接受、可理解、可運(yùn)用的范圍內(nèi)的,并不是全部符合要求的都可以,對(duì)于問(wèn)題要有一定的針對(duì)性。也就是說(shuō)對(duì)于所發(fā)現(xiàn)的知識(shí)的篩選是有一定的約束和限制條件的,同時(shí)也要符合用戶的理解和學(xué)習(xí)能力,最好還能夠用通俗的語(yǔ)言來(lái)表達(dá)最終的結(jié)果。
。ǘ¦eb數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘?qū)嶋H上是屬于數(shù)據(jù)挖掘的范疇的。概括的來(lái)說(shuō),Web數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)特定的就是Web服務(wù)器上的數(shù)據(jù)文件,從中發(fā)現(xiàn)用戶感興趣并有所應(yīng)用潛能的知識(shí)。Web數(shù)據(jù)挖掘主要針對(duì)的就是頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息、電子商務(wù)等內(nèi)在信息,通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)獲得有價(jià)值的信息。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)存在著很大的差異,傳統(tǒng)的數(shù)據(jù)庫(kù)都是在一定的數(shù)學(xué)模型范圍之內(nèi)的,通過(guò)模型來(lái)描述其中的數(shù)據(jù);但是web數(shù)據(jù)庫(kù)相對(duì)來(lái)講就要復(fù)雜許多,沒(méi)有通用的模型來(lái)描述數(shù)據(jù),每個(gè)網(wǎng)頁(yè)都有其獨(dú)特的數(shù)據(jù)描述方式,丙炔數(shù)據(jù)自身都是可變的、動(dòng)態(tài)的。因而,Web數(shù)據(jù)雖然具有一定的結(jié)構(gòu)性,不能用架構(gòu)化的形式來(lái)表達(dá),也可以稱(chēng)其為半結(jié)構(gòu)化的數(shù)據(jù)。Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫(kù)成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)。
二、網(wǎng)絡(luò)數(shù)據(jù)挖掘的類(lèi)型
。ㄒ唬┚W(wǎng)絡(luò)內(nèi)容挖掘
網(wǎng)絡(luò)內(nèi)容挖掘的對(duì)象是網(wǎng)頁(yè)的內(nèi)容、數(shù)據(jù)、文檔,這通常也是網(wǎng)頁(yè)在急性搜索的時(shí)候需要考察的訪問(wèn)對(duì)象。由于網(wǎng)絡(luò)信息繁多,按照信息源的不同可以劃分為Gopher、FTP、Usenet等已經(jīng)隱藏到WWW形式之后的資源,我們稱(chēng)之為WWW信息資源,存儲(chǔ)于數(shù)據(jù)庫(kù)管理信息系統(tǒng)中的數(shù)據(jù),以及不能直接訪問(wèn)的私人數(shù)據(jù)。按照網(wǎng)絡(luò)資源的形式又可以劃分為文本、圖像、音頻、視頻等數(shù)據(jù)。
。ǘ┚W(wǎng)絡(luò)結(jié)構(gòu)挖掘
網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對(duì)象就是Web潛在的鏈接結(jié)構(gòu)模式。這種類(lèi)型最早出現(xiàn)在引文分析,在建立web自身的鏈接結(jié)構(gòu)模型的時(shí)候借鑒了網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象。在網(wǎng)頁(yè)歸類(lèi)的時(shí)候往往會(huì)采用這種模式,還能夠得到不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘能夠幫助用戶在相關(guān)領(lǐng)域中找到最有分量的網(wǎng)站。
。ㄈ┚W(wǎng)絡(luò)用法挖掘
網(wǎng)絡(luò)用法挖掘的目的在于掌握用戶的一系列網(wǎng)絡(luò)行為數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘針對(duì)的都是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘針對(duì)的是用戶在上網(wǎng)過(guò)程中的人機(jī)交互的第二手?jǐn)?shù)據(jù),主要有用戶的網(wǎng)頁(yè)游覽記錄、代理服務(wù)器日志記錄、網(wǎng)頁(yè)維護(hù)信息、用戶簡(jiǎn)介、注冊(cè)信息、聊天記錄、交易信息等等。
三、網(wǎng)絡(luò)經(jīng)濟(jì)環(huán)境下數(shù)據(jù)挖掘在工商管理中的運(yùn)用步驟
。ㄒ唬┳R(shí)別網(wǎng)站訪問(wèn)者的特征信息
企業(yè)對(duì)電子商務(wù)網(wǎng)站的`數(shù)據(jù)進(jìn)行挖掘的第一步,就是要明確訪問(wèn)者的特點(diǎn),找出訪問(wèn)者使用的條款特征。訪問(wèn)者特征主要有入口統(tǒng)計(jì)、心理狀態(tài)和技術(shù)手段等要素。人口統(tǒng)計(jì)并不是一成不變的,比如家庭地址、收入、購(gòu)買(mǎi)力等因素都會(huì)不斷改變。心理狀態(tài)指的是在心理調(diào)研中展現(xiàn)出的個(gè)性類(lèi)型,比如對(duì)商品的選擇去世、價(jià)格優(yōu)惠心理、技術(shù)興趣等。隨著訪問(wèn)者數(shù)量的增加,相關(guān)數(shù)據(jù)也會(huì)不斷累積。條款的交互信息主要包括購(gòu)買(mǎi)歷史、廣告歷史和優(yōu)選信息。網(wǎng)站統(tǒng)計(jì)信息是指每次會(huì)話的相關(guān)要素。公司信息主要包括訪問(wèn)者對(duì)接的服務(wù)器所包含的一系列要素信息。
。ǘ┲贫繕(biāo)
開(kāi)展網(wǎng)上交易的最大優(yōu)勢(shì)在于企業(yè)對(duì)于訪問(wèn)者的反應(yīng)有著更好的前瞻性。當(dāng)廠商的目標(biāo)是明確且具象的時(shí)候,就能夠通過(guò)數(shù)據(jù)挖掘技術(shù)得到較好的效果。企業(yè)通?梢栽O(shè)定以下的目標(biāo):網(wǎng)頁(yè)訪問(wèn)者的增加量;類(lèi)此網(wǎng)頁(yè)訪問(wèn)的瀏覽時(shí)間增加;每次結(jié)賬的平均利潤(rùn);退換貨的減少;品牌知名度效應(yīng);回頭客的數(shù)量等等。
。ㄈ﹩(wèn)題描述
開(kāi)展電子商務(wù)的企業(yè)最關(guān)鍵要面對(duì)的一個(gè)問(wèn)題就是如何進(jìn)行商品的傳播,要實(shí)現(xiàn)網(wǎng)頁(yè)的個(gè)性化又要將商品的信息完整的展現(xiàn)給顧客,就需要了解同一類(lèi)訪問(wèn)者的共有特征、估計(jì)貨物丟失的數(shù)據(jù)并預(yù)測(cè)未來(lái)行為。所有這一切都涉及尋找并支持各種不同的隱含模式。
。ㄋ模╆P(guān)聯(lián)分析
對(duì)顧客大量的交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)顧客購(gòu)買(mǎi)組合商品的趨勢(shì)。關(guān)聯(lián)分析指的是在一次瀏覽或者會(huì)話中所涉及到的商品,也叫做市場(chǎng)分析。若電子商務(wù)網(wǎng)站能夠?qū)⑦@些商品放在同一個(gè)網(wǎng)頁(yè)中,就能夠提高顧客同時(shí)購(gòu)買(mǎi)這些商品的概率。如果在關(guān)聯(lián)的一組商品中有某一項(xiàng)商品正在進(jìn)行促銷(xiāo),就能夠帶動(dòng)其他組合產(chǎn)品的銷(xiāo)量。關(guān)聯(lián)也能夠用在靜態(tài)的網(wǎng)站目錄網(wǎng)頁(yè)。在這種情況下,網(wǎng)站排序的主要依據(jù)是廠商選擇的且是網(wǎng)站所要查看的第一頁(yè)內(nèi)容,將其以及其相關(guān)的商品信息放在網(wǎng)頁(yè)的首頁(yè)。
。ㄎ澹┚垲(lèi)
聚類(lèi)指的是將具有相同特征的商品歸為一類(lèi),將特征平均,以形成一個(gè)“特征矢量”。聚類(lèi)技術(shù)能夠確定一組數(shù)據(jù)有多少類(lèi),并用其中一個(gè)聚類(lèi)來(lái)表示其余大多數(shù)數(shù)據(jù)。通常在企業(yè)分析訪問(wèn)者類(lèi)型的時(shí)候使用聚類(lèi)技術(shù)。
。Q策樹(shù)
決策樹(shù)描繪的是都想決定在做出的一系列過(guò)程中的問(wèn)題或數(shù)據(jù)點(diǎn)。比如做出購(gòu)買(mǎi)電視機(jī)這一決定就要經(jīng)歷對(duì)于電視機(jī)的需求、電視機(jī)的品牌、尺寸等等問(wèn)題,最終確定好買(mǎi)哪一臺(tái)電視機(jī)為止。決策樹(shù)能夠較一個(gè)決策過(guò)程進(jìn)行系統(tǒng)的排序,以便選出最優(yōu)的路徑來(lái)盡可能減少?zèng)Q策的步驟,提高決定的質(zhì)量和速度。許多企業(yè)將決策樹(shù)體系添加到自己的產(chǎn)品選擇系統(tǒng)中,能夠幫助訪問(wèn)者解決特定問(wèn)題。
。ㄆ撸┕烙(jì)和預(yù)測(cè)
估計(jì)是對(duì)未知量的判斷,預(yù)測(cè)是根據(jù)當(dāng)前的趨勢(shì)做出將來(lái)的判斷。估計(jì)和預(yù)測(cè)使用的算法類(lèi)似。估計(jì)能夠?qū)蛻艨瞻椎捻?xiàng)目做到預(yù)判。如果網(wǎng)站想知道某個(gè)訪問(wèn)者的收入,就可以通過(guò)與收入密切相關(guān)的量估計(jì)得到,最后通過(guò)與其有相同特征的訪問(wèn)者的收入來(lái)衡量這個(gè)訪問(wèn)者的收入和信用值。預(yù)測(cè)是對(duì)未來(lái)事項(xiàng)的判斷。尤其是在某些個(gè)性化網(wǎng)頁(yè)中顯得尤為重要。企業(yè)通過(guò)數(shù)據(jù)的匯總增進(jìn)對(duì)客戶的了解。即使是對(duì)以往事件的分析中也可以得到有效的信息。預(yù)測(cè)能夠?qū)υL問(wèn)者的特征作出總結(jié)和匯總,以便企業(yè)能夠找出更有針對(duì)性的組合商品來(lái)滿足客戶的需求。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)存在著很大的差異,最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫(kù)成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)。能夠幫助用戶在特性是大量、隨機(jī)、不規(guī)則、噪聲的信息中發(fā)現(xiàn)感興趣的對(duì)象。
數(shù)據(jù)挖掘論文15
1、大數(shù)據(jù)概述
大數(shù)據(jù)用來(lái)描述和定義信息爆炸時(shí)代所產(chǎn)生的海量數(shù)據(jù),它是計(jì)算機(jī)和互聯(lián)網(wǎng)互相結(jié)合的產(chǎn)物,計(jì)算機(jī)實(shí)現(xiàn)了信息的數(shù)字化,互聯(lián)網(wǎng)實(shí)現(xiàn)了信息的網(wǎng)絡(luò)共享化。隨之興起的則是從海量數(shù)據(jù)中挖掘預(yù)測(cè)出對(duì)人類(lèi)行為有效的方法和結(jié)果,即數(shù)據(jù)挖掘技術(shù)[1]。數(shù)據(jù)挖掘(Datamining)指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程,是一門(mén)跨多個(gè)領(lǐng)域的交叉學(xué)科,通常與人工智能、模式識(shí)別及計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。其特點(diǎn)為:海量數(shù)據(jù)尋知識(shí)、集成變換度量值、分析模式評(píng)效果、圖形界面來(lái)展示[2]。
2、大數(shù)據(jù)時(shí)代下的高校機(jī)房現(xiàn)狀
順應(yīng)時(shí)代潮流的發(fā)展,各高校都開(kāi)設(shè)有計(jì)算機(jī)專(zhuān)業(yè),非計(jì)算機(jī)專(zhuān)業(yè)也在大一或大二時(shí)期開(kāi)設(shè)公共計(jì)算機(jī)課程,計(jì)算機(jī)成為教育領(lǐng)域內(nèi)不可或缺的教學(xué)設(shè)備,隨著高校的進(jìn)一步擴(kuò)招,教育事業(yè)的不斷更新發(fā)展,學(xué)校的機(jī)房建設(shè)也隨之增多,其任務(wù)由原來(lái)的面向計(jì)算機(jī)專(zhuān)業(yè)發(fā)展到面向全校的所有專(zhuān)業(yè)開(kāi)設(shè)公共計(jì)算機(jī)教學(xué)、承擔(dān)各種計(jì)算機(jī)考試等多項(xiàng)任務(wù)。因此機(jī)房管理系統(tǒng)在日常教學(xué)和考試任務(wù)中積累了海量數(shù)據(jù),一般這些數(shù)據(jù)都保存在主服務(wù)器上僅供查詢(xún)使用[3]。利用數(shù)據(jù)挖掘技術(shù),對(duì)學(xué)校機(jī)房信息管理系統(tǒng)所積累的大量學(xué)生上機(jī)數(shù)據(jù)進(jìn)行深入分析與挖掘,將挖掘得到的預(yù)測(cè)結(jié)果輔助學(xué)生成績(jī)管理決策,能合理利用機(jī)房資源,提高學(xué)生成績(jī)管理質(zhì)量。本文利用關(guān)聯(lián)規(guī)則,從現(xiàn)有的機(jī)房信息管理系統(tǒng)中收集到的海量學(xué)生上機(jī)記錄數(shù)據(jù)中挖掘出隱藏在數(shù)據(jù)中的學(xué)生上機(jī)規(guī)律和上機(jī)效率,進(jìn)而預(yù)測(cè)學(xué)生的期末考試成績(jī),提前告知,學(xué)生可以在隨后的學(xué)習(xí)中通過(guò)人為干預(yù)學(xué)習(xí)過(guò)程:比如挖掘預(yù)測(cè)出某生成績(jī)將會(huì)較差,則可以在其后的學(xué)習(xí)中調(diào)整學(xué)習(xí)方式和學(xué)習(xí)態(tài)度,以修正期末考試結(jié)果,提高學(xué)習(xí)效率和考試通過(guò)率,為以后的就業(yè)做好鋪墊,因此不管是對(duì)于當(dāng)前利益還是長(zhǎng)遠(yuǎn)利益,都有深遠(yuǎn)的意義。
3、數(shù)據(jù)挖掘階段
1)定義問(wèn)題:明確數(shù)據(jù)挖掘的預(yù)期目標(biāo)。本次挖掘目標(biāo)旨在從海量機(jī)房學(xué)生登錄信息中找出能預(yù)測(cè)成績(jī)的相關(guān)規(guī)則。
2)數(shù)據(jù)準(zhǔn)備:提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集,并進(jìn)行預(yù)處理[4]。本次挖掘數(shù)據(jù)對(duì)象為吉首大學(xué)設(shè)備中心六樓公共計(jì)算機(jī)機(jī)房的學(xué)生上機(jī)信息表,并檢查數(shù)據(jù)的有效性、一致性、完整性,并去除噪聲,進(jìn)行預(yù)處理。
3)數(shù)據(jù)挖掘:根據(jù)上個(gè)步驟所提取數(shù)據(jù)的特點(diǎn)和類(lèi)型選擇相應(yīng)合適的算法,并在預(yù)處理過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。根據(jù)問(wèn)題定義,本次選擇關(guān)聯(lián)規(guī)則算法Apriori算法,進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)并預(yù)測(cè)。
4)分析挖掘結(jié)果:解釋評(píng)價(jià)數(shù)據(jù)挖掘的結(jié)果,并將其轉(zhuǎn)換成能被用戶所理解的規(guī)則。
5)運(yùn)用規(guī)則:通過(guò)分析挖掘結(jié)果,可以適當(dāng)進(jìn)行人工干預(yù),修正學(xué)習(xí)行為,使得最終結(jié)果達(dá)到理想學(xué)習(xí)效率。
4、數(shù)據(jù)挖掘在機(jī)房管理系統(tǒng)中的應(yīng)用
4.1關(guān)聯(lián)規(guī)則算法
Apriori算法采用逐層搜索的迭代方法,不需要復(fù)雜的理論推導(dǎo),易于實(shí)現(xiàn),是利用挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的一種算法;舅枷胧牵菏紫日页鏊械念l集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的'是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)[5]。
4.2關(guān)聯(lián)結(jié)果分析
以吉首大學(xué)實(shí)驗(yàn)室與設(shè)備管理中心為例,吉首大學(xué)實(shí)驗(yàn)室與設(shè)備管理中心下設(shè)置的公共計(jì)算機(jī)實(shí)驗(yàn)教學(xué)中心,負(fù)責(zé)學(xué)校公共計(jì)算機(jī)實(shí)驗(yàn)室建設(shè)與管理,組織實(shí)施公共計(jì)算機(jī)實(shí)驗(yàn)教學(xué)與開(kāi)放,完成基于計(jì)算機(jī)平臺(tái)進(jìn)行的計(jì)算機(jī)等級(jí)考試、普通話測(cè)試、各類(lèi)社會(huì)化考試等測(cè)試工作。其中承擔(dān)公共計(jì)算機(jī)教學(xué)的機(jī)房共有7間,每個(gè)機(jī)房平均配置95臺(tái)學(xué)生用計(jì)算機(jī)和一臺(tái)教師教學(xué)用計(jì)算機(jī),每臺(tái)電腦上都安裝有奧易機(jī)房管理軟件,學(xué)生每次上機(jī)都必須通過(guò)奧易軟件登錄界面輸入自己的學(xué)號(hào)和密碼才能進(jìn)入系統(tǒng)使用計(jì)算機(jī),從而收集到學(xué)生的上機(jī)登錄時(shí)間、離開(kāi)時(shí)間,教師端可以利用奧易軟件對(duì)任意學(xué)生電腦端進(jìn)行調(diào)換、抓屏、控制屏幕、考試、答疑等操作,所有數(shù)據(jù)存儲(chǔ)在機(jī)房管理端的后臺(tái)數(shù)據(jù)庫(kù)中,通過(guò)調(diào)用后臺(tái)數(shù)據(jù)庫(kù)中的學(xué)生上機(jī)情況數(shù)據(jù),進(jìn)行挖掘分析。由于數(shù)據(jù)量龐大,所以采用從起始順序抽樣的方法,抽取出20xx年11月5日的部分學(xué)生上機(jī)的相關(guān)數(shù)據(jù),去除不完整、不一致、有缺失的數(shù)據(jù),進(jìn)行預(yù)處理,為達(dá)到預(yù)測(cè)挖掘目標(biāo)提供正確的數(shù)據(jù)源。表1中的數(shù)據(jù)前六列是從奧易軟件后臺(tái)數(shù)據(jù)庫(kù)中提取到的原始數(shù)據(jù),我們?cè)O(shè)置第二、三、五列數(shù)據(jù)與學(xué)習(xí)情況有關(guān)聯(lián)。將這些數(shù)據(jù)存在于整合表中,剔除學(xué)號(hào)異常的記錄,即只要是學(xué)號(hào)異常,強(qiáng)制設(shè)定其上機(jī)情況為較差(異常學(xué)號(hào)學(xué)生,應(yīng)為重修生,是學(xué)習(xí)重點(diǎn)關(guān)注對(duì)象),為了方便系統(tǒng)分析,將關(guān)聯(lián)整合后的數(shù)據(jù)轉(zhuǎn)化為布爾類(lèi)型。登錄時(shí)間:S1:10:00;S2:遲到五分鐘;S3:遲到十分鐘;S4:遲到十分鐘以上。學(xué)號(hào):N1:正常學(xué)號(hào);N2:異常學(xué)號(hào)。下課時(shí)間:E1:正常下課時(shí)間;E2:提前五分鐘下課;E3:提前五至十分鐘下課;E4:提前十分鐘以上下課。利用關(guān)聯(lián)算法產(chǎn)生頻繁項(xiàng)集情況分析Q:Q1:優(yōu)秀;Q2:良好;Q3:一般;Q4:較差。利用Apriori算法挖掘關(guān)聯(lián)規(guī)則,可以得到學(xué)生上機(jī)情況規(guī)律:S1,E1→Q1;(S2,E2)/(S1,E2)→Q2/Q3;S4,E4→Q4評(píng)價(jià)結(jié)果:按照正常上課時(shí)間上機(jī)并且堅(jiān)持不早退的同學(xué)學(xué)習(xí)情況為優(yōu)秀;上課準(zhǔn)時(shí)但是提前五分鐘之內(nèi)下課的同學(xué)學(xué)習(xí)情況為良好;上課遲到五分鐘以?xún)?nèi)且下課也提前五分鐘的同學(xué)學(xué)習(xí)情況為一般;上課遲到十分鐘以上并且下課早退十分鐘以上的同學(xué)學(xué)習(xí)評(píng)估為較差。如果利用關(guān)聯(lián)算法得出某個(gè)學(xué)生的學(xué)習(xí)情況有三次為較差,就啟動(dòng)成績(jī)預(yù)警,提示并干預(yù)該生以后的上機(jī)學(xué)習(xí),督促其學(xué)習(xí)態(tài)度,提高學(xué)習(xí)效率,以避免期末考試掛科現(xiàn)象。
5、結(jié)束語(yǔ)
借數(shù)據(jù)挖掘促進(jìn)治理主體多元化[6],借關(guān)聯(lián)分析實(shí)現(xiàn)決策科學(xué)化[7].,本文利用關(guān)聯(lián)規(guī)則思路和算法,將吉首大學(xué)設(shè)備中心機(jī)房中存在的大量學(xué)生上機(jī)情況數(shù)據(jù)進(jìn)行分析挖掘,嘗試從學(xué)生上機(jī)相關(guān)數(shù)據(jù)中預(yù)測(cè)其學(xué)習(xí)情況,并根據(jù)預(yù)測(cè)結(jié)果有效提示學(xué)生的期末考試成績(jī)走向,引導(dǎo)該生在隨后的學(xué)習(xí)應(yīng)該更加有效,以達(dá)到避免出現(xiàn)最壞結(jié)果,從而提高期末考試通過(guò)率。
參考文獻(xiàn):
[1]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),20xx(4):57-80.
[2]王夢(mèng)雪.數(shù)據(jù)挖掘綜述[J].軟件導(dǎo)刊,20xx(10):135-137.
[3]袁露,王映龍,楊珺.關(guān)于高校計(jì)算機(jī)機(jī)房管理與維護(hù)的探討[J].電腦知識(shí)與技術(shù),20xx(18):4334-4335.
[4]李明江,唐穎,周力軍.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國(guó)新通信,20xx(22):66-67+74.
[5]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計(jì)算機(jī)研究與發(fā)展,20xx(1):45-54.
[6]黃夢(mèng)橋,李杰.因素挖掘法在投資學(xué)課程中的教學(xué)實(shí)踐[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,20xx(4):80-83.
[7]尹鵬飛,歐云.基于決策樹(shù)算法的銀行客戶分類(lèi)模型[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,20xx(5):29-32.
【數(shù)據(jù)挖掘論文】相關(guān)文章:
數(shù)據(jù)挖掘論文07-15
數(shù)據(jù)挖掘論文07-16
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文11-18
數(shù)據(jù)挖掘論文錦集15篇07-29
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文6篇11-18
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文(6篇)11-18