數(shù)據(jù)挖掘論文精選5篇論文
數(shù)據(jù)挖掘論文一:
題目:數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢(shì)及應(yīng)用進(jìn)展
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù); 神經(jīng)根型頸椎病; 方劑; 綜述;
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術(shù), 它融匯了人工智能、模式別、模糊數(shù)學(xué)、數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)等多種技術(shù)方法, 專門用于海量數(shù)據(jù)的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識(shí), 其目的是發(fā)現(xiàn)規(guī)律而不是驗(yàn)證假設(shè)。數(shù)據(jù)挖掘技術(shù)主要適用于龐大的數(shù)據(jù)庫(kù)的研究, 其特點(diǎn)在于:基于數(shù)據(jù)分析方法角度的分類, 其本質(zhì)屬于觀察性研究, 數(shù)據(jù)來源于日常診療工作資料, 應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn), 分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選擇數(shù)據(jù), 數(shù)據(jù)處理, 挖掘分析, 結(jié)果解釋, 其中結(jié)果解釋是數(shù)據(jù)挖掘技術(shù)研究的關(guān)鍵。其方法包括分類、聚類、關(guān)聯(lián)、序列、決策樹、貝斯網(wǎng)絡(luò)、因子、辨別等分析[3], 其結(jié)果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當(dāng)今數(shù)據(jù)挖掘技術(shù)的方向主要在于:特定數(shù)據(jù)挖掘, 高效挖掘算法, 提高結(jié)果的有效性、確定性和表達(dá)性, 結(jié)果的可視化, 多抽象層上的交互式數(shù)據(jù)挖掘, 多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢(shì)和獨(dú)特性被運(yùn)用于多個(gè)領(lǐng)域中, 且結(jié)果運(yùn)用后取得顯著成效, 因此越來越多的中醫(yī)方劑研究者將其運(yùn)用于方劑中藥物的研究。
2 數(shù)據(jù)挖掘術(shù)在神經(jīng)根型頸椎病治方研究中的優(yōu)勢(shì)
中醫(yī)對(duì)于神經(jīng)根型頸椎病的治療準(zhǔn)則為辨證論治, 從古至今神經(jīng)根型頸椎病的中醫(yī)證型有很多, 其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合, 具有以“方-藥-證”為核心的多維結(jié)構(gòu)。方劑配伍本質(zhì)上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯(cuò)綜的關(guān)聯(lián)與對(duì)應(yīng)[5], 而中醫(yī)方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經(jīng)之別, 對(duì)于神經(jīng)根型頸椎病的治療, 治方中藥物的種類、炮制方法、用量、用法等都是千變?nèi)f化的, 而這些海量、模糊、看似隨機(jī)的藥物背后隱藏著對(duì)臨床有用的信息和規(guī)律, 但這些大數(shù)據(jù)是無法在可承受的時(shí)間范圍內(nèi)可用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的, 是需要一個(gè)新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力, 而數(shù)據(jù)挖掘技術(shù)有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識(shí), 揭示背后隱藏的關(guān)系和規(guī)則, 并且對(duì)未知的情況進(jìn)行預(yù)測(cè)[6]。再者, 中醫(yī)辨治充滿非線性思維, “方-藥-證”間的多層關(guān)聯(lián)、序列組合、集群對(duì)應(yīng), 形成了整體論的思維方式和原則, 而數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘在技術(shù)線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對(duì)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)以線性和非線性方式解析, 尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出癥的用藥規(guī)律時(shí), 選取了100張治方, 因該病病因病機(jī)復(fù)雜, 證候不一, 骨傷名師張玉柱先生對(duì)該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫(kù), 采用SPPS Clementine12.0軟件對(duì)這些數(shù)據(jù)的用藥頻次、藥物關(guān)聯(lián)規(guī)則及藥物聚類進(jìn)行分析, 最后總結(jié)出張氏骨傷治療腰椎間盤突出癥遵循病從肝治、病從血治、標(biāo)本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類自擬方。由此看出數(shù)據(jù)挖掘技術(shù)在方劑研究中的應(yīng)用對(duì)數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經(jīng)驗(yàn)的推廣具有重大意義, 因此數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。
3 數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎治方中的應(yīng)用進(jìn)展
神經(jīng)根型頸椎病在所有頸椎病中最常見, 約占50%~60%[8], 醫(yī)家對(duì)其治方的研究也是不計(jì)其數(shù)。近年來數(shù)據(jù)挖掘技術(shù)也被運(yùn)用于其治方研究中, 筆者通過萬方、中國(guó)知網(wǎng)等總共檢索出以下幾篇文獻(xiàn), 雖數(shù)量不多但其優(yōu)勢(shì)明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規(guī)律時(shí), 通過檢索《中華醫(yī)典》并從中篩選以治療頸項(xiàng)肩臂痛為主的古方219首并建立數(shù)據(jù)庫(kù), 對(duì)不同證治古方的用藥類別、總味數(shù)、單味藥使用頻數(shù)及藥對(duì) (組) 出現(xiàn)頻數(shù)進(jìn)行統(tǒng)計(jì), 總結(jié)出風(fēng)寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點(diǎn), 得出解表藥、祛風(fēng)濕藥、活血化瘀藥、補(bǔ)虛藥是治療頸項(xiàng)肩臂痛古方組成的主要藥物。古為今用, 該研究對(duì)于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考意義。齊兵獻(xiàn)等[10]檢索CNKI (1980-2009年) 相關(guān)文獻(xiàn)中治療神經(jīng)根型頸椎病的方劑建立數(shù)據(jù)庫(kù), 采用SPSS11.5統(tǒng)計(jì)軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較, 治療神經(jīng)根型頸椎病的中藥共計(jì)99味, 使用頻次479味次;所用藥物種類依次以補(bǔ)益藥、活血化瘀藥、祛風(fēng)濕藥運(yùn)用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經(jīng)以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補(bǔ)益藥、活血化瘀藥、祛風(fēng)濕藥等中藥運(yùn)用最多。這對(duì)于醫(yī)家治療該病選用藥物的性味、歸經(jīng)等具有指導(dǎo)意義。陳元川等[11]檢索2004年1月至2013年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關(guān)文獻(xiàn), 對(duì)其中的方劑和藥物進(jìn)行統(tǒng)計(jì)、歸類、分析, 最終納入32首方劑, 涉及111味中藥, 補(bǔ)氣藥、發(fā)散風(fēng)寒藥、活血止痛藥、補(bǔ)血藥等使用頻次較高;葛根、白芍、黃芪、當(dāng)歸、桂枝等藥物使用頻次較高, 證實(shí)與古方桂枝加葛根湯主藥相同, 且該方扶陽(yáng)解表的治法與該研究得出的扶正祛邪的結(jié)果相吻合, 同時(shí)也證實(shí)石氏傷科強(qiáng)調(diào)治傷科病當(dāng)“以氣為主, 以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關(guān)系在很多方面古今是一致的, 同時(shí)數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經(jīng)根型頸椎病治療提供有力的保障。謝輝等[12]收集2009至2014年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數(shù)據(jù)庫(kù), 采用關(guān)聯(lián)規(guī)則算法、復(fù)雜系統(tǒng)熵聚類等無監(jiān)督數(shù)據(jù)挖掘方法, 利用中醫(yī)傳承輔助平臺(tái) (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關(guān)聯(lián)規(guī)則、核心藥物組合和新處方, 從中挖掘出治療該病中醫(yī)中的常用藥物、藥對(duì), 闡明了治療該病以解肌散寒藥、補(bǔ)氣活血藥、祛風(fēng)勝濕藥和溫經(jīng)通絡(luò)藥為主, 治法主要包括解肌舒筋、益氣活血和補(bǔ)益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實(shí)其與很多古代經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規(guī)律是吻合的, 是臨床用藥的積累和升華, 可有效地指導(dǎo)臨床并提高療效;另一方面也為中藥新藥的創(chuàng)制提供處方來源, 指導(dǎo)新藥研發(fā)[13]。
4 小結(jié)
數(shù)據(jù)挖掘技術(shù)作為一種新型的研究技術(shù), 在神經(jīng)根型頸椎病的治方研究中的運(yùn)用相對(duì)于其他領(lǐng)域是偏少的, 并且基本上是研究文獻(xiàn)資料上出現(xiàn)的治方, 在對(duì)名老中醫(yī)個(gè)人治療經(jīng)驗(yàn)及用藥規(guī)律的總結(jié)是缺乏的, 因此研究范圍廣而缺乏針對(duì)性, 同時(shí)使用該技術(shù)的相關(guān)軟件種類往往是單一的,F(xiàn)在研究者在研究中醫(yī)方劑時(shí)往往采用傳統(tǒng)的研究方法, 這就導(dǎo)致在大數(shù)據(jù)的研究中耗時(shí)、耗力甚則無能為力, 同樣也難以精準(zhǔn)地提取大數(shù)據(jù)背后的隱藏的潛在關(guān)系和規(guī)則及缺乏對(duì)未知情況的預(yù)測(cè)。產(chǎn)生這樣的現(xiàn)狀, 一方面是很多研究者尚未清楚該技術(shù)在方劑研究中的優(yōu)勢(shì)所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術(shù)的操作技能及軟件種類及其應(yīng)用范圍。故以后應(yīng)向更多研究者普及該技術(shù)的軟件種類、其中的優(yōu)勢(shì)及操作技能, 讓該技術(shù)在臨床中使用更廣, 產(chǎn)生更大的效益。
參考文獻(xiàn)
[1]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國(guó)西部科技, 2010, 9 (5) :38-39.
[2]曹毅, 季聰華.臨床科研設(shè)計(jì)與分析[M].杭州:浙江科學(xué)技術(shù)出版社, 2015:189.
[3]王靜, 崔蒙.數(shù)據(jù)挖掘技術(shù)在中醫(yī)方劑學(xué)研究中的應(yīng)用[J].中國(guó)中醫(yī)藥信息雜志, 2008, 15 (3) :103-104.
[4]陳丈偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社, 2006:5.
[5]楊玉珠.數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用[J].河南科技, 2014, 10 (19) :21.
[6]余侃侃.數(shù)據(jù)挖掘技術(shù)在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國(guó)醫(yī)藥指南, 2008, 6 (24) :310-312.
[7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對(duì)腰椎間盤突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學(xué)學(xué)報(bào), 2016, 39 (6) :44-46.
[8]李曙明, 尹戰(zhàn)海, 王瑩.神經(jīng)根型頸椎病的影像學(xué)特點(diǎn)和分型[J].中國(guó)矯形外科雜志, 2013, 21 (1) :7-11.
[9]劉向前, 陳民, 黃廣平等.頸項(xiàng)肩臂痛內(nèi)治古方常用藥物的統(tǒng)計(jì)分析[J].中華中醫(yī)藥學(xué)刊, 2012, 30 (9) :42-44.
[10]齊兵獻(xiàn), 樊成虎, 李兆和.神經(jīng)根型頸椎病中醫(yī)用藥規(guī)律的文獻(xiàn)研究[J].河南中醫(yī), 2012, 32 (4) :518-519.
[11]陳元川, 王翔, 龐堅(jiān), 等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫(yī)藥雜志, 2014, 48 (6) :78-80.
[12]謝輝, 劉軍, 潘建科, 等.基于數(shù)據(jù)挖掘方法的神經(jīng)根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結(jié)合雜志, 2015, 10 (6) :849-852.
[13]唐仕歡, 楊洪軍.中醫(yī)組方用藥規(guī)律研究進(jìn)展述評(píng)[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志, 2013 (5) :359-363.
數(shù)據(jù)挖掘論文二:
題目:大數(shù)據(jù)挖掘在智游應(yīng)用中的探究
摘要:大數(shù)據(jù)和智游都是當(dāng)下的熱點(diǎn), 沒有大數(shù)據(jù)的智游無從談“智慧”, 數(shù)據(jù)挖掘是大數(shù)據(jù)應(yīng)用于智游的核心, 文章探究了在智游應(yīng)用中, 目前大數(shù)據(jù)挖掘存在的幾個(gè)問題。
關(guān)鍵詞:大數(shù)據(jù); 智游; 數(shù)據(jù)挖掘;
1引言
隨著人民生活水平的進(jìn)一步提高, 旅游消費(fèi)的需求進(jìn)一步上升, 在云計(jì)算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及移動(dòng)智能終端等信息通訊技術(shù)的飛速發(fā)展下, 智游應(yīng)運(yùn)而生。大數(shù)據(jù)作為當(dāng)下的熱點(diǎn)已經(jīng)成了智游發(fā)展的有力支撐, 沒有大數(shù)據(jù)提供的有利信息, 智游無法變得“智慧”。
2大數(shù)據(jù)與智游
旅游業(yè)是信息密、綜合性強(qiáng)、信息依存度高的產(chǎn)業(yè)[1], 這讓其與大數(shù)據(jù)自然產(chǎn)生了交匯。2010年, 江蘇省鎮(zhèn)江市首先提出“智游”的概念, 雖然至今國(guó)內(nèi)外對(duì)于智游還沒有一個(gè)統(tǒng)一的學(xué)術(shù)定義, 但在與大數(shù)據(jù)相關(guān)的描述中, 有學(xué)者從大數(shù)據(jù)挖掘在智游中的作用出發(fā), 把智游描述為:通過充分收集和管理所有類型和來源的旅游數(shù)據(jù), 并深入挖掘這些數(shù)據(jù)的潛在重要價(jià)值信息, 然后利用這些信息為相關(guān)部門或?qū)ο筇峁┓⻊?wù)[2]。這一定義充分肯定了在發(fā)展智游中, 大數(shù)據(jù)挖掘所起的至關(guān)重要的作用, 指出了在智游的過程中, 數(shù)據(jù)的收集、儲(chǔ)存、管理都是為數(shù)據(jù)挖掘服務(wù), 智游最終所需要的是利用挖掘所得的有用信息。
3大數(shù)據(jù)挖掘在智游中存在的問題
2011年, 我國(guó)提出用十年時(shí)間基本實(shí)現(xiàn)智游的目標(biāo)[3], 過去幾年, 國(guó)家旅游局的相關(guān)動(dòng)作均為了實(shí)現(xiàn)這一目標(biāo)。但是, 在借助大數(shù)據(jù)推動(dòng)智游的可持續(xù)性發(fā)展中, 大數(shù)據(jù)所產(chǎn)生的價(jià)值卻亟待提高, 原因之一就是在收集、儲(chǔ)存了大量數(shù)據(jù)后, 對(duì)它們深入挖掘不夠, 沒有發(fā)掘出數(shù)據(jù)更多的價(jià)值。
3.1 信息化建設(shè)
智游的發(fā)展離不開移動(dòng)網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云平臺(tái)。隨著大數(shù)據(jù)的不斷發(fā)展, 國(guó)內(nèi)許多景區(qū)已經(jīng)實(shí)現(xiàn)Wi-Fi覆蓋, 部分景區(qū)也已實(shí)現(xiàn)人與人、人與物、人與景點(diǎn)之間的實(shí)時(shí)互動(dòng), 多省市已建有旅游產(chǎn)業(yè)監(jiān)測(cè)平臺(tái)或旅游大數(shù)據(jù)中心以及數(shù)據(jù)可視化平臺(tái), 從中進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、行為分析、監(jiān)控預(yù)警、服務(wù)質(zhì)量監(jiān)督等。通過這些平臺(tái), 已基本能掌握跟游客和景點(diǎn)相關(guān)的數(shù)據(jù), 可以實(shí)現(xiàn)更好旅游監(jiān)控、產(chǎn)業(yè)宏觀監(jiān)控, 對(duì)該地的旅游管理和推廣都能發(fā)揮重要作用。
但從智慧化的發(fā)展來看, 我國(guó)的信息化建設(shè)還需加強(qiáng)。雖然通訊網(wǎng)絡(luò)已基本能保證, 但是大部分景區(qū)還無法實(shí)現(xiàn)對(duì)景區(qū)全面、透徹、及時(shí)的感知, 更為困難的是對(duì)平臺(tái)的建設(shè)。在數(shù)據(jù)共享平臺(tái)的建設(shè)上, 除了必備的硬件設(shè)施, 大數(shù)據(jù)實(shí)驗(yàn)平臺(tái)還涉及大量部門, 如政府管理部門、氣象部門、交通、電子商務(wù)、旅行社、旅游網(wǎng)站等。如此多的部門相關(guān)聯(lián), 要想建立一個(gè)完整全面的大數(shù)據(jù)實(shí)驗(yàn)平臺(tái), 難度可想而知。
3.2 大數(shù)據(jù)挖掘方法
大數(shù)據(jù)時(shí)代缺的不是數(shù)據(jù), 而是方法。大數(shù)據(jù)在旅游行業(yè)的應(yīng)用前景非常廣闊, 但是面對(duì)大量的數(shù)據(jù), 不懂如何收集有用的數(shù)據(jù)、不懂如何對(duì)數(shù)據(jù)進(jìn)行挖掘和利用, 那么“大數(shù)據(jù)”猶如礦山之中的廢石。旅游行業(yè)所涉及的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù), 通過云計(jì)算技術(shù), 對(duì)數(shù)據(jù)的收集、存儲(chǔ)都較為容易, 但對(duì)數(shù)據(jù)的挖掘分析則還在不斷探索中。大數(shù)據(jù)的挖掘常用的方法有關(guān)聯(lián)分析, 相似度分析, 距離分析, 聚類分析等等, 這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。其中, 相關(guān)性分析方法通過關(guān)聯(lián)多個(gè)數(shù)據(jù)來源, 挖掘數(shù)據(jù)價(jià)值。但針對(duì)旅游數(shù)據(jù), 采用這些方法挖掘數(shù)據(jù)的價(jià)值信息, 難度也很大, 因?yàn)槁糜螖?shù)據(jù)中冗余數(shù)據(jù)很多, 數(shù)據(jù)存在形式很復(fù)雜。在旅游非結(jié)構(gòu)化數(shù)據(jù)中, 一張圖片、一個(gè)天氣變化、一次輿情評(píng)價(jià)等都將會(huì)對(duì)游客的旅行計(jì)劃帶來影響。對(duì)這些數(shù)據(jù)完全挖掘分析, 對(duì)游客“行前、行中、行后”大數(shù)據(jù)的實(shí)時(shí)性挖掘都是很大的挑戰(zhàn)。
3.3 數(shù)據(jù)安全
2017年, 數(shù)據(jù)安全事件屢見不鮮, 伴著大數(shù)據(jù)而來的數(shù)據(jù)安全問題日益凸顯出來。在大數(shù)據(jù)時(shí)代, 無處不在的數(shù)據(jù)收集技術(shù)使我們的個(gè)人信息在所關(guān)聯(lián)的數(shù)據(jù)中心留下痕跡, 如何保證這些信息被合法合理使用, 讓數(shù)據(jù)“可用不可見”[4], 這是亟待解決的問題。同時(shí), 在大數(shù)據(jù)資源的開放性和共享性下, 個(gè)人隱私和公民權(quán)益受到嚴(yán)重威脅。這一矛盾的存在使數(shù)據(jù)共享程度與數(shù)據(jù)挖掘程度成反比。此外, 經(jīng)過大數(shù)據(jù)技術(shù)的分析、挖掘, 個(gè)人隱私更易被發(fā)現(xiàn)和暴露, 從而可能引發(fā)一系列社會(huì)問題。
大數(shù)據(jù)背景下的旅游數(shù)據(jù)當(dāng)然也避免不了數(shù)據(jù)的安全問題。如果游客“吃、住、行、游、娛、購(gòu)”的數(shù)據(jù)被放入數(shù)據(jù)庫(kù), 被完全共享、挖掘、分析, 那游客的人身財(cái)產(chǎn)安全將會(huì)受到嚴(yán)重影響, 最終降低旅游體驗(yàn)。所以, 數(shù)據(jù)的安全管理是進(jìn)行大數(shù)據(jù)挖掘的前提。
3.4 大數(shù)據(jù)人才
大數(shù)據(jù)背景下的智游離不開人才的創(chuàng)新活動(dòng)及技術(shù)支持, 然而與專業(yè)相銜接的大數(shù)據(jù)人才培養(yǎng)未能及時(shí)跟上行業(yè)需求, 加之創(chuàng)新型人才的外流, 以及數(shù)據(jù)統(tǒng)計(jì)未來3~5年大數(shù)據(jù)行業(yè)將面臨全球性的人才荒, 國(guó)內(nèi)智游的構(gòu)建還缺乏大量人才。
4解決思路
在信息化建設(shè)上, 加大政府投入, 加強(qiáng)基礎(chǔ)設(shè)施建設(shè), 整合結(jié)構(gòu)化數(shù)據(jù), 抓取非結(jié)構(gòu)化數(shù)據(jù), 打通各數(shù)據(jù)壁壘, 建設(shè)旅游大數(shù)據(jù)實(shí)驗(yàn)平臺(tái);在挖掘方法上, 對(duì)旅游大數(shù)據(jù)實(shí)時(shí)性數(shù)據(jù)的挖掘應(yīng)該被放在重要位置;在數(shù)據(jù)安全上, 從加強(qiáng)大數(shù)據(jù)安全立法、監(jiān)管執(zhí)法及強(qiáng)化技術(shù)手段建設(shè)等幾個(gè)方面著手, 提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全保護(hù)水平。加強(qiáng)人才的培養(yǎng)與引進(jìn), 加強(qiáng)產(chǎn)學(xué)研合作, 培養(yǎng)智游大數(shù)據(jù)人才。
參考文獻(xiàn)
[1]翁凱.大數(shù)據(jù)在智游中的應(yīng)用研究[J].信息技術(shù), 2015, 24:86-87.
[2]梁昌勇, 馬銀超, 路彩虹.大數(shù)據(jù)挖掘, 智游的核心[J].開發(fā)研究, 2015, 5 (180) :134-139.
[3]張建濤, 王洋, 劉力剛.大數(shù)據(jù)背景下智游應(yīng)用模型體系構(gòu)建[J].企業(yè)經(jīng)濟(jì), 2017, 5 (441) :116-123.
[4]王竹欣, 陳湉.保障大數(shù)據(jù), 從哪里入手?[N].人民郵電究, 2017-11-30.
數(shù)據(jù)挖掘論文三:
題目:檔案信息管理系統(tǒng)中的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)探討
摘要:伴隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步和發(fā)展, 數(shù)據(jù)挖掘技術(shù)成為數(shù)據(jù)處理工作中的重點(diǎn)技術(shù), 能借助相關(guān)算法搜索相關(guān)信息, 在節(jié)省人力資本的同時(shí), 提高數(shù)據(jù)檢索的實(shí)際效率, 基于此, 被廣泛應(yīng)用在數(shù)據(jù)密集型行業(yè)中。筆者簡(jiǎn)要分析了計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 并集中闡釋了檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立和技術(shù)實(shí)現(xiàn)過程, 以供參考。
關(guān)鍵詞:檔案信息管理系統(tǒng); 計(jì)算機(jī); 數(shù)據(jù)挖掘技術(shù); 1 數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)就是指在大量隨機(jī)數(shù)據(jù)中提取隱含信息, 并且將其整合后應(yīng)用在知識(shí)處理體系的技術(shù)過程。若是從技術(shù)層面判定數(shù)據(jù)挖掘技術(shù), 則需要將其劃分在商業(yè)數(shù)據(jù)處理技術(shù)中, 整合商業(yè)數(shù)據(jù)提取和轉(zhuǎn)化機(jī)制, 并且建構(gòu)更加系統(tǒng)化的分析模型和處理機(jī)制, 從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術(shù)能建構(gòu)完整的數(shù)據(jù)倉(cāng)庫(kù), 滿足集成性、時(shí)變性以及非易失性等需求, 整和數(shù)據(jù)處理和冗余參數(shù), 確保技術(shù)框架結(jié)構(gòu)的完整性。
目前, 數(shù)據(jù)挖掘技術(shù)常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應(yīng)用都十分廣泛。企業(yè)在實(shí)際工作過程中, 往往會(huì)利用數(shù)據(jù)源和數(shù)據(jù)預(yù)處理工具進(jìn)行數(shù)據(jù)定型和更新管理, 并且應(yīng)用聚類分析模塊、決策樹分析模塊以及關(guān)聯(lián)分析算法等, 借助數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理。
2 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立
2.1 客戶需求單元
為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢(shì), 要結(jié)合客戶的實(shí)際需求建立完整的處理框架體系。在數(shù)據(jù)庫(kù)體系建立中, 要適應(yīng)迭代式處理特征, 并且從用戶需求出發(fā)整合數(shù)據(jù)模型, 保證其建立過程能按照整體規(guī)劃有序進(jìn)行, 且能按照目標(biāo)和分析框架參數(shù)完成操作。首先, 要確立基礎(chǔ)性的數(shù)據(jù)倉(cāng)庫(kù)對(duì)象, 由于是檔案信息管理, 因此, 要集中劃分檔案數(shù)據(jù)分析的主題, 并且有效錄入檔案信息, 確保滿足檔案的數(shù)據(jù)分析需求。其次, 要對(duì)日常工作中的用戶數(shù)據(jù)進(jìn)行集中的挖掘處理, 從根本上提高數(shù)據(jù)倉(cāng)庫(kù)分析的完整性。
(1) 確定數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)性用戶, 其中, 主要包括檔案工作人員和使用人員, 結(jié)合不同人員的工作需求建立相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)。
(2) 檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進(jìn)行分類描述。
(3) 確定檔案的基礎(chǔ)性分類主題, 一般而言, 要將文書檔案歸檔情況、卷數(shù)等基礎(chǔ)性信息作為分類依據(jù)。
2.2 數(shù)據(jù)庫(kù)設(shè)計(jì)單元
在設(shè)計(jì)過程中, 要針對(duì)不同維度建立相應(yīng)的參數(shù)體系和組成結(jié)構(gòu), 并且有效整合組成事實(shí)表的主鍵項(xiàng)目, 建立框架結(jié)構(gòu)。
第一, 建立事實(shí)表。事實(shí)表是數(shù)據(jù)模型的核心單元, 主要是記錄相關(guān)業(yè)務(wù)和統(tǒng)計(jì)數(shù)據(jù)的表, 能整合數(shù)據(jù)倉(cāng)庫(kù)中的信息單元, 并且提升多維空間處理效果, 確保數(shù)據(jù)儲(chǔ)存過程切實(shí)有效。 (1) 檔案管理中文書檔案目錄卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類型Int, 字段為Id;文書歸檔年份, 字段類型Int, 字段為Gdyear_key;文書歸檔類型, 字段類型Int, 字段為Ajtm_key;文書歸檔單位, 字段類型Int, 字段為Gddw_key;文書檔案生成年份, 字段類型Int, 字段為Ajscsj_key, 以及文書檔案包括的文件數(shù)目。 (2) 檔案管理中文書檔案卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類型Int, 字段為Id;文書歸檔利用日期, 字段類型Int, 字段為Date_key;文書歸檔利用單位, 字段類型Int, 字段為Dw_key;文書歸檔利用類別, 字段類型Int, 字段為Dalb_key;文書歸檔利用年份, 字段類型Int, 字段為Dayear_key等[1]。
第二, 建立維度表, 在實(shí)際數(shù)據(jù)倉(cāng)庫(kù)建立和運(yùn)維工作中, 提高數(shù)據(jù)管理效果和水平, 確保建立循環(huán)和反饋的系統(tǒng)框架體系, 并且處理增長(zhǎng)過程和完善過程, 有效實(shí)現(xiàn)數(shù)據(jù)庫(kù)模型設(shè)計(jì)以及相關(guān)維護(hù)操作。首先, 要對(duì)模式的基礎(chǔ)性維度進(jìn)行分析并且制作相應(yīng)的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構(gòu)數(shù)據(jù)庫(kù)星型模型體系。最后, 要集中判定數(shù)據(jù)庫(kù)工具, 保證數(shù)據(jù)庫(kù)平臺(tái)在客戶管理工作方面具備一定的優(yōu)勢(shì), 集中制訂商務(wù)智能解決方案, 保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉(cāng)庫(kù)建模的效果, 真正提高數(shù)據(jù)抽取以及轉(zhuǎn)換工作的實(shí)際水平。需要注意的是, 在全面整合和分析處理數(shù)據(jù)的過程中, 要分離文書檔案中的數(shù)據(jù), 相關(guān)操作如下:
from dag gd temp//刪除臨時(shí)表中的數(shù)據(jù)
Ch count=dag 1.importfile (dbo.u wswj) //將文書目錄中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)窗口
Dag 1.() //將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時(shí)表
相關(guān)技術(shù)人員要對(duì)數(shù)據(jù)進(jìn)行有效處理, 以保證相關(guān)數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預(yù)處理管理要求合理化進(jìn)行, 從根本上維護(hù)數(shù)據(jù)處理效果。
2.3 多維數(shù)據(jù)模型建立單元
在檔案多維數(shù)據(jù)模型建立的過程中, 相關(guān)技術(shù)人員要判定聯(lián)機(jī)分析處理項(xiàng)目和數(shù)據(jù)挖掘方案, 整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等, 保證具體單元能發(fā)揮其實(shí)際作用, 并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性優(yōu)勢(shì)。
第一, 檔案事實(shí)表中的數(shù)據(jù)穩(wěn)定, 事實(shí)表是加載和處理檔案數(shù)據(jù)的基本模塊, 按照檔案目錄數(shù)據(jù)表和檔案利用情況表分析和判定其類別和歸檔時(shí)間, 從而提高數(shù)據(jù)獨(dú)立分析水平。一方面, 能追加有效的數(shù)據(jù), 保證數(shù)據(jù)倉(cāng)庫(kù)信息的基本質(zhì)量, 也能追加時(shí)間判定標(biāo)準(zhǔn), 能在實(shí)際操作中減少掃描整個(gè)表浪費(fèi)的時(shí)間, 從根本上提高實(shí)際效率。另一方面, 能刪除數(shù)據(jù), 實(shí)現(xiàn)數(shù)據(jù)更新, 檢索相關(guān)關(guān)鍵詞即可。并且也能同時(shí)修改數(shù)據(jù), 維護(hù)檔案撤出和檔案追加的動(dòng)態(tài)化處理效果。
第二, 檔案維表的安全性。在維表管理工作中, 檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關(guān)鍵, 由于其不會(huì)隨著時(shí)間的推移出現(xiàn)變化, 因此, 要對(duì)其進(jìn)行合理的處理和協(xié)調(diào)。維表本身的存儲(chǔ)空間較小, 盡管結(jié)構(gòu)發(fā)生變化的概率不大, 但仍會(huì)對(duì)代表的對(duì)象產(chǎn)生影響, 這就會(huì)使得數(shù)據(jù)出現(xiàn)動(dòng)態(tài)的變化。對(duì)于這種改變, 需要借助新維生成的方式進(jìn)行處理, 從而保證不同維表能有效連接, 整合正確數(shù)據(jù)的同時(shí), 也能對(duì)事實(shí)表外鍵進(jìn)行分析[2]。
3 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)
3.1 描述需求
隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)不斷進(jìn)步, 要提高檔案數(shù)字化水平以及完善信息化整合機(jī)制, 加快數(shù)據(jù)庫(kù)管控體系的更新, 確保設(shè)備存儲(chǔ)以及網(wǎng)絡(luò)環(huán)境一體化水平能滿足需求, 尤其是在檔案資源重組和預(yù)測(cè)項(xiàng)目中, 只有從根本上落實(shí)數(shù)據(jù)挖掘體系, 才能為后續(xù)信息檔案管理項(xiàng)目升級(jí)奠定堅(jiān)實(shí)基礎(chǔ)。另外, 在數(shù)據(jù)表和文書等基礎(chǔ)性數(shù)據(jù)結(jié)構(gòu)模型建立的基礎(chǔ)上, 要按照規(guī)律制定具有個(gè)性化的主動(dòng)性服務(wù)機(jī)制。
3.2 關(guān)聯(lián)計(jì)算
在實(shí)際檔案分析工作開展過程中, 關(guān)聯(lián)算法描述十分關(guān)鍵, 能對(duì)某些行為特征進(jìn)行統(tǒng)籌整合, 從而制定分析決策。在進(jìn)行關(guān)聯(lián)規(guī)則強(qiáng)度分析時(shí), 要結(jié)合支持度和置信度等系統(tǒng)化數(shù)據(jù)進(jìn)行綜合衡量。例如, 檔案數(shù)據(jù)庫(kù)中有A和B兩個(gè)基礎(chǔ)項(xiàng)集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時(shí)間出現(xiàn)的基礎(chǔ)性概率。若是兩者出現(xiàn)的概率并不大, 則證明兩者之間的關(guān)聯(lián)度較低。若是兩者出現(xiàn)的概率較大, 則說明兩者的關(guān)聯(lián)度較高。另外, 在分析置信度時(shí), 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關(guān)系。在出現(xiàn)置信度A的情況下, B的出現(xiàn)概率則是整體參數(shù)關(guān)系的關(guān)鍵, 若是置信度的數(shù)值達(dá)到100%, 則直接證明A和B能同一時(shí)間出現(xiàn)。
3.3 神經(jīng)網(wǎng)絡(luò)算法
除了要對(duì)檔案的實(shí)際內(nèi)容進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)庫(kù)建構(gòu), 也要對(duì)其利用情況進(jìn)行判定, 目前較為常見的利用率分析算法就是神經(jīng)網(wǎng)絡(luò)算法, 其借助數(shù)據(jù)分類系統(tǒng)判定和分析數(shù)據(jù)對(duì)象。值得注意的是, 在分類技術(shù)結(jié)構(gòu)中, 要結(jié)合訓(xùn)練數(shù)據(jù)集判定分類模型數(shù)據(jù)挖掘結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)算法類似于人腦系統(tǒng)的運(yùn)行結(jié)構(gòu), 能建立完整的信息處理單元, 并且能夠整合非線性交換結(jié)構(gòu), 確保能憑借歷史數(shù)據(jù)對(duì)計(jì)算模型和分類體系展開深度分析[3]。
3.4 實(shí)現(xiàn)多元化應(yīng)用
在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 能對(duì)檔案分類管理予以分析, 保證信息需求分類總結(jié)工作的完整程度。尤其是檔案使用者在對(duì)檔案具體特征進(jìn)行差異化分析的過程中, 能結(jié)合不同的元素對(duì)具體問題展開深度調(diào)研。一方面, 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)借助決策樹算法處理規(guī)則化的檔案分析機(jī)制。在差異化訓(xùn)練體系中, 要對(duì)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行系統(tǒng)化分析以及處理, 確保構(gòu)建要求能適應(yīng)數(shù)據(jù)挖掘的基本結(jié)構(gòu)[4]。例如, 檔案管理人員借助數(shù)據(jù)挖掘技術(shù)能整合檔案使用人員長(zhǎng)期瀏覽與關(guān)注的信息, 并且能集中收集和匯總間隔時(shí)間、信息查詢停留時(shí)間等, 從而建構(gòu)完整的數(shù)據(jù)分析機(jī)制, 有效向其推送或者是提供便捷化查詢服務(wù), 保證檔案管理數(shù)字化水平的提高。另一方面, 在檔案收集管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 主要是對(duì)數(shù)據(jù)信息進(jìn)行分析, 結(jié)合基本結(jié)果建立概念模型, 保證模型以及測(cè)試樣本之間的比較參數(shù)符合標(biāo)準(zhǔn), 從而真正建立更加系統(tǒng)化的分類框架體系。
4 結(jié)語(yǔ)
總而言之, 在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 能在準(zhǔn)確判定用戶需求的同時(shí), 維護(hù)數(shù)據(jù)處理效果, 并且減少檔案數(shù)字化的成本, 為后續(xù)工作的進(jìn)一步優(yōu)化奠定堅(jiān)實(shí)基礎(chǔ)。并且, 數(shù)據(jù)庫(kù)的建立, 也能節(jié)省經(jīng)費(fèi)和設(shè)備維護(hù)成本, 真正實(shí)現(xiàn)數(shù)字化全面發(fā)展的目標(biāo), 促進(jìn)檔案信息管理工作的長(zhǎng)效進(jìn)步。
參考文獻(xiàn)
[1]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用, 2016 (9) :285.
[2]王曉燕.數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用[J].蘭臺(tái)世界, 2014 (23) :25-26.
[3]韓吉義.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)的構(gòu)筑[J].山西檔案, 2015 (6) :61-63.
[4]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)構(gòu)建[J].山西檔案, 2016 (5) :105-107.
數(shù)據(jù)挖掘論文四: 題目:機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用
摘要:隨著科學(xué)技術(shù)的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應(yīng)用。其中機(jī)器學(xué)習(xí)算法就是一則典型案例——作為一種新型的算法, 其廣泛應(yīng)用于各行各業(yè)之中。本篇論文旨在探討機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的具體應(yīng)用, 我們利用龐大的移動(dòng)終端數(shù)據(jù)網(wǎng)絡(luò), 加強(qiáng)了基于GSM網(wǎng)絡(luò)的戶外終端定位, 從而提出了3個(gè)階段的定位算法, 有效提高了定位的精準(zhǔn)度和速度。
關(guān)鍵詞:學(xué)習(xí)算法; GSM網(wǎng)絡(luò); 定位; 數(shù)據(jù);
移動(dòng)終端定位技術(shù)由來已久, 其主要是利用各種科學(xué)技術(shù)手段定位移動(dòng)物體的精準(zhǔn)位置以及高度。目前, 移動(dòng)終端定位技術(shù)主要應(yīng)用于軍事定位、緊急救援、網(wǎng)絡(luò)優(yōu)化、地圖導(dǎo)航等多個(gè)現(xiàn)代化的領(lǐng)域, 由于移動(dòng)終端定位技術(shù)可以提供精準(zhǔn)的位置服務(wù)信息, 所以其在市場(chǎng)上還是有較大的需求的, 這也為移動(dòng)終端定位技術(shù)的優(yōu)化和發(fā)展, 提供了推動(dòng)力。隨著通信網(wǎng)絡(luò)普及, 移動(dòng)終端定位技術(shù)的發(fā)展也得到了一些幫助, 使得其定位的精準(zhǔn)度和速度都得到了全面的優(yōu)化和提升。同時(shí), 傳統(tǒng)的定位方法結(jié)合先進(jìn)的算法來進(jìn)行精準(zhǔn)定位, 目前依舊還是有較大的進(jìn)步空間。在工作中我選取機(jī)器學(xué)習(xí)算法結(jié)合數(shù)據(jù)挖掘技術(shù)對(duì)傳統(tǒng)定位技術(shù)加以改進(jìn), 取得了不錯(cuò)的效果, 但也遇到了許多問題, 例如:使用機(jī)器學(xué)習(xí)算法來進(jìn)行精準(zhǔn)定位暫時(shí)無法滿足更大的區(qū)域要求, 還有想要利用較低的設(shè)備成本, 實(shí)現(xiàn)得到更多的精準(zhǔn)定位的要求比較困難。所以本文對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行了深入的研究, 希望能夠幫助其更快速的定位、更精準(zhǔn)的定位, 滿足市場(chǎng)的需要。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫(kù)知識(shí)篩選中非常重要的一步。數(shù)據(jù)挖掘其實(shí)指的就是在大量的數(shù)據(jù)中通過算法找到有用信息的行為。一般情況下, 數(shù)據(jù)挖掘都會(huì)和計(jì)算機(jī)科學(xué)緊密聯(lián)系在一起, 通過統(tǒng)計(jì)集合、在線剖析、檢索篩選、機(jī)器學(xué)習(xí)、參數(shù)識(shí)別等多種方法來實(shí)現(xiàn)最初的目標(biāo)。統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法是數(shù)據(jù)挖掘算法里面應(yīng)用得比較廣泛的兩類。統(tǒng)計(jì)算法依賴于概率分析, 然后進(jìn)行相關(guān)性判斷, 由此來執(zhí)行運(yùn)算。
而機(jī)器學(xué)習(xí)算法主要依靠人工智能科技, 通過大量的樣本收集、學(xué)習(xí)和訓(xùn)練, 可以自動(dòng)匹配運(yùn)算所需的相關(guān)參數(shù)及模式。它綜合了數(shù)學(xué)、物理學(xué)、自動(dòng)化和計(jì)算機(jī)科學(xué)等多種學(xué)習(xí)理論, 雖然能夠應(yīng)用的領(lǐng)域和目標(biāo)各不相同, 但是這些算法都可以被獨(dú)立使用運(yùn)算, 當(dāng)然也可以相互幫助, 綜合應(yīng)用, 可以說是一種可以“因時(shí)而變”、“因事而變”的算法。在機(jī)器學(xué)習(xí)算法的領(lǐng)域, 人工神經(jīng)網(wǎng)絡(luò)是比較重要和常見的一種。因?yàn)樗膬?yōu)秀的數(shù)據(jù)處理和演練、學(xué)習(xí)的能力較強(qiáng)。
而且對(duì)于問題數(shù)據(jù)還可以進(jìn)行精準(zhǔn)的識(shí)別與處理分析, 所以應(yīng)用的頻次更多。人工神經(jīng)網(wǎng)絡(luò)依賴于多種多樣的建模模型來進(jìn)行工作, 由此來滿足不同的數(shù)據(jù)需求。綜合來看, 人工神經(jīng)網(wǎng)絡(luò)的建模, 它的精準(zhǔn)度比較高, 綜合表述能力優(yōu)秀, 而且在應(yīng)用的過程中, 不需要依賴專家的輔助力量, 雖然仍有缺陷, 比如在訓(xùn)練數(shù)據(jù)的時(shí)候耗時(shí)較多, 知識(shí)的理解能力還沒有達(dá)到智能化的標(biāo)準(zhǔn), 但是, 相對(duì)于其他方式而言, 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)依舊是比較突出的。
2 以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位
2.1 定位問題的建模
建模的過程主要是以支持向量機(jī)定位方式作為基礎(chǔ), 把定位的位置柵格化, 面積較小的柵格位置就是獨(dú)立的一種類別, 在定位的位置內(nèi), 我們收集數(shù)目龐大的終端測(cè)量數(shù)據(jù), 然后利用計(jì)算機(jī)對(duì)測(cè)量報(bào)告進(jìn)行分析處理, 測(cè)量柵格的距離度量和精準(zhǔn)度, 然后對(duì)移動(dòng)終端柵格進(jìn)行預(yù)估判斷, 最終利用機(jī)器學(xué)習(xí)進(jìn)行分析求解。
2.2 采集數(shù)據(jù)和預(yù)處理
本次研究, 我們采用的模型對(duì)象是我國(guó)某一個(gè)周邊長(zhǎng)達(dá)10千米的二線城市。在該城市區(qū)域內(nèi), 我們測(cè)量了四個(gè)不同時(shí)間段內(nèi)的數(shù)據(jù), 為了保證機(jī)器學(xué)習(xí)算法定位的精準(zhǔn)性和有效性, 我們把其中的三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù), 最后一組數(shù)據(jù)作為定位數(shù)據(jù), 然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓(xùn)練數(shù)據(jù)的相關(guān)信息進(jìn)行清除。一旦確定某一待定位數(shù)據(jù), 就要在不同的時(shí)間內(nèi)進(jìn)行測(cè)量, 按照測(cè)量出的數(shù)據(jù)信息的經(jīng)緯度和平均值, 再進(jìn)行換算, 最終, 得到真實(shí)的數(shù)據(jù)量, 提升定位的速度以及有效程度。
2.3 以基站的經(jīng)緯度為基礎(chǔ)的初步定位
用機(jī)器學(xué)習(xí)算法來進(jìn)行移動(dòng)終端定位, 其復(fù)雜性也是比較大的, 一旦區(qū)域面積增加, 那么模型和分類也相應(yīng)增加, 而且更加復(fù)雜, 所以, 利用機(jī)器學(xué)習(xí)算法來進(jìn)行移動(dòng)終端定位的過程, 會(huì)隨著定位區(qū)域面積的增大, 而耗費(fèi)更多的時(shí)間。利用基站的經(jīng)緯度作為基礎(chǔ)來進(jìn)行早期的定位, 則需要以下幾個(gè)步驟:要將邊長(zhǎng)為十千米的正方形分割成一千米的小柵格, 如果想要定位數(shù)據(jù)集內(nèi)的相關(guān)信息, 就要選擇對(duì)邊長(zhǎng)是一千米的小柵格進(jìn)行計(jì)算, 而如果是想要獲得邊長(zhǎng)一千米的大柵格, 就要對(duì)邊長(zhǎng)是一千米的柵格精心計(jì)算。
2.4 以向量機(jī)為基礎(chǔ)的二次定位
在完成初步定位工作后, 要確定一個(gè)邊長(zhǎng)為兩千米的正方形, 由于第一級(jí)支持向量機(jī)定位的區(qū)域是四百米, 定位輸出的是以一百米柵格作為中心點(diǎn)的經(jīng)緯度數(shù)據(jù)信息, 相對(duì)于一級(jí)向量機(jī)的定位而言, 二級(jí)向量機(jī)在定位計(jì)算的時(shí)候難度是較低的, 更加簡(jiǎn)便。后期的預(yù)算主要依賴決策函數(shù)計(jì)算和樣本向量機(jī)計(jì)算。隨著柵格的變小, 定位的精準(zhǔn)度將越來越高, 而由于增加分類的問題數(shù)量是上升的, 所以, 定位的復(fù)雜度也是相對(duì)增加的。
2.5 以K-近鄰法為基礎(chǔ)的三次定位
第一步要做的就是選定需要定位的區(qū)域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴經(jīng)緯度來確定邊長(zhǎng)面積, 這些都是進(jìn)行區(qū)域定位的基礎(chǔ)性工作, 緊接著就是定位模型的'訓(xùn)練。以K-近鄰法為基礎(chǔ)的三次定位需要的是綜合訓(xùn)練信息數(shù)據(jù), 對(duì)于這些信息數(shù)據(jù), 要以大小為選擇依據(jù)進(jìn)行篩選和合并, 這樣就能夠減少計(jì)算的重復(fù)性。當(dāng)然了, 選擇的區(qū)域面積越大, 其定位的速度和精準(zhǔn)性也就越低。
3 結(jié)語(yǔ)
近年來, 隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步, 數(shù)據(jù)挖掘技術(shù)愈加重要。根據(jù)上面的研究, 我們證明了, 在數(shù)據(jù)挖掘的過程中, 應(yīng)用機(jī)器學(xué)習(xí)算法具有舉足輕重的作用。作為一門多領(lǐng)域互相交叉的知識(shí)學(xué)科, 它能夠幫助我們提升定位的精準(zhǔn)度以及定位速度, 可以被廣泛的應(yīng)用于各行各業(yè)。所以, 對(duì)于機(jī)器學(xué)習(xí)算法, 相關(guān)人員要加以重視, 不斷的進(jìn)行改良以及改善, 切實(shí)的發(fā)揮其有利的方面, 將其廣泛應(yīng)用于智能定位的各個(gè)領(lǐng)域, 幫助我們解決關(guān)于戶外移動(dòng)終端的定位的問題。
參考文獻(xiàn)
[1]陳小燕, CHENXiaoyan.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù), 2015, v.38;No.451 (20) :11-14.
[2]李運(yùn).機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學(xué), 2014.
[3]莫雪峰.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯, 2016 (07) :175-178.
數(shù)據(jù)挖掘論文五: 題目:軟件工程數(shù)據(jù)挖掘研究進(jìn)展
摘要:數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開發(fā)出有價(jià)值信息數(shù)據(jù)的過程。計(jì)算機(jī)技術(shù)的不斷進(jìn)步, 通過人工的方式進(jìn)行軟件的開發(fā)與維護(hù)難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開發(fā)的效率, 并能夠在大量的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術(shù)的任務(wù)和存在的問題, 并重點(diǎn)論述軟件開發(fā)過程中出現(xiàn)的問題和相關(guān)的解決措施。
關(guān)鍵詞:軟件工程; 數(shù)據(jù)挖掘; 解決措施;
在軟件開發(fā)過程中, 為了能夠獲得更加準(zhǔn)確的數(shù)據(jù)資源, 軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時(shí)代, 人工獲取數(shù)據(jù)信息的難度極大。當(dāng)前, 軟件工程中運(yùn)用最多的就是數(shù)據(jù)挖掘技術(shù)。軟件挖掘技術(shù)是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在軟件工程方向的其中一部分。但是它具有自身的特征, 體現(xiàn)在以下三個(gè)方面:
(1) 在軟件工程中, 對(duì)有效數(shù)據(jù)的挖掘和處理;
(2) 挖掘數(shù)據(jù)算法的選擇問題;
(3) 軟件的開發(fā)者該如何選擇數(shù)據(jù)。
1 在軟件工程中數(shù)據(jù)挖掘的主要任務(wù)
在數(shù)據(jù)挖掘技術(shù)中, 軟件工程數(shù)據(jù)挖掘是其中之一, 其挖掘的過程與傳統(tǒng)數(shù)據(jù)的挖掘無異。通常包括三個(gè)階段:第一階段, 數(shù)據(jù)的預(yù)處理;第二階段, 數(shù)據(jù)的挖掘;第三階段, 對(duì)結(jié)果的評(píng)估。第一階段的主要任務(wù)有對(duì)數(shù)據(jù)的分類、對(duì)異常數(shù)據(jù)的檢測(cè)以及整理和提取復(fù)雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性, 但是也存在一定的差異, 其主要體現(xiàn)在以下三個(gè)方面:
1.1 軟件工程的數(shù)據(jù)更加復(fù)雜
軟件工程數(shù)據(jù)主要包括兩種, 一種是軟件報(bào)告, 另外一種是軟件的版本信息。當(dāng)然還包括一些軟件代碼和注釋在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數(shù)據(jù)挖掘復(fù)雜性的重要原因。
1.2 數(shù)據(jù)分析結(jié)果的表現(xiàn)更加特殊
傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果可以通過很多種結(jié)果展示出來, 最常見的有報(bào)表和文字的方式。但是對(duì)于軟件工程的數(shù)據(jù)挖掘來講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準(zhǔn)的案例, 軟件漏洞的實(shí)際定位以及設(shè)計(jì)構(gòu)造方面的信息, 同時(shí)也包括數(shù)據(jù)挖掘的統(tǒng)計(jì)結(jié)果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進(jìn)的結(jié)果提交方式和途徑。
1.3 對(duì)數(shù)據(jù)挖掘結(jié)果難以達(dá)成一致的評(píng)價(jià)
我國(guó)傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn), 而且評(píng)價(jià)體系相對(duì)成熟。但是軟件工程的數(shù)據(jù)挖掘過程中, 研發(fā)人員需要更多復(fù)雜而又具體的數(shù)據(jù)信息, 所以數(shù)據(jù)的表示方法也相對(duì)多樣化, 數(shù)據(jù)之間難以進(jìn)行對(duì)比, 所以也就難以達(dá)成一致的評(píng)價(jià)標(biāo)準(zhǔn)和結(jié)果。不難看出, 軟件工程數(shù)據(jù)挖掘的關(guān)鍵在于對(duì)挖掘數(shù)據(jù)的預(yù)處理和對(duì)數(shù)據(jù)結(jié)果的表示方法。
2 軟件工程研發(fā)階段出現(xiàn)的問題和解決措施
軟件在研發(fā)階段主要的任務(wù)是對(duì)軟件運(yùn)行程序的編寫。以下是軟件在編碼和結(jié)果的提交過程中出現(xiàn)的問題和相應(yīng)的解決措施。
2.1 對(duì)軟件代碼的編寫過程
該過程需要軟件的研發(fā)人員能夠?qū)ψ约盒枰帉懙拇a結(jié)構(gòu)與功能有充分的了解和認(rèn)識(shí)。并能夠依據(jù)自身掌握的信息, 在數(shù)據(jù)庫(kù)中搜集到可以使用的數(shù)據(jù)信息。通常情況下, 編程需要的數(shù)據(jù)信息可以分為三個(gè)方面:
(1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;
(2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規(guī)則, 比如繼承關(guān)系等。
(3) 軟件的開發(fā)人員搜尋可以重用的動(dòng)態(tài)規(guī)則。
包括軟件的接口調(diào)用順序等。在尋找以上信息的過程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實(shí)現(xiàn), 但是以上方式在搜集信息過程中往往會(huì)遇到較多的問題, 比如:幫助文檔的準(zhǔn)確性較低, 同時(shí)不夠完整, 可利用的重用信息不多等。
2.2 對(duì)軟件代碼的重用
在對(duì)軟件代碼重用過程中, 最關(guān)鍵的問題是軟件的研發(fā)人員必須掌握需要的類或方法, 并能夠通過與之有聯(lián)系的代碼實(shí)現(xiàn)代碼的重用。但是這種方式哦足跡信息將會(huì)耗費(fèi)工作人員大量的精力。而通過關(guān)鍵詞在代碼庫(kù)中搜集可重用的軟件代碼, 同時(shí)按照代碼的相關(guān)度對(duì)搜集到的代碼進(jìn)行排序, 該過程使用的原理就是可重用的代碼必然模式基本類似, 最終所展現(xiàn)出來的搜索結(jié)果是以上下文結(jié)構(gòu)的方式展現(xiàn)的。比如:類與類之間的聯(lián)系。其實(shí)現(xiàn)的具體流程如下:
(1) 軟件的開發(fā)人員創(chuàng)建同時(shí)具備例程和上下文架構(gòu)的代碼庫(kù);
(2) 軟件的研發(fā)人員能夠向代碼庫(kù)提供類的相關(guān)信息, 然后對(duì)反饋的結(jié)果進(jìn)行評(píng)估, 創(chuàng)建新型的代碼庫(kù)。
(3) 未來的研發(fā)人員在搜集過程中能夠按照評(píng)估結(jié)果的高低排序, 便于查詢, 極大地縮減工作人員的任務(wù)量, 提升其工作效率。
2.3 對(duì)動(dòng)態(tài)規(guī)則的重用
軟件工程領(lǐng)域內(nèi)對(duì)動(dòng)態(tài)規(guī)則重用的研究已經(jīng)相對(duì)成熟, 通過在編譯器內(nèi)安裝特定插件的方式檢驗(yàn)代碼是否為動(dòng)態(tài)規(guī)則最適用的, 并能夠?qū)⒉贿m合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:
(1) 軟件的研發(fā)人員能夠規(guī)定動(dòng)態(tài)規(guī)則的順序, 主要表現(xiàn)在:使用某一函數(shù)是不能夠調(diào)用其他的函數(shù)。
(2) 實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的保存, 可以通過隊(duì)列等簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)完成。在利用編譯拓展中檢測(cè)其中的順序。
(3) 能夠?qū)㈠e(cuò)誤的信息反饋給軟件的研發(fā)人員。
3 結(jié)束語(yǔ)
在軟件工程的數(shù)據(jù)挖掘過程中, 數(shù)據(jù)挖掘的概念才逐步被定義, 但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術(shù)在軟件工程中的運(yùn)用能夠降低研發(fā)人員的工作量, 同時(shí)軟件工程與數(shù)據(jù)挖掘的結(jié)合是計(jì)算機(jī)技術(shù)必然的發(fā)展方向。從數(shù)據(jù)挖掘的過程來講, 在其整個(gè)實(shí)施過程和周期中都包括軟件工程。而對(duì)數(shù)據(jù)挖掘的技術(shù)手段來講, 它在軟件工程中的運(yùn)用更加普遍。在對(duì)數(shù)據(jù)挖掘技術(shù)的研究過程中可以發(fā)現(xiàn), 該技術(shù)雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進(jìn)一步的研究和發(fā)現(xiàn)。
參考文獻(xiàn)
[1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開發(fā)測(cè)試技術(shù)[J].電子技術(shù)與軟件工程, 2017 (18) :64.
[2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術(shù)的運(yùn)用探索[J].數(shù)字通信世界, 2017 (09) :187.
[3]周雨辰.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].電腦迷, 2017 (08) :27-28.
[4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用方式[J].中國(guó)新通信, 2017, 19 (13) :119.
【數(shù)據(jù)挖掘論文論文】相關(guān)文章:
數(shù)據(jù)挖掘論文03-31
數(shù)據(jù)挖掘論文07-15
專利數(shù)據(jù)挖掘的論文06-26
網(wǎng)絡(luò)數(shù)據(jù)挖掘規(guī)劃論文04-03
數(shù)據(jù)挖掘在CRM中的應(yīng)用論文04-10
數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用論文04-26
大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘探討的論文04-26