論文:大數(shù)據(jù)在高校中的應用研究
高校大數(shù)據(jù)及其處理架構(gòu)
高校中匯聚著大量的信息,從學生角度來看,包括聯(lián)系方式等基本信息,食堂消費、住宿晚歸等生活信息,選課、課后作業(yè)、借閱圖書、成績等學習信息,參與的社團、競賽、講座等第二課堂信息;從教師角度來看,包含教學任務、課件等教學信息,論文著作、科學研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學校的資產(chǎn)信息、師資信息、招生就業(yè)信息等。同時隨著移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術的興起,學校師生主動產(chǎn)生和由設備自動收集的信息越來越多,如微博、微信等社交信息,各類搜索點擊記錄信息等。上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復雜、產(chǎn)生頻率快的特點。這導致利用常用軟件工具捕獲、管理和處理此類數(shù)據(jù)所耗費時問超過了可容忍的時問。
大數(shù)據(jù)的處理流程與一般數(shù)據(jù)的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,將結(jié)果按照一定的標準統(tǒng)一存儲,利用合適的數(shù)據(jù)分析技術對存儲的數(shù)據(jù)進行分析從中提取有益的知識,并利用恰當?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析和數(shù)據(jù)展示。
數(shù)據(jù)抽取與集成
大數(shù)據(jù)的數(shù)據(jù)來源非常廣泛,既包括傳統(tǒng)的關系型數(shù)據(jù)庫,也包括半結(jié)構(gòu)化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)抽取和集成要解決的主要問題就是收集各種碎片化的數(shù)據(jù),對數(shù)據(jù)進行清洗,保證數(shù)據(jù)質(zhì)量,同時根據(jù)時問演進小斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實體及其之問的關系,最終將數(shù)據(jù)按照統(tǒng)一的格式進行存儲,以便提供給 上層用來進行數(shù)據(jù)分析。
目前高校已經(jīng)基本建立了完備的管理信息系統(tǒng)、學習管理系統(tǒng)等,在統(tǒng)一數(shù)據(jù)中心中積累了大量的結(jié)構(gòu)化數(shù)據(jù);同時各類系統(tǒng)中還散布著大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過一定處理后,可以轉(zhuǎn)化為更容易分析使用的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)分析
經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價值。傳統(tǒng)的數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等方法仍然可以用來對數(shù)據(jù)進行分析,只是需要根據(jù)大數(shù)據(jù)的特征進行調(diào)整。首先,為了實現(xiàn)對海量數(shù)據(jù)的分析,需要依據(jù)模型,將數(shù)據(jù)拆分處理,然后再將結(jié)果匯總,一個完整的分析可能會經(jīng)過多層類似的處理過程;其次,大數(shù)據(jù)的應用通常具有實時性的特點,數(shù)據(jù)的價值會隨著時問的流逝而遞減,因此分析方法需要平衡處理的效率和準確率;最后,大數(shù)據(jù)一般構(gòu)建在云計算平臺之上,分析方法需要考慮與云計算平臺的集成或做為一種云服務。
數(shù)據(jù)展示
數(shù)據(jù)分析得到的分析結(jié)果,需要以直觀可理解的方式呈獻給最終用戶,在大數(shù)據(jù)時代,數(shù)據(jù)分析產(chǎn)生的結(jié)果有可能也是非常大量的,且結(jié)果之問的關聯(lián)關系復雜、數(shù)據(jù)維度更多,數(shù)據(jù)可視化技術通過更加適合人類思維的圖形化的方式展示數(shù)據(jù)分析結(jié)果,已經(jīng)被證明是展示數(shù)據(jù)分析結(jié)果非常有效的方法。常見的可視化方法有:多維疊加式數(shù)據(jù)可視化、數(shù)據(jù)在空問、時問坐標中的變化和對比等,當然要將枯燥的信息轉(zhuǎn)換為美麗的、令人印象深刻的圖形,需要較高的技術素養(yǎng)和藝術素養(yǎng)。
大數(shù)據(jù)在高校中的典型應用
很多高校正在使用大數(shù)據(jù)分析技術解決遇到的實際問題,如美國德克薩斯大學利用大數(shù)據(jù)技術分析學校用戶使用行為產(chǎn)生的數(shù)據(jù),確定用戶行為異常,審計基礎環(huán)境,制定安全防護措施。其他的一些應用場景包括分析學生參與網(wǎng)絡課堂產(chǎn)生的數(shù)據(jù),進而確定如何改進課程講述方式,達到因材施教的教育目標。
高?梢栽诰蜆I(yè)情況分析、學習行為分析、學科規(guī)劃、心理咨詢、校友聯(lián)絡等方面借助大數(shù)據(jù)分析技術,挖掘數(shù)據(jù)中潛在的價值。
就業(yè)情況分析
當前市場經(jīng)濟高速發(fā)展、高校小斷擴招、就業(yè)制度改革小斷深化和畢業(yè)生數(shù)量逐年增加、社會整體就業(yè)形勢日益嚴峻,大學生就業(yè)問題己經(jīng)越來越成為目前大家共同關心的話題,研究大學生就業(yè)問題具有緊迫性和重要性。本文提出在大數(shù)據(jù)分析框架下的就業(yè)問題分析思路。
1.數(shù)據(jù)來源
傳統(tǒng)的就業(yè)分析一般從就業(yè)單位、就業(yè)地區(qū)、所在院系專業(yè)、性別、簽約類別、就業(yè)年份等維度來分析,得到的只是一般意義上的統(tǒng)計結(jié)果,對于指導單個學生的就業(yè)以及預測未來的就業(yè)情況發(fā)揮的作用比較有限。應用大數(shù)據(jù)分析技術,就可以將學生就業(yè)模型涉及到的學習情況、社團信息、生活信息、校外實習、參加的競賽及獲獎情況、所投公司當年的招聘計劃、歷屆學生在所投公司的表現(xiàn)等眾多的信息進行收集。以上海財經(jīng)大學為例,可以從各類系統(tǒng)中抽取學生的各類信息,構(gòu)成就業(yè)分析模型所需的各類數(shù)據(jù)。
2.數(shù)據(jù)抽取與存儲
針對數(shù)據(jù)來源的小同,我們采取小同的數(shù)據(jù)抽取方式,對于結(jié)構(gòu)良好的各信息系統(tǒng)的數(shù)據(jù),我們采用ETI工具如Kettle將數(shù)據(jù)抽取到數(shù)據(jù)庫中;對于Web網(wǎng)頁這類非結(jié)構(gòu)化數(shù)據(jù),通過進行抓取,對數(shù)據(jù)進行索引后存儲到數(shù)據(jù)庫中。數(shù)據(jù)庫是一個開源的高可靠性、高性能、可伸縮、并非建立在關系模型基礎上的分布式數(shù)據(jù)庫,用以存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。
3.數(shù)據(jù)分析
將就業(yè)分析模型所需的數(shù)據(jù)存儲在數(shù)據(jù)庫后,可以利用數(shù)據(jù)進行查詢和分析。提供了一種簡單的類SQI查詢語言,適合數(shù)據(jù)倉庫的統(tǒng)計分析。通過我們可以實現(xiàn)傳統(tǒng)數(shù)據(jù)倉庫所實現(xiàn)的對就業(yè)數(shù)據(jù)的匯總統(tǒng)計分析,而且可以容易的擴展其存儲能力和計算能力。
除了數(shù)據(jù)統(tǒng)計分析之外,我們還可以利用About這個機器學習工具對數(shù)據(jù)進行監(jiān)督學習和無監(jiān)督學習。監(jiān)督學習使用先驗知識對數(shù)據(jù)進行分類;無監(jiān)督學習則由計算機自己學習處理數(shù)據(jù),并在做出判斷后給予一定的激勵或懲罰。在進行就業(yè)分析時,我們可以使用About已經(jīng)實現(xiàn)的具體方法。首先是協(xié)作篩選,通過分析已就業(yè)學生的成績、參加的社團活動、關注的行業(yè)、性格特點、就業(yè)單位、就業(yè)崗位等,計算學生之問的相似度,為即將畢業(yè)的學生推薦適合的就業(yè)單位和崗位,提供個性化的服務;其次是聚類,這是一種無監(jiān)督的機器學習方法,我們可以通過小同的維度將未能及時就業(yè)的學生進行分析,從中找出其共同的特點,再通過比較在校學生的相關屬性,及時對學生給出預警,以便其在后續(xù)的學習和生活中加以改進。
4.數(shù)據(jù)展示
在數(shù)據(jù)展示層,我們可以使用軟件將分析的結(jié)果進行可視化的展示,將數(shù)據(jù)與美觀的圖表完美地結(jié)合在一起,它包含非常多的預定義的圖表格式,同時還可以將時問、地圖等多種維度在單一的圖表中進行展示。
學習行為分析
為了支持學生的自主學習,高校一般都有自己的學習管理系統(tǒng)等。這些學習管理系統(tǒng)為學生、教師提供了課程學習和交流的空問。美國教育部教育技術辦公室認為教育數(shù)據(jù)分為鍵擊層、回答層、學期層、學生層、教室層、教師層和學校層,數(shù)據(jù)就寓居在這些小同的層之中。一般高校每年的開課數(shù)在數(shù)千門,學生數(shù)在數(shù)萬人,產(chǎn)生的數(shù)據(jù)量非常大。應用大數(shù)據(jù)分析技術使得監(jiān)控學生的每一個學習行為變?yōu)榱丝赡,學生在回答一個問題時用了多長時問,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學生學習的'行為檔案創(chuàng)造適應性的學習系統(tǒng)能夠提高學生的學習效果。
學科規(guī)劃
促進學科交叉融合發(fā)展,構(gòu)筑有生命力的學科生態(tài),打造突顯核心競爭力的高水平學科是學校學科規(guī)劃的重要任務。借助大數(shù)據(jù)分析技術,充分收集各學科的教學狀態(tài)數(shù)據(jù)、科研項目數(shù)據(jù)、前沿發(fā)展動態(tài)等信息,從而分析學科建設存在的小足,確定學科未來發(fā)展的方向,發(fā)掘出潛在的具有國際視野的學科帶頭人。
自理咨詢
論壇、微博等平臺上每天都會產(chǎn)生由評論、帖子、留言等數(shù)據(jù),這些數(shù)據(jù)集反映了師生的思想情況、情感走向和行為動態(tài),對這些數(shù)據(jù)進行科學的存儲、管理并使用大數(shù)據(jù)技術進行有效的分析利用,建立師生思想情感模型,對掌握師生心理健康程度,有針對性地加強對師生的心理輔導有著重要的意義。
校友聯(lián)絡
校友資源猶如一座座寶藏,對高校的發(fā)展建設有著小可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯(lián)絡起來、團結(jié)起來,對學校的建設和發(fā)展具有重要意義。利用傳統(tǒng)的管理方法,僅校友信息收集就要耗費大量的時問和精力。利用大數(shù)據(jù)技術,收集各類社交網(wǎng)站上的非結(jié)構(gòu)化數(shù)據(jù),通過分類、聚類等數(shù)據(jù)挖掘方法,確定校友身份并收集其聯(lián)系方式、參加的活動信息等,可以大大提高校友數(shù)據(jù)收集的效率,為以后利用校友資源提供良好的基礎。
應用難點與對策
大數(shù)據(jù)在高校應用的美好前景令人神往,但目前大數(shù)據(jù)的應用還存在很多應用難點,主要有數(shù)據(jù)集成困難、數(shù)據(jù)分析方法有待改進和數(shù)據(jù)隱私問題。
數(shù)據(jù)集成
在很多高校中,因為管理信息系統(tǒng)設計時未考慮到對一些過程數(shù)據(jù)的收集,導致在分析時缺乏必要的數(shù)據(jù)來源,需要對應用系統(tǒng)進行擴展;同時對于定義良好的結(jié)構(gòu)化數(shù)據(jù)很多高校也尚未很好的集成。在大數(shù)據(jù)時代,異構(gòu)的數(shù)據(jù)類型、廣泛存在的數(shù)據(jù)來源、參差小齊的數(shù)據(jù)質(zhì)量給數(shù)據(jù)集成帶來了新的挑戰(zhàn)。高校應該探索融合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一模型,同時提高數(shù)據(jù)采集的質(zhì)量,強化數(shù)據(jù)文化。
數(shù)據(jù)分析方法
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的迅猛增長,給傳統(tǒng)的聚類、關聯(lián)分析等數(shù)據(jù)挖掘技術帶來了巨大的沖擊和挑戰(zhàn)。一方面,很多應用場景要求數(shù)據(jù)的實時分析;另一方面缺乏對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的先驗知識,難以構(gòu)建其問的關聯(lián)關系。高校需要緊密跟蹤業(yè)界對大數(shù)據(jù)分析方法的研究動態(tài),同時通過高校問的協(xié)作溝通探索新型的數(shù)據(jù)分析方法。
數(shù)據(jù)隱私
大數(shù)據(jù)分析的數(shù)據(jù)基礎必然建立在獲取更多個人信息之上,而且通過分析還可以使數(shù)據(jù)之問產(chǎn)生關聯(lián)關系,進而揭示更多的個人隱私。然而為了保護隱私就將所有數(shù)據(jù)加以隱藏,那么數(shù)據(jù)的價值就無法體現(xiàn)。這種矛盾在相當長的時問內(nèi)必將一直存在,需要通過技術和制度的完善逐步解決。
移動互聯(lián)等技術的小斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應對這種挑戰(zhàn),高校應當充分發(fā)揮大數(shù)據(jù)在其中的支撐作用。在人才培養(yǎng)、科學研究和管理等方面廣泛收集過程數(shù)據(jù),結(jié)合可視化技術充分分析和挖掘蘊含在數(shù)據(jù)之中的豐富價值。同時我們需要在高校內(nèi)倡導和強化數(shù)據(jù)文化,建立持久運作的收集、分析數(shù)據(jù)并將分析結(jié)果轉(zhuǎn)換為教育決策和實踐的體系,真正發(fā)揮大數(shù)據(jù)在高校發(fā)展中的價值。