時間:2023-03-17 18:06:04
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據庫論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
【摘要題】實踐研究
1調查情況介紹
為了配合中國高等教育文獻保障系統(CALIS)“十五”期間的建設和中國高等學校數字圖書館聯盟(CADLA,下稱聯盟)工作的開展,2002年4月,CALIS在成員館中間發放了《數字圖書館建設情況調查表》;2002年5月和6月在聯盟理事館(注:目前中國高等學校數字圖書館聯盟理事館都是CALIS成員館。)中間發放了《學位論文數據庫建設情況調查表》和《教學參考書數據庫情況調查表》。
截至2002年6月30日,共回收《數字圖書館建設情況調查表》89份,其中書面報告22份,電子版報告67份。這些調查報告中有29份來自綜合性院校,34份來自工科院校,9份來自人文社會科學類院校,來自其他專業性院校,如醫學類院校、農林院校和師范類院校的報告分別為5份、4份和6份。圖1給出對提交調查報告的學校按地區進行統計得到的結果。根據統計數字和圖表可以看到,此次在CALIS成員館中進行的數字圖書館建設情況調查具有一定的代表性,比較全面地反映了高校數字圖書館建設的整體情況。
圖1提交調查報告的學校按地區統計的結果
對于在22個聯盟理事館中間進行的“學位論文數據庫建設情況”和“教學參考書數據庫情況”重點調研,各單位均及時對調查內容進行了反饋。
針對上面的三份調查,本文第二部分從幾個主要方面對各成員館數字圖書館建設情況進行了分析總結;第三部分給出CALIS在“十五”期間將要建設的兩個子項目“高校學位論文全文數據庫”和“教學參考書數據庫”在成員館中間開展的情況;最后對目前成員館數字圖書館建設中急需解決的主要問題進行匯總。
2整體分析
通過CALIS的宣傳和培訓,大部分成員館意識到開展數字圖書館建設的必要性和重要性。調查結果顯示,在2000年前后成員館根據各自對數字圖書館的理解、現有基礎、階段性工作重點、人員情況,開始從專業性或校園范圍的文獻信息保障體系、數字圖書館應用系統、數字資源、基礎設施等各方面進行建設,全面推動圖書館向電子化、數字化方面發展,并在資金投入力度方面予以重視。
2.1專業性、校園范圍的文獻保障體系
眾所周知,CALIS在“九五”期間建設了三級文獻信息保障體系。四個全國中心、七個地區中心分別構成文獻信息保障體系的第一級和第二級,在全國和地區范圍內行使文獻信息保障功能。但是由于人力、物力、財力的原因,這些中心還不能滿足所有高校圖書館和用戶的全部需要。根據本次調查的結果,目前有10個學校正在開展專業性或校園范圍內的文獻信息保障系統建設。其中北京師范大學圖書館正在構造有一定規模的“中文教育數字圖書館”,將分布于國內外的中文教育資源納入統一的檢索系統;上海財經大學圖書館在數字圖書館理念以及相應的管理機制等方面進行了研究與實踐,提出了建設“財經文獻資源信息中心”的設想;電子科技大學圖書館“西南地區電子信息學科與文獻信息中心”的建設已具雛形;首都師范大學圖書館和北京工業大學圖書館受北京市教委的委托籌建了“北京高校網絡圖書館”;內蒙古大學圖書館“多功能蒙古學文獻信息研制服務中心”的建設頗具民族特色;安徽大學、北京理工大學、大連海事大學、福州大學、哈爾濱工業大學的圖書館,依托校園網建立與本校學科發展、人才培養相配套的,以信息服務為重心的全方位、多層次、高效率的文獻信息服務體系。
2.2數字圖書館應用系統
考慮圖書館的工作特點,針對圖書館的需要,研究和開發數字圖書館建設中急需的各種應用系統,已經被列入各成員館的計劃中。本次調查發現有16個圖書館正在應用系統方面進行技術攻關。其中開展數字圖書館原型試驗系統研發的學校主要有北京大學、復旦大學、西安交通大學、廈門大學、中山大學、武漢大學等高校的圖書館,這些圖書館研制的內容包括數字圖書館體系結構、元數據、信息存儲與檢索、互操作等相關技術與解決方案;上海交通大學、北京大學、北京航空航天大學等10余所高校圖書館開發了“視頻點播系統”,采用大容量存儲設備存儲多媒體資料在校園網內提供多媒體視頻、音頻資料的網上實時點播;復旦大學圖書館正在開發“圖書館電子資源跨平臺檢索系統”,實現統一界面查詢,讀者可以通過書刊名、文章名、關鍵詞、著者、媒介類型、數據來源等檢索項(包括組合檢索項),查詢系統連接的各個數據庫;天津大學、廈門大學、西北師范大學等7所高校圖書館專門成立了“特色資源數字化加工中心”,開展紙本文獻數字化、多媒體資源加工、電子剪報、數據庫制作的相關硬件環境設備建設及軟件支撐平臺建設,形成數字化資源的收集、加工、分類標引、整合、、更新、維護等的完整系統;電子科技大學圖書館開發了“專題數據庫系統”,為圖書館的數據庫建設提供平臺,包括開發、分類、全文檢索、遠程查詢、科學管理和升級等功能,能全面、準確、高效地達到網絡化數據庫系統的應用標準;吉林大學、中國人民大學圖書館利用相關技術,建立了標準化的知識服務系統平臺,開發了“服務子系統”,為用戶提供個性化服務,包括信息定制、協作咨詢、知識挖掘、多媒體教學、VOD點播、重點學科導航等;西安交通大學圖書館正在集中力量,依托CALIS西北地區中心搭建一個統一的軟硬件平臺,建設地區性數字資源中心、數字化中心、存儲中心、交換中心以及數字圖書館研究與開發中心,為用戶提供集成化的智能服務。
2.3數字資源建設
資源建設是數字圖書館建設的基礎,也是各館開展數字圖書館嘗試的主要選擇?!熬盼濉逼陂g在CALIS的宏觀調控和統一規劃下,一方面,各館大幅度增加電子文獻的引進,以網絡版數據庫為主,并引進部分光盤數據庫;另一方面,各館在自建資源方面取得了很大的突破,CALIS組織成員館共同建設了聯合目錄數據庫、中文現刊目次庫、學位論文文摘庫等數據庫。在提交調查報告的89所圖書館中,85%以上的圖書館參與了CALIS“九五”期間的子項目建設,在支持CALIS資源建設工作的同時推動本館的數字化進程,起到了事半功倍的效果。
與此同時,CALIS有選擇性地支持24個單位根據本館的特色館藏、資源特性,在網絡環境下建立特色館藏,逐步把有價值的特色信息資源組織起來,建設成CALIS重點學科專題數據庫,以便比較集中、更深層次地揭示各高校收集的富有學科特色的文獻。目前CALIS重點學科專題數據庫包括24家成員館建成的25個重點學科專題數據庫,數據量已達280萬條以上,通過因特網進行服務,實現資源共享。
在CALIS的帶動下,在24家成員館的示范作用下,為了更好地滿足本校教學科研的需要,其他的CALIS成員館紛紛開展本館特色資源的調研、論證和建設工作。本次調查統計結果顯示,目前正在進行數據庫建設的CALIS成員館有74所,每個館根據各自的條件和實力,或者百花齊放,如中山大學、西安交通大學、上海交通大學等17所高校圖書館同時進行幾個數據庫的建設;或者一支獨秀,在數據庫建設的質量上下功夫。
成員館自建的這些數據庫圍繞著CALIS制定的“建設具有中國特色、地區特色和高等教育特色的專題數據庫”的原則,或者對館藏特色文獻數字化,或者做某個學科或專題的數字資源建設工作,比較系統全面地對某個專題進行綜合報道。數據庫各具特色,有的體現中國文化淵源歷史,有的介紹人物生平、業績、著作,有的針對某個學科或專業做全面的介紹,有的展現科技動態。數據庫形式多樣,包括圖象、文字、解說、全文和文摘,具有學科知識數據庫的特點。揭示的內容比普通二次文獻庫要深,豐富了高校資源。數據庫內容豐富,包含中外文期刊、會議論文、專利文獻、產品、事實數據、研究機構信息,或集各種信息于一體。有的數據庫具備良好的檢索系統,提供WEB界面的查詢,有些還使用全文檢索系統和多媒體系統,可提供全文、關鍵詞、題名、出處、文摘等多檢索點檢索;為配合學校的教學和科研,為推廣高??茖W技術成果,展示廣大科研人員的勞動成果和聰明才智,給廣大讀者提供豐富的有價值的科研資料做出了積極的貢獻,彌補了圖書館經費緊缺造成的紙本資源的不足,為高校數字圖書館的工作積累了豐富的經驗和技術。
2.4基礎設施建設
基礎設施建設是各館進行數字圖書館建設的一個重要部分。調查發現,有28所圖書館正在從基礎設施建設入手,創造數字圖書館的基本環境。其中22所圖書館對本館的自動化和網絡系統進行了升級與改造,旨在建立先進可靠的高速信息網絡系統,建設先進的圖書館集成管理系統,實現圖書館日常業務科學全面的自動化管理,為國內外資源共享提供環境;9所學校建設了多功能電子閱覽室、多媒體教學、網絡培訓教室,提升了圖書館的開發和應用能力,為師生提供多媒體信息服務;北京理工大學、北京化工大學等4所院校還斥資數千萬建設了新館舍,給師生提供了舒適的教學科研環境。
2.5資金支持
《數字圖書館建設情況調查表》中還包括對各個學校用于數字圖書館建設的資金額度及其來源的調查。調查結果顯示各成員館數字圖書館的建設資金分別來源于“211工程”建設經費“985”工程,國家“教育振興行動計劃”,國家和省級自然科學基金,各省市教委、學校的專項撥款,與企業共建,捐助,圖書館年運作經費,學校自籌等10多個方面。由此可見圖書館動用了所有力量,通過各種渠道支持數字圖書館建設。小到學校,大到國家,建設數字圖書館的意識都明顯增強,對此投入的資金大幅度增加,部分學校得到的數字圖書館建設的資金更是令人可喜。表1將各館數字圖書館經費情況按幾個等級進行了統計。需要說明的是有17個學校未對數字圖書館資金的投入進行說明,無法進行統計。對72個成員館的統計結果顯示,38.9%的學校數字圖書館建設的資金額度大于100萬,其中有8.3%的高校十分重視數字圖書館的建設,投入了數千萬資金支持數字圖書館的建設,但是,我們還應該看到,有超過一半的圖書館用于數字圖書館建設的資金小于10萬,無力開展規模性的、目的明確的數字圖書館建設活動。“十五”期間,為了在更大范圍內共建、共知、共享,CALIS任重道遠。
表1數字圖書館建設資金狀況統計
3重點調研
下面根據聯盟理事館對《學位論文數據庫建設情況調查表》和《教學參考書數據庫情況調查表》的反饋意見,綜合CALIS成員館對《數字圖書館建設情況調查表》的反饋意見,對CALIS成員館“學位論文數據庫”和“教學參考數據庫”的建設情況進行分析。
3.1學位論文全文數據庫建設
“高校學位論文文摘數據庫”是CALIS“九五”建設的一項重要成果,是高校間開展文獻傳遞的重要基礎數據庫之一?!熬盼濉逼陂g共有90余所成員館參與了CALIS學位論文文摘數據庫的建設,學位論文文摘數據提交量已經達到10萬條。由于學位論文內容豐富、新穎、情報價值高,對某一專題有獨到的見解和系統論述,對科研和生產有較大參考價值,讀者需求呈上升趨勢,為此,“十五”期間,CALIS將在該庫的基礎上進一步建設“高校學位論文全文數據庫”,全面實現博、碩士學位論文資源的共享。根據《數字圖書館建設調查》和《高校學位論文全文數據庫建設調查》的統計結果,CALIS成員館中有29家開展了學位論文全文數據庫的籌備和建設工作,其中13家來自聯盟理事館;目前這些學校學位論文的全文數據加起來有18100條,主要采用WORD和PDF格式保存,也有個別學校采用JPG格式和DJVU格式;其中北京大學、上海交通大學和東南大學圖書館學位論文建設工作開展較早,可以追溯到1996年;北京大學、清華大學和西安交通大學圖書館數據庫建設規模較大,有超過5000條的全文數據;已經具有學位論文數據庫提交系統的學校有11個,其中北京大學、清華大學等圖書館的系統已經比較成熟,不僅具有學位論文提交系統,而且同時開發了學位論文檢索系統,并考慮了學位論文的編目、校驗、統計,設計了學位論文管理系統;目前北京大學和西安交通大學圖書館的學位論文數據庫系統是開放的,讀者可以檢索到摘要級,其他學校的學位論文系統有的要進行用戶認證,有的通過IP限制訪問;對于學位論文的版權問題,各個學校還沒有很好的解決方案。比較實際的解決方法是和論文作者簽署論文使用協議,限于校園網使用。成員館的上述工作為“十五”期間CALIS學位論文全文數據庫的建設提供了很好的基礎。2002年5月底,CALIS管理中心邀請在學位論文建設方面有一定基礎的15個聯盟理事館召開了“高校學位論文全文數據庫建設工作研討會”。會議統一了對高校學位論文全文數據庫建設的認識,明確了高校學位論文全文數據庫建設的指導思想為在統一的建庫標準規范下,實現共建、共享。會上大家總結出學位論文建設的主要環節包括總體工作流程、標準規范、論文提交、應用系統、管理與版權等。會后,CALIS管理中心根據各成員館的意見,整理了《高校學位論文全文數據庫建設參考》,為其他準備開展學位論文全文數據庫建設的學校提供參考,加快高校特色資源共建共享的進程。北京大學、清華大學、武漢大學、西安交通大學、廈門大學、東南大學等學校還表示愿意根據會議精神,在對各自的應用系統進行修改后,盡快向兄弟院校免費提供。與此同時,大家還認同了將CALIS學位論文全文數據庫設計為“集中索引、分布式存儲”的數據庫的思路。
3.2教學參考書數據庫建設
CALIS管理中心充分意識到,建設教學參考書數據庫,對高校的公共基礎課、專業基礎課和一部分精選專業課的教學參考書提供上網服務,可以滿足教育事業發展的需要,有效地解決各校教參復本量少的問題,在“十五”期間將“教學參考書數據庫”建設提到了議事日程上來。
根據《數字圖書館建設情況調查表》和《教學參考書數據庫情況調查表》反饋的結果,目前CALIS成員館教學參考書數據庫建設基本的情況是:14個學校已經建有一定規模的教學參考書數據庫,另有11個學校開始籌劃;其中教參數據庫建庫時間最早的是中國人民大學圖書館,始于1996年;北京大學圖書館1999年開始建庫;包括復旦大學、清華大學圖書館在內的8所高校圖書館從2000年開始建庫;其他的圖書館是在近一年里才開始和計劃進行教學參考書數據庫的建設;這些學校的教學參考書書目數據量加在一起有49500條,全文數據有5100條,其中復旦大學的書目數據量最多,已達26,500條,中國人民大學的全文數據最多,有3000條;對于教學參考書數據庫系統,有7所圖書館使用TRS全文數據庫進行二次開發,有3所圖書館采用快葳公司的DIPS系統,2所圖書館館使用方正Apabi系統;選擇MARC做為教參元數據進行著錄的有5家,選擇DC做元數據的有3家;對于全文,一般采用WORD和PDF格式;對于版權問題,中國人民大學、西安交通大學、中國科技大學圖書館目前的解決辦法是限于校園網使用,其中中國人民大學圖書館已經開始對教師著作征詢版權,清華大學和上海交通大學圖書館目前的政策是部分解決版權,同時結合訪問控制,北京大學圖書館、復旦大學圖書館正在考慮和專業公司合作,全面解決版權;目前在主頁上有教學參考書項目鏈接的圖書館,有上海交通大學、復旦大學和廈門大學,其中復旦大學圖書館的檢索系統可以對外提供服務,非校園網用戶可以瀏覽到書目級。
CALIS在6月中旬邀請22家中國高等學校數字圖書館聯盟理事單位召開了“教學參考書數據庫建設研討會”。會上,大家根據各自的工作經驗對CALIS將在“十五”期間進行的教學參考書數據庫的建設工作提出了很好的建議:(1)標準規范方面:希望CALIS在標準、系統等方面提出方案與要求。(2)建設內容:在學科上有所側重和分工。(3)版權問題:提出統一的版權解決方案。(4)管理方面:以211工程或CALIS名義,請學校教務部門將教參書的收集納入教務管理工作,以保證教參考書的權威性和新穎性。(5)建設方式:由CALIS組織購買一批有版權的電子參考書,同時在CALIS協調下,由部分高校分工建設,共享數據,成本分攤。(6)合作思路:和數據庫商與系統商合作開發系統和解決版權。(7)系統建設:第一步參建各校分別建立教參信息庫,同時把數據集中起來建立CALIS教學參考信息庫;第二步建設電子全文數據庫。
針對以上建議,CALIS正在積極征集包括系統、資源、讀者使用、服務模式、實施、經費預算等在內的教學參考書數據庫的解決方案并通過申報、調研、審批方式確定承建單位。
4小結
CALIS管理中心通過“數字圖書館”、“學位論文數據庫”和“教學參考書數據庫”建設情況調查,從各個方面了解了成員館數字圖書館建設的情況,同時掌握了CALIS“十五”期間將建設的“學位論文數據庫”和“教學參考書數據庫”在成員館中的發展現狀。
為了傳承和弘揚大禹文化,受哲學社會科學研究院委托,單位成立了大禹文化研究中心,并召開了多次國內學術會議。目前,在海峽兩岸研究人員的支持下,研究所已經收集了大量有關大禹的書籍、考古資料。這些資料即包括已經收集到的視頻、照片、古籍原件等多種實體內容,也包括被“歷代石刻史料匯編”、“公元集成圖片庫”、“中國基本古籍庫”、“中國歷代典籍總目系統”、“中國數字方志庫”、“瀚堂典藏古籍數據庫”等專題數據庫所搜錄的文獻,還包括以大禹文化為主題新聞與資料??v觀歷史,大禹文化在發展中進步,許多事實新聞,如“五水共治”等就是大禹文化建設的補充。因此,大禹文化資料庫的建設也是一個長期的與時俱進的過程。
2資料庫建設相關技術
2.1大數據技術
進入大數據時代,人們開始發現很多主題都開始變成了大數據。目前,大禹文化研究數據雖然不多,但由于大禹的歷史悠久,隨著考古技術的提升、大禹的歷史文化資料會變得越來越豐富,以大禹為主題的傳奇故事會以動漫、歷史劇等形式傳播出去。隨著水文化得到人們的重視,融合大禹元素的水文化傳播的信息也會大量增長。此外,大禹文化相關的電子商務以及無線傳感、虛擬空間技術在大禹主題旅游行業的應用也會帶來大數據。因此,針對大禹主題的大數據研究也會成為一個重要研究方向,可以在這些大數據中獲得新的研究點。
2.2云計算
目前由于大禹文化研究資料分布在許多不同專題數據庫中,需要人工進行整合。這會耗費了大量的人力,造成的研究的瓶頸。為此,如果有必要通過商業和技術協議將其各庫中擁有的大禹文化資料共享出來,用云服務的方式為研究者提供統一的檢索平臺,以產生更大的社會效益。事實上,在教育領域,CALIS等圖書館共享平臺已經在提供一個通用的文獻資料云,并取得了良好的效果。但大禹研究者需要更為專業的數據庫,如果能夠將大禹主題信息較為精確地從各大數據庫中抽取出來再作整理,必然能夠降低研究者檢索文獻的難度,增加其搜索內容的廣度。因此,開展基于云服務的大禹專題數據庫構建方法研究就顯得十分必要。
2.3垂直搜索引擎技術
由于收集資料的專業化和檢索方式的專門化,使得垂直搜索引擎具有通用搜索引擎不可替代的功能。事實上,除專題數據庫外,互聯網是獲取大禹專題信息的重要渠道。而建立專題數據庫類似于建立一個垂直搜索引擎。有了大禹主題的垂直搜索引擎,許多最新的研究資料也可以從互聯網中獲取。由此要做的工作就是設計大禹主題的網絡爬蟲,用爬蟲不斷抓取互聯網中的大禹文化研究資料,然后以搜索引擎的方式供研究者使用,并用統計方法對不斷增長的資料進行分析。事實上,許多專題數據庫(如國研網)就是含有專題文獻摘要的搜索引擎。顯然,構建大禹主題垂直搜索引擎會是專題數據庫建設主要內容。
2.4多媒體信息檢索技術
大禹文化研究資料包括了大量視頻、照片等多媒體信息。但為這些多媒體信息建立標簽需要花費大量人力,需要引入自動標引技術。目前手寫體識別、截圖搜索、智能問答、視頻流中人臉識別等技術已得到廣泛的應用??梢詫⑦@些多媒體技術用于對大禹文化資料的自動匹配和檢索,以增強研究者獲取資料的便捷性,進一步提升大禹文化專題數據庫的建設水平。
3資料庫設計思路
3.1設計目標
結合人工與計算機技術,建立能夠對大禹文化主題相關信息的采集、加工和的平臺,為研究者提供較搜索引擎更為精確的研究資料,較其他專題數據庫更為完善的文獻數據,較圖書館更為豐富的多媒體信息。
3.2信息采集功能設計
一般來講,專題數據庫的信息采集流程為:①確定專題信息的收集范圍,實現專題信息的手工采集、自動采集;②按照數字文獻格式標準體系對采集的專題信息進行存儲,生成數字化文獻;③以手工或自動的方式生成數字化文獻的元數據對元數據進行自動標引,采用一定的標準進行組織;④對不同的數據庫制作者賦予不同的權限,以手工或批量方式添加、修改、刪除元數據,使元數據與數字對象建立對應,實現對元數據和數字對象的管理。按照數據的來源不同,需要設置不同采集形式,具體如下:已有資料電子化。即將已有的書籍和文獻資料人工轉換為掃描件,部分材料運用OCR技術轉換為文字格式,并將實物拍攝成照片,運用多媒體技術做好各類資料的文本標注。這樣就可以和已有的視頻等電子資料整合成多媒體資料集。用深度搜索引擎技術,從各大數據庫中自動提取出大禹文化主題相關的文獻資料,直接引入其在原有數據庫中的文獻標識進行標注。設計好大禹文化主題網絡爬蟲,實時從互聯網中抓取主題相關資料,保存在搜索引擎專用的數據庫中。再應用自動推薦技術,向數據庫管理員推薦有價值的文獻資料,由管理員將互聯網中的文獻列入專題數據庫中供研究者檢索,即將文獻標引為不同的標志,如果文獻是從專題數據庫中獲取標明“引入”,搜索引擎直接獲取標明“互聯網”,數據庫管理員人工確認的則標明“人工入庫”。運用云技術,將資料庫建在云端,與其他專題數據庫建立合作關系,獲得大禹專題文獻的推送服務??梢詮膶I文獻資料庫、垂直搜索引擎和多媒體信息檢索庫的角度來開展資料的收集和整理。
3.3信息檢索功能設計
為提升專題數據庫的功能,實現更好的用戶體驗,具體設計如下:實現一般文獻資料數據庫應有的文本檢索功能。該數據庫提供主題、關鍵詞、摘要、標題、內容等關鍵信息的全文檢索,并以pdf文件形式提供文獻資料。在大禹文獻數據庫中分析并整理出專業名詞集,形成大禹文化語義本體,為檢索者提供同義詞識別、主題相關檢索詞推薦等功能,并能夠按照訪問量、下載量、文獻引用量、發表時間等方式進行排序。對收集到的照片、視頻等多媒體資料作自動標注,建立多媒體檢索庫,實現文本到多媒體信息統一檢索接口。這里主要參考的標準是Mpeg-7,實現對視頻中幀、鏡頭、情節和節目的分離;同時用Sphinx來提取語音中的信息,實現語音向文本的自動轉換。這樣用戶就可以用關鍵詞、截圖、語音等方式來搜索資料庫中的多媒體資料。例如,用戶給出大禹陵的照片,就可以檢索到出現過該照片信息的視頻文件。提供智能問答系統,讓研究者可以與虛擬資料庫管理員進行在線交流,由計算機自動提供文獻資料情況的解釋說明,從而提高專業數據庫服務的質量。具體實現過程為:建立FAQ庫;對用戶的提問進行分析,將問題轉換成查詢關鍵詞;在FAQ庫中查到問題對應的答案;對于在庫中查不到的問題,則給出提問要求,讓用戶進一步明確意圖;對多次查詢沒有結果的問題則從互聯網上獲取答案,并推薦給用戶;如果用戶認可推薦的答案,則將這個問題和答案組合加入到FAQ中去。事實上,清華大學圖書館的智能聊天機器人已經實現了這樣的功能,并大大改善了查詢者的用戶體驗。運用大數據技術,提供數據分析接口,讓研究者能夠從不斷增長的數據中快速分析出想要的統計信息。主要要實現流處理和批處理兩種處理方式。流處理主要針對不需要永久化存儲的過程信息,如相關旅游服務的實時信息和商品銷售信息。批處理則是針對長期積累在數據庫中的大數據進行分析。要通過檢索功能的優化,實現具有大數據分析環境、面向新媒體的新型數據庫檢索平臺。
3.4信息檢索評估方法設計
在數據庫建設完成后,可以用信息檢索的傳統方法對構建好的數據庫要進行測試與評估,方法如下:
3.4.1雙率檢測
雙率檢測,即對數據庫檢索的查全率和查準率進行評估。先要設計一套測試用關鍵詞和測試用資料,然后對關鍵詞查詢的結果進行統計,獲取查詢結果與測評用資料的實際匹配程度。同時統計出被查得文獻資料個數與實際已經存儲資料個數的比值。在查詢時要考慮查詢對象除文本資料外,還有多媒體資料,要設計多種樣本進行評估。
3.4.2對大數據統計分析結果進行評估
對大數據統計分析結果進行評估。即用人工評價的方式來對統計結果的正確性以及推薦結果的合理性進行打分,從而為優化統計分析算法打下基礎。
3.4.3響應時間測評
設計不同的關鍵詞組合,記錄查詢的時間,評估出系統的響應速度,設定響應閾值,并分析響應緩慢的原因。
3.4.4語義本體合理性評估
設計專業術語中容易混淆的一組關鍵詞進行檢索,統計出同義詞和專用詞轉換的成功率,以利于優化大禹主題本體的設計。信息檢索評估的體系十分復雜,要抓住專題數據庫針對強的特點來測試,測試的主要目的是提高用戶體驗。
4結束語
(一)學生英語水平參差不齊
《數據庫應用》課程針對的是大二學生,這些學生在大一時已經完成了大學英語的學習,基本具備了四千左右的詞匯量和一定的英語閱讀方面的能力。但仍然有較大一部分學生很難或根本不會用英語與他人進行交流,停留在“聾子英語”、“啞巴英語”上,使得學習的信心不足,這就有可能使工科學生出現極大的恐懼情緒和厭學情緒,不管是英語水平還是專業理解能力都不是在一個水平線上,更進一步導致學生的水平參差不齊。
(二)專業英語與專業課內容相結合的適應時間較長
對于計算機專業的學生來講,《數據庫應用》課程的雙語教學過程,不僅需要學生掌握數據庫方面的專業詞匯,而且還需要學生將專業術語與專業課的學習結合起來,這將需要有一定的適應時間,而且這個時間還可能很長。而在教學過程中,學生是主體,如果在這個過程中適應時間太長,使得學生并沒有從雙語教學中獲益,這將影響雙語教學的初衷,達不到應有的教學效果。
(三)師資方面的問題
雙語教學,要求授課教師不僅要有扎實的專業知識,同時也要有良好的英語表達能力。對民辦院校而言,在計算機專業中,雙語方面優秀師資比較欠缺。一是,由于我院所處的地理位置離市區相對較遠,這就導致很多非常優秀的教師不太愿意來我院授課;二是,由于限于資金等種種因素,我系教師被送到國外進行學習和進修的機會非常少。對于我院現有的校內老師而言,外語專業的教師對計算機的專業課程缺乏了解,而計算機專業教師又普遍不具備良好的外語口語表達能力。雖然在我院從事雙語教學的教師都具有碩士及碩士以上學位,同時在計算機專業課程授課的功底非常扎實,而且在英語科技文章的閱讀能力也相對較強,但大部分的教師都沒有國外的學習或進修的經歷,在口語等方面比較薄弱。若完全采用英語課件和英語授課,在教學過程中有很大的困難。
二、《數據庫應用》課程雙語教學改革的具體實施
(一)教學目標
雙語教學首先要有正確的教學目標,在《數據庫應用》課程中,英語授課僅僅是一種手段,其最終目的是培養學生通過所學的數據庫專業知識并且運用其中的技術去實際解決問題,從而激發學生在計算機領域中繼續學習和研究的愿望。首先應把《數據庫應用》課程中的專業知識的學習放在首位,然后把雙語教學中的英語教學作為一種滲透。在該課程的雙語教學過程中應該積極使用英語授課,要求學生能夠讀懂、理解課程的內容和表達方式即可。因此,教師應明確該課程的核心教學的目的,歸納如下:通過對《數據庫應用》雙語課程的講授,學生應該理解和掌握數據庫系統的基本原理及相關應用技術。學生通過在該課程中學習的數據庫的專業知識,將它們運用到實際中去,解決有關數據庫的實際問題,能夠應對數據庫應用系統設計、應用和維護的任務。從而,學生逐步形成獨立發現問題、思考問題、分析和實際解決問題的能力,同時提高學生的自學能力和創新能力等。
(二)教學模式
目前,國外的雙語教學有多種模式。沉浸式(im-mersionprogram)、保持式(maintenancebilingualedu-cation)、過渡式(transitionalbilingualeducation)等。在民辦高校中開展《數據庫應用》課程的雙語教學,首先要根據該課程的實際要求、學生在雙語教學過程中的接受能力和英語的詞匯和閱讀水平等具體情況,來決定在我院的《數據庫應用》雙語課程中的具體模式。然后再根據課程的教學進度和進展情況以及學生對課程的適應情況,可以對該課程進行及時調整,最終達到掌握數據庫的專業知識和提高學生實際英語能力的雙重目標。同時考慮《數據庫應用》課程的特點和《數據庫應用》雙語教學仍處在初期,因此,《數據庫應用》課程的雙語教學模式采用中文講授+英文課件,即在授課過程中,使用英文教材,教師在講授專業知識時以中文為主,同時介入英語表達,循序漸進,逐步提高學生在《數據庫應用》課程中的理論知識和運用水平的基礎上,保證學生英語專業詞匯和閱讀能力水平的提高。
(三)課堂教學的組織實施和教學方法
1.采用案例引導、任務驅動式的教學模式。
在授課過程中,教師應該根據課程的內容,為學生安排學習任務,使學生在完成所布置任務的同時掌握相關數據庫的知識。在案例引導、任務驅動式模式下,教師必須要縱觀整個《數據庫應用》課程,充分發掘英語教材,精心設計問題,為學生提供自主學習的良好機會。在設計任務時,問題可以使用課本后面的練習題,也可根據課本內容自編相關的題目。然后根據教學大綱和本課程的教學重點和難點,同時還要考慮學生在完成過程中可能遇到的困難去擬定相關的題目。通過自主的發現和探索、自主的質疑、和同學進行討論等多種方式,學生不僅體驗到成功解決問題的快樂,而且激發了學習《數據庫應用》雙語課程的興趣,因此,增強了學習的信心和勇氣。
2.組織討論和演講。
在上課時,授課教師應該鼓勵學生當“老師”,給學生創造使用英語交流和實踐的機會。針對在上課中遇到的問題,教師應多鼓勵學生學會獨立思考問題、大膽質疑并且敢于發表自己不同的觀點。另外,在課堂上還可以挑選出幾個有代表性的學生進行演講。最后,教師對學生的表現和學生對問題的分析進行總結。這就使得在雙語教學過程中,學生所獲得的是在豐富的情境中,不斷發展著的英語表達能力和專業知識的運用能力。同時在雙語教學中進行討論,能夠讓學生提高該課程的主動性和積極性,從而為培養學生運用英語的能力打下堅實的基礎。
3.上機實驗和課程設計過程。
《數據庫應用》課程應該注重理論和實踐相結合。每周的理論課之后,都安排相應的實驗課。學生可以通過上機練習達到真正理解課堂上的知識。此外,在課程快結束的時候,為每組學生分配一個實際的數據庫應用系統的開發項目。這樣可以使學生去思考和實踐數據庫開發設計中具體的思路和方法,最終完成課程設計的任務。課程設計的開展,促使學生將所學的知識運用到實際的開發過程中去,并且使學生將所學到的知識融會貫通并且鞏固和提高。最后,學生需上交具體實現的系統和一份英文的課程設計報告,這將培養學生撰寫英文文檔和論文的能力。
(四)雙語考核形式
《數據庫應用》雙語課程的期末綜合測評成績采用過程考試和期末考試兩種方法。過程考試即平時成績,包括考勤、作業、實驗、學生參與的課堂內容的情況。教師制定一個具體的評價指標,對平時成績參照評價指標進行詳細的記錄。期末考試采用閉卷方式,主要考查學生對教材上基本知識點的掌握程度。過程考試和期末考試成績按一定的比例計算。采用過程考試和期末考試相結合的方法是評價《數據庫應用》教學效果的一個重要手段,而且這兩項合理的結合能促進學生英語能力的提高和數據庫專業知識的學習。
三、總結
(1)資產信息管理。包括資產登記,資產標簽打印,資產信息修改,資產信息刪除。(2)合同信息管理。包括合同登記,合同信息修改,合同刪除和合同付款驗收。(3)供應商管理。包括原廠商登記,原廠商查詢變更,供應商登記,供應商查詢變更。(4)資產領用管理。包括資產領用,資產領用單打印,資產領用變更,資產歸還,資產領用單刪除,資產領用查詢變更。(5)資產維修管理。包括維修登記,維修記錄變更,維修記錄刪除。(6)資產處置管理。包括處置登記,處置查詢變更,處置記錄變更,處置記錄刪除。(7)資產卡片管理。包括卡片登記,卡片變更,卡片刪除。(8)查詢統計管理。包括供應商查詢,合同查詢,資產信息統計查詢,資產領用查詢,卡片領用查詢。(9)系統管理。包括數據字典,用戶管理,權限分配和角色分配。
2關鍵技術
2.1數據庫設計
數據庫是資產管理系統的重要組成部分,數據庫結構的好壞將對應用系統的效率以及實現的效果產生直接影響。合理的數據庫結構設計可以提高數據存儲的效率,保證數據的一致性、安全性和完整性。本系統采用關系型數據庫,關系型數據庫是建立在嚴格的數學概念的基礎上。概念單一,實體與實體間的聯系都用關系表示,故其數據結構簡單、清晰,存取路徑對用戶透明。因此有更高的數據獨立性和更好的安全保密性。系統運用實體聯系圖的方法來進行數據庫概念結構設計。依據以上的設計,系統中設計出的實體有:資產實體、用戶實體、供應商實體、部門實體等。
2.2數據字典
系統根據機構權限的不同實行級別管理,分為省聯社級、市級、市級農商行、縣級、網點級五個級別。省聯社級為最高級別,網點級為最低級別。所以系統開發時首先要規定統一的數據格式和規范編碼規則。系統以數據字典的形式來規范數據。數據字典用于設定計量單位、資產狀態、領用類型、報修類型等一些基本數據的管理。通常由服務器系統管理員統一管理。本系統將數據字典的格式規范成三個字段:字典域(進行分級管理),字典域編碼和字典域名稱。
2.3個性化用戶視圖
本系統按不同的用戶類型來分組,給不同的用戶分配不同的角色,不同的角色擁有不同的訪問權限。系統根據登錄用戶角色的不同,來生成不同角色所對應的不同的菜單和功能。即具有不同權限的用戶,在登錄到系統之后會看到不同的用戶操作界面。從而產生了基于角色的個性化用戶視。本系統在設計方面嚴格執行“一人一角色”的操作權限,更好的確保了系統操作的方便性和安全性。
3系統實現
通過對農信社資產管理進行深入地研究,詳盡全面地分析了資產管理系統的需求,該系統采用C#編程語言,后臺數據庫為關系型數據庫SQLServer2005開發了三層架構的資產管理系統。系統采用典型的C/S架構,主要是基于數據量和安全性方面的考慮。系統分為三層,第一層為客戶層(Client),第二層為業務邏輯層(BusinessLogic),第三層為數據層(Data)。
4結束語
關鍵詞:嵌入式系統;移動數據庫;移動計算;事務處理
0引言
數據庫技術一直隨著計算的發展而不斷進步,隨著移動計算時代的到來,嵌入式操作系統對移動數據庫系統的需求為數據庫技術開辟了新的發展空間。隨著智能移動終端的普及,嵌入式移動數據庫技術目前已經從研究領域逐步走向廣泛的應用領域。
在數據庫系統的研究歷史中,傳統的分布計算與分布式數據庫的研究是基于有線網絡和固定主機的。這些都采用了一些默認的隱含假設,例如固定網絡連接、對等通信代價、主機節點固定不變等。但進入20世紀90年代以來,隨著移動通信技術和網絡技術迅速發展,加之移動計算機和移動通信設備的大量普及,許多計算節點可以在移動過程中與網絡建立連接,使得上述假設條件不成立。移動計算環境具有移動性、低帶寬、頻繁斷接性、網絡通信的非對稱性、電源電力的有限性等特點,使得傳統分布式數據庫中的方法和技術不能直接應用于移動數據庫。
1嵌入式移動數據庫的定義
從數據庫技術的發展過程來看,計算環境和數據庫技術基本保持著一種同步發展的態勢,互相影響、互相促進。移動計算的概念是對“任何時間、任何地點的立即通訊”的擴展。在分布式計算的基礎上,計算環境進一步擴展為包含各種移動設備、具有無線通信能力的服務網絡,構成了一個新的計算環境,即移動計算環境。相應地,數據庫系統先后出現了集中式數據庫系統、分布式數據庫系統、B/A/S多層結構的數據庫系統、嵌入式數據庫和移動數據庫。當然,這些系統也可以共存在同一個計算環境中。
一般說來,嵌入式移動數據庫可以從系統的體系結構方面來定義:嵌入式移動數據庫系統是支持移動計算或某種特定計算模式的數據庫管理系統,數據庫系統與操作系統、具體應用集成在一起,運行在各種智能型嵌入設備或移動設備上。其中,嵌入在移動設備上的數據庫系統由于涉及數據庫技術、分布式計算技術,以及移動通訊技術等多個學科領域,目前已經成為一個十分活躍的研究和應用領域——嵌入式移動數據庫或簡稱為移動數據庫(EMDBS)。
2嵌入式移動數據庫的體系結構及其主要特點
2.1體系結構
在傳統的分布式計算系統中,各個計算節點之間是通過固定網絡連接并保持網絡的持續連接性的,而移動計算系統改變了這種假設條件。移動計算系統是固定節點和移動節點構成的分布計算系統。
移動計算的網絡環境具有鮮明的特點:移動性、斷接性、帶寬多樣性、可伸縮性、弱可靠性、網絡通信的非對稱性、電源能力的局限性等。移動環境中的分布式數據庫就是移動數據庫。它是傳統分布式數據庫系統的擴展,可以看作客戶與固定服務器節點動態連接的分布式系統。移動數據庫系統的體系結構如圖1所示。
其中,移動客戶機MC(MobileClient)包括便攜式電腦、PDA等;MSS(MobileSupportStation)支持移動計算的固定節點,具有無線通信接口;FH(FixedHost)沒有無線通信接口,安裝有數據庫和數據庫管理系統。
2.2主要特點
移動數據庫的計算環境是傳統分布式數據庫的擴展,它可以看作客戶端與固定服務器節點動態連接的分布式系統。因此移動計算環境中的數據庫管理系統是一種動態分布式數據庫管理系統。由于移動數據庫在移動計算的環境下應用在嵌入型操作系統之上,所以它具有:微小內核結構、對標準SQL的支持、事務管理功能、完善的數據同步機制、支持多種連接協議、完備的數據庫管理功能和支持多種嵌入型操作系統的特點和功能需求。
在移動數據庫中還需要考慮諸多傳統計算環境下不需要考慮的問題,如對斷接操作的支持、對位置相關查詢的支持、對查詢優化的特殊考慮以及對提高有限資源的利用率和對系統效率的考慮等等。為了有效地解決上述問題,諸如復制與緩存技術、移動事務處理、數據廣播技術、移動查詢處理與查詢優化、位置相關的數據處理及查詢技術、移動信息技術等技術仍在不斷的發展和完善,它們會進一步促進移動數據庫技術的發展。
3嵌入式移動數據庫的關鍵技術
移動數據庫涉及的理論和技術含蓋了當今通信、計算機和嵌入式系統的最新成果,其中在移動環境下如何進行數據管理是實現移動數據庫的關鍵。根據目前國際有關機構研究的研究表明這些關鍵技術主要集中在以下幾個方面。
3.1數據復制與緩存
復制是在多個移動節點上維護數據的備份,包括服務器之間的復制和移動計算機上保存數據庫的復制。一般前者稱為復制后者稱為緩存。復制的主要目的是提高分布式數據庫系統的可用性、可靠性和訪問性能。首要的問題是如何維護多個復制節點上數據狀態的一致性。按照維護復制一致性的方式來劃分,現有的復制協議可以分為嚴格一致協議和弱一致協議兩種。嚴格一致協議要求任何時刻所有數據庫的復制都是一致的;而弱一致協議允許各個復制之間存在暫時的不一致,但這種不一致總能夠保持在一定的界限之內,而且總是能夠趨于一致(收斂性)。目前,針對移動計算特點開展數據復制/緩存技術的研究最具代表性的是:J.Gray的兩級復制機制、CODA系統以及緩存失效報告廣播技術等,另外,SYBASE公司的移動數據庫產品SQLANYWHERE和SQLREMOTE也采用該技術來支持移動計算環境。
3.2數據廣播
通俗地講,數據廣播是指在移動計算環境中,利用客戶機與服務器通信的不對稱性,以周期性廣播的形式向客戶機發送數據。其最大的優點是,廣播開銷不依賴移動用戶數量的變化而變化,借助數據廣播,可以在一定程度上解決移動數據庫系統的斷接問題。數據廣播的研究可分為服務器和客戶機兩個方面:服務器主要考慮如何組織廣播數據,即數據廣播的調度;移動節點主要考慮如何利用本地緩存進一步減少查詢廣播數據的時間。在國內,長沙國防科技大學的周興銘院士對數據廣播進行了深入研究,提出了數據廣播的多盤調度算法。衡量數據廣播調度算法好壞的參數是訪問時間和調諧時間。
3.3位置相關查詢優化
在移動數據庫中,存在著與位置相關信息的查詢及更新。查詢通常是與位置相關的,即使是同一個問題,在不同的地方,所得查詢結果是不同的,如“最近的超市在哪里?”。移動查詢優化技術是指在傳統分布式數據庫查詢優化技術的基礎上,利用多種方法,消除帶寬多樣性、斷接等因素造成的影響,使查詢引擎能夠根據當前可用網絡條件采取恰當的優化策略;同時,針對移動計算機有限電源能力,合理地組織本地數據庫管理、遠程數據庫訪問等耗電能較多的操作,達到節能目的,延長關鍵數據的可用時間。
采用基于分割的地址更新策略時,由位置服務器維護的移動用戶對象包含以下數據成員和方法:
分割集合——記錄MSS的分割情況,例如{Cell1,Cell2},{Cell3,Cell4,Cell5};
LOC——記錄移動用戶最近報告的地址(無線單元的ID),例如Cell1;
ERR——移動用戶當前所在的分割,例如,若LOC=Cell1,則ERR={Cell1,Cell2};
loc()——一個方法,用于返回該用戶的實際地址,即上面介紹的地址查詢過程。
在移動查詢的應用中,有各種各樣涉及地址的查詢,例如“請尋找一家校園附近的超市”,“查找X,Y,Z,這三人都在同一條公路上,且Y在X與Z之間”,等等。一般地,可以把這一類地址相關查詢表示為:
SELECTx1,x2,…,xn
FROMUsers
WHERE(x1.loc=l1∧…∧xn.loc=ln)∧C(l1,…,ln)∧W(x1,…,xn)
其中C(l1,…,ln)是關于地址l1,…,ln的n元約束條件,而W(x1,…,xn)是關于對象x1,x2,…,xn非地址屬性的n元約束條件,Users是所有移動用戶的集合。
3.4移動事務處理
事務處理是數據庫管理系統的一個基本功能,主要用于維護數據的一致性,支持多用戶的并發訪問,使用戶可以可靠地查詢和更新數據庫。一般來說,用戶對數據庫系統的訪問都是通過事務來完成的。在傳統的數據庫系統中,一個事務由一系列讀寫操作組成。事務處理必須滿足四個準則,即原子性、一致性、隔離性和永久性(簡稱ACID)。移動計算環境的特點,使傳統數據庫系統中的事務處理技術不能滿足移動事務處理的要求。
通常,將移動客戶機發出的事務叫移動事務,它屬于分布事務。移動事務處理具有以下特點:
1)移動性。這不僅指移動事務執行期間,發出事務的移動客戶機是移動的,而且事務本身也在相應地移動。
2)長事務。由于無線網絡通信的低帶寬、高延遲以及移動客戶機的頻繁斷接性,都可能使移動事務成為長事務。
3)易錯性。由于移動客戶機不如固定結點可靠,而且無線網絡通信也不如固定網絡穩定,因此,與一般事務相比,移動事務更容易出錯。
4)異構性。由于客戶機的移動性,移動事務可能要訪問分布的異構數據庫系統。
總之,移動事務不同于傳統事務,傳統的ACID模型已不能很好地描述移動事務,需要為移動事務尋找更好的模型。維護數據的一致性和解決過區切換(handoff)問題是移動事務管理的重要任務。
4嵌入式移動數據庫的應用方向
移動數據庫技術的許多特性都與信息時代的不斷進步的需求相吻合,有著廣闊的發展空間。
4.1嵌入式移動數據庫在物流領域有著廣闊的應用前景
物流的信息化在未來的物流發展中將發揮日益重要的作用,因為及時準確的信息有利于協調生產、銷售、運輸、存儲等業務的展開,有利于降低庫存,節約在途資金等。在運輸方面,利用移動計算機與GPS/GIS車輛信息系統相連,使得整個運輸車隊的運行受到中央調度系統的控制。在存儲環節,帶有嵌入式移動數據庫的手持計算機輸入的信息通過無線通信網絡寫入中央數據庫,大大提高了工作效率和信息的時效性,有利于物流優化控制。在配送環節,輸入手持計算機的數據通過無線網絡傳入中央數據庫。因此,在投遞的同時,用戶即可查詢物品投遞的情況。
4.2嵌入式移動數據庫為移動銀行鋪平了道路
在我國,移動用戶是最具消費潛力的群體,因此針對移動用戶開發的移動銀行業務將具有很大的市場潛力,而且能夠推動移動電子商務的發展。移動銀行可以使客戶在異地對自己的帳務進行實時查詢、交易,方便、省時,降低成本,同時安全可靠,機動靈活??蛻艨梢栽谌魏螘r間,任何地點進行交易,節約了去銀行的時間。出差或旅游在外仍可享受銀行服務。
4.3嵌入式移動數據庫非常有助于提高實地調查/工作的效率
煤氣、水電等公用事業檢查員查驗數據就是一個很好的應用實例,目前一般的檢查員仍然是將檢驗的數據記錄在紙上。如果利用移動計算機記錄和傳輸數據,遇到糾紛時還可以實時地查詢歷史記錄,這將使得我國的公用事業單位的收費工作大大地改善。
除了上述主要應用之外,移動數據庫技術還在零售業、制造業、金融業、醫療衛生等領域展現了廣闊的應用前景。隨著移動計算、移動數據庫和無線數據通信等相關技術迅猛發展,移動數據庫將成為信息社會的重要支柱。
5.總結
本文給出嵌入式移動數據庫的定義,描述了嵌入式移動數據庫的體系結構并簡單分析它的特點,然后詳細分析了嵌入式移動數據庫的關鍵技術,最后展望了嵌入式移動數據應用前景。嵌入式移動數據的相關技術研究不斷取得進步,這為嵌入式移動數據的成熟應用打下了堅實的基礎。
參考文獻
1李東,曹忠升,馮玉才,等.移動數據庫技術研究綜述[J].計算機應用研究,2000(10):4~7
2MadriaSK,MohaniaM,etal.Mobiledataandtransactionmanagement.InformationScience141(2002)279~309
關鍵詞:數據挖掘電子商務關聯規則
1引言
目前,在需要處理大數據量的科研領域中,數據挖掘受到越來越多的關注。我們可以利用數據挖掘技術從海量數據中發現有用信息,幫助商家了解客戶以往的需求趨勢,并預測未來,從而給商家帶來巨大的利潤。在數據挖掘領域,采用關聯規則在大型事務數據庫中進行數據挖掘是一個重要的研究內容。關聯規則是美國IBMAlmadenResearchCenter的RabeshAgrawal等人于1993年首先提出的KDD研究中的一個重要課題。關聯規則挖掘的一般對象是事務數據庫,這種數據庫的主要應用在零售業,比如超級市場的銷售管理。關聯規則就是發現事務數據庫中不同商品(項)(Item,指事務中的內容,比如,面包、牛奶等都是項目)之間是否存在某種關聯關系。通過這些規則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發現這樣的規則可以應用于商品貨架設計、貨存安排以及根據購買模式對用戶進行分類。
2關聯規則描述
目前關聯規則挖掘主要考慮支持度和置信度兩個閾值。設X是項集,T是數據庫DB中的任意一個記錄。X的支持度是指支持X的記錄數與全體記錄數的比,Support(X)=|{T|TX,T∈DB}|/|DB|。蘊涵關系X==>Y在數據庫DB中的置信度是指同時支持X和Y的記錄數與支持X的記錄數之比,即:Confidence(X==>Y)=|{T|TXY,T∈DB}|/|{T|TX,T∈DB}|支持度可理解為在DB中隨機抽取一個記錄,該記錄同時支持X和Y的概率。置信度可理解為在支持X的記錄全體中隨機取一個記錄,該記錄支持Y的概率。
3發現關聯規則的操作步驟
目前,由于條碼技術的發展,顧客在超市中購買商品的信息可以很方便的被存放在數據庫中,針對數據庫中大量的數據,我們如何發現它們之間存在的關聯是本文主要討論的問題。關聯規則的挖掘問題就是在超市事務數據庫DB中找出具有用戶給定的最小支持度和最小置信度的關聯規則。關聯規則的挖掘對市場調節和爭取顧客方面的應用是極有價值的。因此,有必要采用快速算法從超市事務數據庫中挖掘關聯規則。由超市事務數據庫發現關聯規則挖掘可以分以下兩步完成:
1)找出超市事務數據庫DB中所有大于等于用戶指定最小支持度的項目集,具有最小支持度的項目集稱為頻繁項集。
2)利用頻繁項集生成所期望的關聯規則,即這些規則必須滿足最小支持度min_supp和最小置信度min_conf。
事實上,第一步的任務是迅速高效地找出超市事務數據庫DB中全部頻繁項集,數據挖掘所面臨的最大的挑戰是計算效率問題,解決這一問題的途徑是產生高效的數據挖掘算法,但從超市事務數據庫中產生頻繁項集即費時又占用空間,所以說第一步是關聯規則挖掘的核心問題,是衡量關聯規則挖掘算法的標準。當找到所有的頻繁項集后,相應的關聯規則將很容易生成,目前大多數的關聯規則挖掘算法研究是針對第一步而提出的,本文重點討論第一個問題。
4由超市事務數據庫發現關聯規則的總體設計
在現有的不少關聯規則發現算法中,最著名的仍然是R.Agrawal本人在他們自己的AIS算法基礎上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“頻繁項集的所有非空子集都必須也是頻繁的”這一定理對事務數據庫進行多遍掃描。
眾所周知,對數據庫的掃描伴隨繁重的磁盤I/O任務,Apriori算法中,掃描次數較多,這樣就大大限制了挖掘算法的速度。因此,在實際的應用中,減少對事務數據庫的掃描次數,有效地減少數據的吞吐,將會有效提高算法的效率。為了高效率的由超市事務數據庫中發現關聯規則,本系統在Apriori算法的基礎上采用基于劃分的算法。該算法只對事務數據庫DB掃描兩次,大大減少了I/O操作,從而提高了算法的效率。
通過劃分方法進行數據挖掘的過程如下圖所示:
本系統的總體設計包含三部分:
(1)在服務器端第一次掃描超市事務數據庫中的表,按照超市事務數據庫中不同項集的數量,以及兼顧客戶端計算機硬件配置,對其進行數據分塊,分塊的大小選擇要使得每個分塊可以被放入主存。
(2)在各個客戶端計算機上,利用并行技術分別訪問服務器上的數據分塊,求出各數據分塊所對應的局部頻繁項集,并將所求局部頻繁項集存入服務器的一個指定表中。
(3)在服務器端,匯總各個分塊數據生成的局部頻繁項集,第二次掃描超市事務數據庫中的總表,最終生成全局頻繁項集。
系統的總體設計可以如下圖2應用程序總體設計所示。
一旦由超市事務數據庫DB中的事務找出頻繁項集,由它們產生強關聯規則是直截了當的。所謂的強關聯規則是指滿足最小支持度和最小置信度的規則。
數據庫營銷指的是企業通過收集和積累消費者的大量信息,經過處理后預測消費者有多大可能去購買某種產品,以及利用這些信息給產品以精確定位,有針對性地制作營銷信息,以達到說服消費者去購買產品的目的。
因為旅游規劃的本質是為區域旅游的發展指明方向,提供戰略指導,為近期的規劃開發提出具體的、實際性的指導,滿足市場需求的同時,取得利潤的最大化。因此,本文試圖以數據庫營銷的核心貫穿整個旅游規劃的過程,從三個方面:規劃的客源市場調查、具體市場營銷方式、規劃完成后的跟蹤來闡述數據庫營銷的重要性,有別于以前的就營銷而論營銷的做法,以求給以后的旅游規劃提供些許指導與借鑒。
一、問題的提出
目前的旅游規劃文本當中的市場營銷方式大部分仍是以傳統的營銷方式為主,沒有充分考慮客源市場的需求,就營銷論營銷,沒有把營銷的理念貫穿于整個規劃的過程,缺乏整體的營銷觀念,在客源市場調查的過程當中,對消費者需求的調查成分偏少,即使有,在后續的旅游產品設計中也難以體現,降低了客源市場的滿意度。
另外一種情況是在傳統的營銷方式的基礎上,間雜著一些現代營銷方式的手段,如電話營銷、電郵營銷、短信營銷等,都是在探索現代營銷方式,但往往不成體系,在具體的運用過程當中,往往是傳統營銷方式的附庸,難以形成實際的效果。
第三種情況是指目前的旅游規劃文本在指導具體的區域旅游實踐當中的精準性不夠,難以跟上外界環境的變化,沒有充分考慮外界環境的變化,導致規劃文本束之高閣,沒有用處,資源浪費,規劃文本的完成并不意味著規劃過程的完成,規劃的過程是一個反復修正的過程,是在具體的實踐中檢驗的過程。
二、問題的分析
針對上述問題,本文試圖從現代營銷的手段之數據庫營銷的角度去分析,以其核心觀念貫穿整個規劃過程,用以指導具體的規劃過程。
(一)客源市場調查中的數據庫營銷
每一個旅游規劃在具體實施之前,都必須要進行客源市場的調研,了解客源市場的基本情況及消費需求,有必要的話,還依據不同的指標,進行客源市場的細分,以求在具體的規劃過程中能精確定位,投放產品。目前的客源市場調查最常用的是問卷調查,輔之以訪談、電話調查等方式,(在不考慮樣本是否科學性的基礎上)得到客源市場消費者的主觀、客觀數據,進行數據的分析、加工。
可以看出客源市場的這種調查方式是一次性的,消費者在規劃進行過程當中的需求變化及客觀環境的變化并沒有考慮,也就是說規劃默認為客源市場的需求及消費模式短期內是不會變化的,其實不然,環境在時時刻刻的變化,消費者的心理也在時時的變化,因此,在此基礎上,可以嘗試建立所調查樣本的數據庫,以一定的周期為間隔,采取各種數據庫營銷方式進行樣本的調研,對每一個細分市場的樣本進行歸類分析,指導規劃的進行。
(二)以數據庫為基礎的旅游市場營銷模式
傳統的旅游市場營銷方式以產品、價格、分銷、促銷為模式,以遠遠不能滿足現有的消費者的需求,事實證明,這種傳統的、不考慮市場的營銷方式是不科學的,在旅游規劃過程當中應該予以摒棄。取而代之的應該是以消費者為中心的消費者、成本、方便、溝通為模式的“4C”策略,而數據庫營銷是這一策略的最直接的體現,因此,在旅游規劃創作過程當中,其基本的營銷方式應該以定向直郵,電子郵件營銷,網絡傳真營銷和短消息服務等在內的多種形式的數據庫營銷手段為主,深挖其具體內涵,延展其多種利用方式。
通過數據庫了解旅游者的興趣愛好后,就可以在宣傳冊的封面上貼上他們喜歡的產品圖或直接與他們在互聯網上進行交流,當然交流的內容是他們感興趣的話題,這樣有利于加強與旅游者或潛在旅游者的關系。例如,旅行社利用自己的網站,運用數據庫跟蹤旅游者的習慣和興趣愛好,以此為根據向旅游者推薦他們感興趣的旅游線路。對旅游者了解得越多,就越能更好地幫助旅游者解決旅游購買過程中的問題,最后與旅游者建立起良好的商業關系,提升旅游企業的競爭力,并最終促進旅游業的發展。轉(三)規劃文本完成后的數據庫營銷
規劃文本完成以后在具體指導實踐的過程中應該結合環境的變化不斷修正。
可以結合客源市場調查中所建立的數據庫進行再次調查,不斷反復,切實修正提供給消費者的旅游產品的可行性,以求“適銷對路”,另一方面,服務行業的這種數據庫營銷有點類似于物質生產部門的“售后服務”,具體來講,指的是在規劃的實施過程當中,對客源市場或是部分游客進行回訪,收集旅游者的信息,建立數據庫,分析改進。
通過數據庫資料可分析出旅游者的價值取向,然后針對不同旅游者提供不同類型的旅游產品展示、廣告宣傳和銷售方式。一般來說,對旅游者了解越多,就越能提供令其滿意的旅游產品和服務。
三、問題的解決
規劃的本身就是一個營銷的過程,關鍵是采取什么樣的營銷模式以及如何采用的問題,從上述分析,可以看出,營銷的思想貫穿于規劃的始終,客源市場的調研并不僅僅是一個直線式的過程,而更多的是一個循環往復的過程,規劃是一個彈性的過程,是一個不斷修正的過程,對于旅游者的營銷是長期的過程,也是一個培養潛在消費者的過程。具體的數據庫營銷方式有很多,具體采取哪種方式或是幾種方式的組合,應該根據客源市場的情況來定。
四、數據庫營銷在旅游規劃中應該注意的問題
(一)從戰略的高度來看待數據庫營銷的作用
旅游規劃應該用戰略的眼光、用資產的眼光來看待營銷數據庫,特別是應認識旅游者信息的真正價值,將規劃所涉及到的旅游企業規劃從“管理信息”向“利用信息”轉化。企業應切實地制定出營銷信息戰略,對信息收集、維護和利用進行詳細的規劃和評估,從而將數據庫營銷提升到旅游企業戰略的層次上,從戰略的高度來看待數據庫營銷的應用。
(二)確保信息的真實性、一致性和規范化
確保數據庫營銷中的所有數據和活動都可以按照一定的規則度量,能滿足決策分析的需要。