1前言
被引量作為論文學術影響力的主要評價指標,在人才評審、科研立項、科研獎勵等過程中發揮著重要的作用,并衍生出影響因子、H指數等一系列指標。但是其時滯性、片面性及地域差異性等問題也逐漸受到學者的詬病。
隨著互聯網的發展,學術論文的電子化日漸普及,幾乎所有的期刊論文都能夠通過網絡數據庫被獲取,人們對學術文獻的使用得以被服務器記錄,這使得研究者開始關注一個新的學術文獻計量指標———UsageMtricse,即使用量指標。使用量指標能夠即時反映論文被使用的情況,亦能在一定程度上反映在科學研究中被使用但未被體現在引用上的價值。隨著使用量指標被眾多學者所接受,一些數據庫廠商也緊跟步伐,推出了基于自身平臺的使用量指標,如WebofSiencec平臺的Usage指標,Springer的Download指標,Nature的文章頁面瀏覽量指標(ArticlePageViews),PLOS的ArticleLevelMtricse,以及中國知網的總下載量指標、熱度指標等。一般而言,學術論文在被引用前,對其的使用行為包括瀏覽、下載、閱讀等。以論文為載體,知識/信息刊出后,首先被讀者瀏覽發現,其中一部分讀者被某一論文的標題或文摘信息所吸引,進而會進行下載、閱讀,獲取該部分知識/信息,其中更小一部分讀者會在其撰寫的論文中進行引用,然后經同行評議后發表,知識/信息進入一個新的使用-引用的循環中。在這個循環過程中,瀏覽行為夾雜著太多的隨意性,閱讀行為則難以統計,而下載行為則更具針對性也易于記錄。
雖然讀者可以通過共享、文獻傳遞等方式獲得所需論文,但是從總體上看,從數據庫下載仍為互聯網時代獲取論文最主要的途徑,下載量也是最接近、且最易獲取的反映論文實際使用量的指標。因此,在已有研究中,一些學者將論文的使用量等同于下載量,更多的學者直接采用下載量作為主要的使用量指標,來探討其合理性、影響因素以及與被引量的相關性。上述研究為我們了解論文下載量數據的特性等方面提供了豐富的信息,且基本上都認為下載量與被引量之間存在著某種程度的相關性,一些學者甚至提出可以用論文早期下載量來預測其后期被引量,以彌補被引量的時滯性問題。但是,上述研究在數據的選擇和處理上仍有不足之處,從而導致不同研究結果中論文下載量與被引量相關性的顯著水平存在較大差異,使得利用論文早期下載量預測后期被引量的可行性存在一定的爭論。
首先,由于受數據庫供應商的限制,早期的一些研究只能從不同的數據庫獲取下載量和被引量數據。如Moed以期刊TetrahedronLtterse為例,其下載量來源于ScienceDrecti,而其被引量來源于SCI數據庫,結果顯示25個月后兩者的Spearman相關系數僅有0.220;Brody等則分別以arXv.orig和Cite-base作為其下載量和被引量數據的來源,來探討利用早期下載量預測后期被引量的可行性,發現兩者的相關系數從1個月后的0.270上升到24個月后的0.440;Guerrero-Boteh和Moya-Anegon從ScienceDrecti和Scopus獲取下載量和被引量數據來研究兩者之間的相關性,發現在期刊水平上兩者的相關系數為0.780,而在論文水平上兩者的相關系數僅為0.480;Schloegl等利用ScienceDrecti提供的下載量數據,結合JCR或Scopus提供的被引量數據,進行了一系列相關研究,相關系數范圍為0.600—0.800。這些研究雖然通過數據處理,使得每一篇論文的下載量與被引量能夠一一對應,但由于不同數據庫平臺的使用者重合度無法測量,這樣得出的結果可能存在偏差。其次,在單篇論文的水平上,大多數數據庫只提供即時的累積下載量數據,并未提供分年下載數據,這使得研究者要么只能對某一時間剖面的下載量與被引量的相關性進行分析,要么只能從期刊水平上進行相關性的動態分析,而從單篇論文水平上的動態相關性分析則不多見。
而事實上,讀者使用的是論文本身,并非期刊整體,一本期刊所刊發的論文不會集中于完全一模一樣的主題和對象,因此在同一期刊上,也存在著不同的下載模式和引文模式,這些具有不同下載模式和引文模式的論文在下載量和引用量的相關性上有何異同尚未見研究報道。因此,本文擬通過對圖書情報領域中文學術期刊論文下載量與被引量相關性的動態變化過程進行研究,來探尋不同下載模式和引文模式下,下載量與被引量相關性的變化規律。不同于已有文獻,本研究的下載量和被引量數據均來源于同一數據庫———中國學術期刊網絡出版總庫(ChinaAademicJurnalNt-coeworkPblishinugDatabase,CAJD),這一世界上最大的連續動態更新的中國學術期刊全文數據庫。本研究擬研究的問題如下:(1)采用來源于同一數據庫的論文下載量與被引量的相關性,是否高于采用不同數據來源的論文下載量與被引量的相關性?不同下載模式和被引模式下,論文的下載量與被引量的相關性是否存在差異?(2)論文的早期下載量,在不同下載模式和被引模式下,是否都能用于預測論文后期被引量?
2數據和方法
2.1數據來源與處理
以中國學術期刊網絡出版總庫作為數據源,選擇其中的11種圖書情報領域期刊在2006—2008年發表,且在2015年12月31日前獲得過被引和下載的9042篇論文作為研究對象,選擇依據主要是由于這些期刊創刊時間較長,在數據庫中收錄完整,且其出版日和上線日基本一致,從而能夠獲得較為真實的下載量及被引量數據。而《圖書情報工作》、《中國圖書館學報》等期刊因為出版到上線的滯后期較長,未選擇其作為研究對象。將該原始數據集命名為DataSt1e。DataSt1e中,每篇論文所涉及的數據包含論文的基本題錄信息以及該論文在2006—2015年每一自然年的下載量和被引量,分別加總每一自然年的下載量和被引量,得到每篇論文自出版時到2015年12月31日的總下載量和總被引量;由于不同論文出版月份不同,有的在年初出版,有的在年末出版,因此出版月份較晚的論文在出版當年的下載量和被引量無法體現其真實數量,為了更加準確地呈現論文在出版后1年內的下載量和被引量,本文假設每篇論文下載量和被引量在一年的不同月份不存在差異,首先采用如下公式計算絕對下載量。
2.2分析方法
2.2.1聚類分析
采用IBMSPSSStatistics23提供的兩步聚類法(Two-StepCluster),分別根據DataSt2e中每篇論文出版后每年的絕對被引量和絕對下載量進行聚類分析,獲得不同的下載模式和引文模式。具體聚類步驟為:選擇DataSt2e中每年的絕對下載量作為連續變量,聚類準則采用施瓦茲貝葉斯準則(BIC),由于之前對數據已經進行了清理,因此對離群值不再使用噪聲處理,評估字段采用唯一的文件識別號,并勾選創建聚類成員變量,最終得到每一篇論文所屬下載模式。采用同樣的步驟獲得每一篇論文所屬引文模式。聚類質量通過內聚與分離輪廓測量指標(Silhouettemeas-ureofcohesionandseparation)進行評價,該值大于0表明聚類質量較好。
2.2.2相關性分析
采用Spearman相關系數從單篇論文的角度對總下載量與總被引量的相關性進行分析,同時分別對單篇論文的下載量及被引量進行排序,分析兩者的秩序相關性。然后分別研究了總樣本集,以及不同下載模式和不同引文模式下,論文下載量與被引量相關性的變化趨勢。