1.結果分析
1.1下載模式
樣本中論文總下載量為2,735,208次,篇均下載量為302.50次,單篇最高下載量為5087次。從下載量的分布區間來看,“1≤下載量<1000”的論文數量為8838篇,占樣本總量的97.74%,“1000≤下載量<2000”的論文數量為170篇,“2000≤下載量<3000”的論文數量為27篇,“3000≤下載量4000”的論文數量為6篇,下載量達到4000次以上的論文數量為1篇,可以看出,下載量的分布遵循布拉德福分散定律。在前期研究中,作者對學術論文的下載模式進行了分析。結果表明,樣本論文基于絕對下載量的下載模式可聚類為如圖1所示的4種。
其中,模式D1、模式D2和模式D3的下載量均為第一年最高,然后呈逐年下降趨勢,三者變化趨勢基本一致,擬合曲線均為負冪函數形式,主要是絕對數量上的差異;模式D4的下載量則呈現先降低后上升的趨勢,下載量在第四年到達最低點后又逐漸上升,到第七年的下載量接近第一年的下載量,其函數關系擬合度最高的為二項式。從總體上看,模式D1、模式D2和模式D3可以認為是常態的下載模式,反映了學術期刊論文在使用上的一般性規律,即讀者傾向于使用最新出版的期刊論文,以獲得最新的研究動態。模式D4呈現一種先降后升的特殊下載模式,考慮到其平均下載量也顯著高于其他下載模式,表明這一類下載模式可能包含了更加豐富的下載動機,多重下載動機的疊加一方面使得該模式的論文獲得了更高的下載量,另一方面也改變了其常規的老化模式。Moed和Schloegl等在對其他學科的期刊論文的研究中也有類似發現,并且認為被引量的增加對于下載量的再次上升具有直接作用。
1.2引文模式
樣本總被引量為111,790次,篇均被引量為12.36次,單篇最高被引量為620次,與下載量最高的論文為同一論文。從被引量的分布區間來看,“1≤被引量<50”的論文數量為8805篇,占樣本總量的93.65%,“50≤被引量<100”的論文數量為190篇,“100≤被引量<150”的論文數量為36篇,“150≤被引量<200”的論文數量為9篇,被引量達到250次以上的論文數量為2篇。被引量大體遵循布拉德福分散定律,稍有偏離?;诮^對被引量變化趨勢,作者發現樣本具有3種引文模式。這3種模式的變化趨勢基本一致,均呈先上升后下降的規律,但總被引量相對高的論文(模式C1)達到其被引峰值較晚(3年),模式C2和模式C3更早地達到了其被引峰值。這3種引文模式都屬于“經典引文曲線”,反映了文獻老化規律的普遍存在,同時發現在同一學科中,平均被引量越高,其老化趨勢越緩慢。在其他關于引文模式的研究中,發現除“經典引文曲線”外,還存在睡美人型、雙峰型、波型等不規則引文模式,這些不規則引文曲線的被引量在某一特殊時期,受到外在因素的影響,突然增加或者減少,從而產生了特殊的波動。譬如Mazloumian等人發現,諾貝爾得主的標志性論文被引次數呈爆炸式增長,同時也會帶動該科學家其他論文被引次數的增加,引用動機理論的研究也證實了這一點,但是李江等人的研究卻發現被引次數的增長并不能歸因于獲諾貝爾獎,引文曲線的類型與被引用對象的質量沒有直接關聯。究竟是哪些因素在引文模式的形成和變化中起主要作用,還有待進一步研究。
1.3下載量與被引量的總體相關性
樣本平均下載/被引比為42.54,最高下載/被引比為522,最低下載被引比為3.33。單篇論文下載量與被引量的相關系數為0.712,秩序相關系數為0.743,總體上表現出了較高的相關性。在前期研究中,我們發現下載量呈對數正態分布,因此我們將下載量與被引量分別進行對數轉換后繪制兩者的散點圖,可以直觀地觀察到兩者之間的相關性,通過曲線擬合,兩者關系可表示為線性函數y=1.0595x-1.6432(R2=0.517)。同時對論文出版1-6年后累積下載量與累積被引量進行對數轉換后分別作出散點圖,可以看出在初期,線性關系較弱,并且論文的下載/被引比較高,隨著出版時間的增加,線性關系逐漸加強(相關系數從0.284逐漸上升至0.673),且下載/被引比逐漸上升。由于論文出版初期下載具有較大的隨意性,與被引動機差異較大;隨著時間的延續,下載動機與引用動機的契合度增強。
1.4下載量與被引量的變化趨勢及兩者相關性的動態變化
利用雙Y軸圖可以直觀地呈現下載量和被引量不同的變化趨勢。下載量在論文出版后的第1年即達到峰值,然后緩慢下降;被引量的峰值稍有滯后,在第2年達到峰值,第3年開始直線下降。兩者在7年的時間窗口內均表現出老化現象,下載量在初期老化速度更快。為了研究下載量與被引量的相關性在論文出版后不同年份的差異,本文分別計算了后每一年的下載量與被引量之間的相關系數,同時考慮到兩者的交互作用可能存在滯后性,又對第N年下載量與第N+1年被引量的相關系數,以及第N年被引量與第N+1年下載量的相關系數進行了計算,結果如圖6所示??梢钥闯?在初期,第N年下載量與第N+1年被引量的相關系數較高,暗示前一年的下載量可能對后一年的被引量具有一定的促進作用;而隨著時間的發展,這種下載量效用的滯后性便逐漸消失,表現為第N年下載量與第N年被引量的高度相關性。考慮到讀者多數以論文已有的累積下載量與累積被引量來對論文的影響力進行評價,因此本文對累積下載量與累積被引量的相關性也進行了動態分析。
可以看出,雖然在初期,第N年累積下載量與第N+1年累積被引量的相關系數在三類相關系中最高,但隨著時間的發展,這三類相關系數最終都達到同一水平。論文相關性的變化可以從讀者下載及引用的動機來進行分析。在論文剛發表時,論文的下載量與被引量都接近于零,讀者主要基于論文的內容特征及所在期刊來決定是否下載,此時下載量迅速積累,其被引的概率也隨之增大,但是由于施引文獻從撰寫到投稿,再到出版,需要經歷較長的一段時間,此時被引量仍處于較低水平,而后在出版后的2—3年逐漸達到被引高峰,因此,此時下載量與被引量的相關系數僅為0.4左右。在此之后,下載量與被引量均有了不同程度的分化,高下載量論文與高被引論文憑借其“累積優勢”得到更多下載和被引,兩者在后期下載及引用行為中的權重及相關性得到進一步加強,相關系數上升到0.7左右,并逐漸趨于穩定,此時無論是下載量對于被引量的推動作用,還是被引量對于下載量的牽引作用,效用都已充分發揮。
1.5不同下載和引文模式下論文下載量與被引量相關性動態變化
在本部分研究中,作者進一步對不同下載模式下論文下載量與被引量的相關系數的變化規律進行了研究??梢钥闯?無論是否考慮下載量或被引量作用的滯后效應,4種下載模式的相關系數均隨出版時間的增長而增加,同時明顯地歸為兩個集群:相關系數較高的模式1和模式4,分別代表了平均下載量最高和平均下載量最低的兩種下載模式;相關系數較低的模式2和模式3,則分別代表了下載量居于中間水平的兩種下載模式。但是,由于樣本數據的變異系數較大,各模式下的下載量與被引量相關系數均不高。本文對不同引文模式下論文下載量與被引量的相關系數的變化規律進行了探討。與不同下載模式下的研究結果類似,不同引文模式下的3類相關系數均隨出版時間的增長而增加;在初期,屬于引文模式C2的論文(被引量居于中間水平),其累積下載量與累積被引量相關系數顯著低于引文模式C1和C3的論文,而在6—7年后,各引文模式下論文累積下載量與累積被引量相關系數達到幾乎同一水平。已有學者研究發現,論文下載量與被引量的相關性存在學科差異,暗示在利用早期下載量預測后期被引量時,不同學科之間的預測準確度也必然存在較大的學科差異。
本研究進一步擴展了這一觀點:就算排除了學科差異,對于具有不同早期下載量和下載模式的論文,其預測準確度也會存在差異。Brody等認為,當下載量與被引量具有較好的相關性時,前期下載量可作為后期被引量的一個預測依據;而當下載量與被引量的相關性較差時,下載量可作為一個獨立的“使用影響力”指標,彌補被引量的不足。在本研究中,作者發現,對于高下載及低下載論文,下載量與被引量具有中度的相關性;而下載量居中的論文,下載量與被引量相關性較差;不同引文模式下的研究也有類似發現。因此,雖然在長期時間窗口內,下載量與被引量具有較強的相關性,但是在短期內,下載量與被引量的相關性并不高,特別是下載量與被引量處于中間水平的論文(分別占樣本總量的49%和32%)相關性更弱,因此不建議采用論文出版后5年內的數據來進行后期被引量預測。同時,由于累積下載量與累積被引量的相關性強于分年下載量與分年被引量的相關性,作者建議在后期被引量預測中采用累積數據而非分年數據。
從知識/信息的傳遞過程來看,對于單篇論文,下載行為早于引用行為。一般認為如果下載量與被引量之間存在正相關性,那么就應該是下載為因,引用為果,先期的下載量對于后期的被引量具有某種程度上的決定作用。因此,在預測被引量的研究中,部分學者基于先期的下載量來預測后期的被引量。但實際上,以論文為載體的知識/信息是處在一個使用-引用的循環中,兩者的相關性也與因果性無關,論文后期被引量可能與先期的下載量有關,同樣先期的被引量也可能直接或間接影響后期的下載量,單篇論文的下載量與被引量的關系可能類似于DNA的雙螺旋結構———兩者通過某種函數關系緊密相關,同時相互促進,螺旋式上發展,而驅動兩者向上發展的原始動力,還在于論文本身的質量。因此,如果要利用論文的早期下載量與被引量來對長期的被引量進行預測,必須同時考慮到論文內容特征,期刊特征及學科等因素,作者將在下一步工作中開展此方面研究。
2結論與展望
通過上述分析,本研究主要獲得如下結論:第一,下載量與被引量是分別從不同角度對論文的測度,下載量是從讀者的角度,測量論文被使用的程度;被引量是從作者的角度,評價論文對其有用的程度。因此,兩者既具有一定的相關性,又具有不同的變化規律。本研究發現累積下載量與累積被引量存在線性相關性,且兩者相關性隨時間的增長而增強(從出版后第一年的0.4左右上升到第7年的0.7左右),表明這兩個指標隨著時間的增長在表征論文的使用和有用程度上逐漸達到統一,即隨著時間的增長,對于論文更多的使用是有效的使用,讀者的下載行為更多地轉化成為其引用行為。第二,不同下載模式下,下載量高或低的論文累積下載量與累積被引量的相關系數高于下載量居中的論文;不同引文模式下,被引量高或低的論文累積下載量與累積被引量的相關系數同樣高于被引量居中的論文,但是這一差距隨著時間的增長逐漸消失,表明隨著時間的延續,下載動機與引用動機的契合度增強。
因此,在后期被引量預測時,建議選擇出版后5年及以上的累積數據進行預測。本研究基于論文下載量與被引量相關性的動態分析,對能否利用論文早期下載量預測后期被引量進行了探討,認為早期的高下載和低下載論文更具有可預測性。因此,在后續的研究中我們將對不同下載模式下論文的早期下載量和后期被引量進行回歸分析,以便更好地回答本研究中的問題。隨著信息時代的發展,下載量等基于學術文獻使用的新型數據越來越受到人們的重視,其數據的即時性在領域熱點分析、讀者行為分析等方面具有引文分析無法比擬的優勢,但在學術文獻影響力評價方面仍存在一定的局限性,如數據不透明、易被人為操縱等。如何合理地利用這些新型數據,綜合引文指標、補充計量學指標來構建學術文獻影響力多維評價體系,將成為科學計量學領域的研究熱點之一。