科學論文的引用內(nèi)容分析及其應用
發(fā)布時間:2020-11-12 01:41
引文分析包括了引文著錄信息分析和引文內(nèi)容分析兩部分。與引文著錄信息分析相比,引文內(nèi)容分析研究較少,且多集中在施引文獻主題內(nèi)容研究中,較少深入到文獻全文內(nèi)容層面。參考文獻在文章中的引用內(nèi)容能夠為我們提供更多的引用相關(guān)信息,對了解參考文獻對于施引文獻的作用和價值,挖掘論文作者引用該文獻的意圖與觀點傾向性具有更直接的作用。隨著電子信息技術(shù)的發(fā)展以及大型數(shù)據(jù)庫的不斷拓展和完善,特別是全文數(shù)據(jù)庫的建設(shè),為實現(xiàn)引用內(nèi)容的多角度、系統(tǒng)性分析提供了可能性。本文主要研究工作體現(xiàn)在以下五個方面: (1)系統(tǒng)地構(gòu)建了引用內(nèi)容分析的基本理論框架。以科學計量學、文獻計量學、內(nèi)容分析理論為指導,提出引用內(nèi)容分析的概念、步驟及主要研究內(nèi)容,指出引用內(nèi)容研究范圍應包括引用的主體、時間、主題、位置、動機,以及引用傾向性和強度研究。探討了引用內(nèi)容分析與傳統(tǒng)基于著錄信息的引文分析的區(qū)別與聯(lián)系,其共性是它們都是對引文展開的分析,傳統(tǒng)引文分析方法也適用于引用內(nèi)容分析,其區(qū)別在于引用內(nèi)容分析還需要借助自然語言處理技術(shù)來實現(xiàn),能夠更深入、細致地揭示施引文獻與參考文獻之間繼承和創(chuàng)新的關(guān)系。剖析了引用內(nèi)容分析的功能,揭示出它在科技論文評價、揭示知識結(jié)構(gòu)演化和信息檢索三個方面的應用價值。 (2)從數(shù)據(jù)和方法兩個角度提出引用內(nèi)容分析的實現(xiàn)條件。數(shù)據(jù)條件包括數(shù)據(jù)的可獲得性、可識別性、結(jié)構(gòu)性、整體性和連續(xù)性。實現(xiàn)方法包括引用內(nèi)容抽取方法、數(shù)據(jù)庫的應用和引用內(nèi)容的分析方法。本文以PubMed Central數(shù)據(jù)庫中所有全文數(shù)據(jù)為數(shù)據(jù)來源,實現(xiàn)了引用內(nèi)容的獲取與數(shù)據(jù)庫存儲,并以此數(shù)據(jù)庫為基礎(chǔ),搭建引用內(nèi)容檢索系統(tǒng),為引用內(nèi)容的檢索與應用提供一個數(shù)據(jù)平臺。 (3)從引用發(fā)生的位置、共被引發(fā)生的位置、共被引層次網(wǎng)絡(luò)三個角度展開引用位置分析。首先,采用引文分析與自然語言處理技術(shù)相結(jié)合,對引用發(fā)生位置進行分析,發(fā)現(xiàn)了引文在文章各個章節(jié)中的分布規(guī)律以及在各個章節(jié)中的內(nèi)容特點。其次,根據(jù)共被引發(fā)生的位置,將共被引關(guān)系劃分為四個層次,分別是句子層次、段落層次、章節(jié)層次和文章層次,通過對不同共被引層次上的共被引關(guān)系統(tǒng)計發(fā)現(xiàn),在不同期刊中共被引分布規(guī)律基本相同,在句子層次發(fā)生的共被引關(guān)系最少,文章層次共被引分布最多,4個層次共被引分布的平均比例分布為3.16%、7.29%、18.16%和71.39%。研究結(jié)果還發(fā)現(xiàn),共被引關(guān)系的位置分布與共被引頻次有一定關(guān)聯(lián),共被引頻次越高,句子層次上的共被引關(guān)系越多,文章層次共被引比例越小。最后,分析不同共被引位置上的共被引關(guān)系所構(gòu)成的共被引層次網(wǎng)絡(luò)特征,以CiteSpace軟件為基礎(chǔ),結(jié)合社會網(wǎng)絡(luò)分析方法,識別出各個共被引層次網(wǎng)絡(luò)在傳統(tǒng)共被引網(wǎng)絡(luò)中的結(jié)構(gòu)特征。研究結(jié)果發(fā)現(xiàn),文章層次共被引網(wǎng)絡(luò)可以覆蓋38.58%的傳統(tǒng)共被引網(wǎng)絡(luò),而句子層次共被引網(wǎng)絡(luò)只覆蓋了5.64%,但其覆蓋位置均為傳統(tǒng)共被引網(wǎng)絡(luò)的核心位置,并且構(gòu)成傳統(tǒng)共被引網(wǎng)絡(luò)的子網(wǎng)絡(luò),其覆蓋范圍要高于段落層次共被引網(wǎng)絡(luò)和章節(jié)層次共被引網(wǎng)絡(luò)。 (4)在引用內(nèi)容主題分析中,引入標簽云技術(shù)和主題模型對引用內(nèi)容主題進行分析,標簽云技術(shù)可以直觀地展示出引用內(nèi)容的主題詞,而主題模型可以對引用內(nèi)容主題進行詳細劃分。利用LDA主題模型,對比分析引用內(nèi)容主題與引文自身主題和施引文獻主題的差別,發(fā)現(xiàn)引用內(nèi)容主題比引文自身主題涉及范圍更廣,同時與施引文獻主題也有較大差別,說明引用內(nèi)容在引文知識演化過程中,具有其特有的屬性和價值。根據(jù)信息熵理論,比較引用內(nèi)容中主題詞與施引文獻中主題詞的概念廣義-狹義性,發(fā)現(xiàn)引用內(nèi)容中的主題詞含義要比施引文獻中的主題詞含義狹窄,更傾向于表述某一領(lǐng)域中專有的方法或理論。 (5)以引用內(nèi)容分析理論和方法為基礎(chǔ),揭示引用內(nèi)容在信息檢索、共被引分析和論文評價中的應用價值。首先,以PubMed Central中所有全文數(shù)據(jù)為基礎(chǔ),搭建基于引用內(nèi)容的引文檢索與推薦系統(tǒng),系統(tǒng)測評結(jié)果顯示,此系統(tǒng)對領(lǐng)域內(nèi)的高被引文獻和經(jīng)典文獻具有很好的檢索與推薦效果,并且其平均檢索準確率為56.5%,比Google Scholar高12.5%,比PubMed高43.5%。其次,根據(jù)引用內(nèi)容相似性對四個層次的共被引關(guān)系賦予不同權(quán)重,結(jié)果顯示,四個共被引層次的引用內(nèi)容平均相似性分別為1、0.77、0.64、0.56,文章層次共被引關(guān)系的引用內(nèi)容相似性要明顯高于人們主觀對此層次的權(quán)重賦值,賦予權(quán)重后的共被引分析效果要比傳統(tǒng)的共被引分析效果好。最后,根據(jù)引文的引用內(nèi)容,辨別引文的引用動機,提出引用性質(zhì)評價指標,將引用性質(zhì)劃分為正面引用、負面引用和中性引用,采用線索詞的方法對引用內(nèi)容的引用性質(zhì)進行自動分類,并采用統(tǒng)計檢驗方法驗證此分類方法的準確性在95%以上,對BMC Bioinformatics期刊中引用內(nèi)容的引用性質(zhì)劃分結(jié)果發(fā)現(xiàn),62.88%的引用為中性引用,負面引用占3.53%;根據(jù)引文在施引文獻中的實際被引次數(shù),提出引用質(zhì)量評價指標和H指數(shù)改進指標。
【學位單位】:大連理工大學
【學位級別】:博士
【學位年份】:2014
【中圖分類】:G312;G353.1
【部分圖文】:
引文網(wǎng)絡(luò)分析中,常用的三種引文網(wǎng)絡(luò)類型分別是直接引用網(wǎng)絡(luò)、文獻稱合網(wǎng)絡(luò)和文獻共被引網(wǎng)絡(luò),三種類型網(wǎng)絡(luò)如圖2.1所示[72]。DtrccJ Citation y \ | , p I 丨'Jft接 g 丨用 \Bibliographic ^ ? f*cmip!ing i : k文敝鍋合 0' “ W\ 'i(b二 Co-ckation ^ ^ 本:%丨 cv:> ;圖2.1三種引文網(wǎng)絡(luò)類型Fig 2.1 Three types of citation network直接引用網(wǎng)絡(luò)指的是在一組重要且有代表性的文獻集中,每篇文獻都作為一個節(jié)點,按時間先后標以序號,連接這些節(jié)點并以引用次數(shù)或其被引率為權(quán)值,即構(gòu)成直接引用網(wǎng)絡(luò)圖,如圖2.2直接引用圖中的節(jié)點A到M、A到N、C到0、D到0、E到P都是直接引用關(guān)系。對科學文獻間有向的引用關(guān)系進行研究可以揭示學科領(lǐng)域發(fā)展脈絡(luò)、預測學科發(fā)展熱點,揭示科學發(fā)展過程。-25 -
⑥分析匯總根據(jù)以上內(nèi)容分析的六個步驟,提出引用內(nèi)容分析包含的主要步驟,如圖2.2所示:/確定研究\ /選擇數(shù)據(jù)Z選擇分析||、類目I EmmI、」捕廣r W 廣與計算—丨①探索引用I : I①段落i ①自然語言:行為規(guī)律丨丨①整體性i胃②章節(jié)丨①位置處理:②揭示知識i i②可獲得性丨③句子I②文本內(nèi)容;②文本挖掘』;演化規(guī)律.1③連續(xù)性::④單詞 丨③科學計堂③應用價值:⑤短語、④統(tǒng)i#■析 ■ ■ ‘‘ .,-.?.■;';?????..-...奴‘..:圖2.2引用內(nèi)容分析步驟Fig 2.2 Steps of citation content analysis①確定研究目的,提出研究問題。引用內(nèi)容研究主要有三個目的,首先是揭示施引者的引用行為規(guī)律,包括了引用動機、引文位置分布、共被引位置分布等。其次是揭示引用過程中知識傳播與繼承規(guī)律,包括引用內(nèi)容的主題基本特征、主題演化特征等。最后是探索引用內(nèi)容分析的應用價值。傳統(tǒng)引文分析的應用價值可以體現(xiàn)在遴選核心期刊、科研人才評價、揭示學科發(fā)展特征、信息檢索等領(lǐng)域,引用內(nèi)容分析將在傳統(tǒng)引文分析應用基礎(chǔ)上,體現(xiàn)出其獨特的應用價值。針對以上幾個研究目的,具體研究過程中需要解決以下幾個問題:第一,如何識別引用行為規(guī)律?引用行為規(guī)律對傳統(tǒng)引文分析有什么影響?第二,引用過程中所采用的引用內(nèi)容有什么特點?它與施引文獻和引文本身有什么關(guān)系?第三
引用內(nèi)容獲取模塊包含3部分處理內(nèi)容,分別是數(shù)據(jù)采集、引用內(nèi)容存儲和引用內(nèi)容索引。如圖2.3所示:-丨丨■■丨丨 __丨_丨__丨;__|;| 羅…J界丨想』.丨I __丨—丨'丨,1丨丨藝!,壞_.<|____ MySQL 索引Pubmed Central ^丨參考文獻信息 ^ #教瞧1? ;數(shù)據(jù)庫全文 u 引用句子信息“ 引用句子信息1^ 參考文獻鏈接 參考文獻鏈接r :良-i... I[ 數(shù)據(jù)采集j 引用內(nèi)容存儲 建立索引‘‘圖2.3引文內(nèi)容獲取模塊設(shè)計Fig 2.3 The module design for citation content obtaining-38 -
【參考文獻】
本文編號:2880059
【學位單位】:大連理工大學
【學位級別】:博士
【學位年份】:2014
【中圖分類】:G312;G353.1
【部分圖文】:
引文網(wǎng)絡(luò)分析中,常用的三種引文網(wǎng)絡(luò)類型分別是直接引用網(wǎng)絡(luò)、文獻稱合網(wǎng)絡(luò)和文獻共被引網(wǎng)絡(luò),三種類型網(wǎng)絡(luò)如圖2.1所示[72]。DtrccJ Citation y \ | , p I 丨'Jft接 g 丨用 \Bibliographic ^ ? f*cmip!ing i : k文敝鍋合 0' “ W\ 'i(b二 Co-ckation ^ ^ 本:%丨 cv:> ;圖2.1三種引文網(wǎng)絡(luò)類型Fig 2.1 Three types of citation network直接引用網(wǎng)絡(luò)指的是在一組重要且有代表性的文獻集中,每篇文獻都作為一個節(jié)點,按時間先后標以序號,連接這些節(jié)點并以引用次數(shù)或其被引率為權(quán)值,即構(gòu)成直接引用網(wǎng)絡(luò)圖,如圖2.2直接引用圖中的節(jié)點A到M、A到N、C到0、D到0、E到P都是直接引用關(guān)系。對科學文獻間有向的引用關(guān)系進行研究可以揭示學科領(lǐng)域發(fā)展脈絡(luò)、預測學科發(fā)展熱點,揭示科學發(fā)展過程。-25 -
⑥分析匯總根據(jù)以上內(nèi)容分析的六個步驟,提出引用內(nèi)容分析包含的主要步驟,如圖2.2所示:/確定研究\ /選擇數(shù)據(jù)Z選擇分析||、類目I EmmI、」捕廣r W 廣與計算—丨①探索引用I : I①段落i ①自然語言:行為規(guī)律丨丨①整體性i胃②章節(jié)丨①位置處理:②揭示知識i i②可獲得性丨③句子I②文本內(nèi)容;②文本挖掘』;演化規(guī)律.1③連續(xù)性::④單詞 丨③科學計堂③應用價值:⑤短語、④統(tǒng)i#■析 ■ ■ ‘‘ .,-.?.■;';?????..-...奴‘..:圖2.2引用內(nèi)容分析步驟Fig 2.2 Steps of citation content analysis①確定研究目的,提出研究問題。引用內(nèi)容研究主要有三個目的,首先是揭示施引者的引用行為規(guī)律,包括了引用動機、引文位置分布、共被引位置分布等。其次是揭示引用過程中知識傳播與繼承規(guī)律,包括引用內(nèi)容的主題基本特征、主題演化特征等。最后是探索引用內(nèi)容分析的應用價值。傳統(tǒng)引文分析的應用價值可以體現(xiàn)在遴選核心期刊、科研人才評價、揭示學科發(fā)展特征、信息檢索等領(lǐng)域,引用內(nèi)容分析將在傳統(tǒng)引文分析應用基礎(chǔ)上,體現(xiàn)出其獨特的應用價值。針對以上幾個研究目的,具體研究過程中需要解決以下幾個問題:第一,如何識別引用行為規(guī)律?引用行為規(guī)律對傳統(tǒng)引文分析有什么影響?第二,引用過程中所采用的引用內(nèi)容有什么特點?它與施引文獻和引文本身有什么關(guān)系?第三
引用內(nèi)容獲取模塊包含3部分處理內(nèi)容,分別是數(shù)據(jù)采集、引用內(nèi)容存儲和引用內(nèi)容索引。如圖2.3所示:-丨丨■■丨丨 __丨_丨__丨;__|;| 羅…J界丨想』.丨I __丨—丨'丨,1丨丨藝!,壞_.<|____ MySQL 索引Pubmed Central ^丨參考文獻信息 ^ #教瞧1? ;數(shù)據(jù)庫全文 u 引用句子信息“ 引用句子信息1^ 參考文獻鏈接 參考文獻鏈接r :良-i... I[ 數(shù)據(jù)采集j 引用內(nèi)容存儲 建立索引‘‘圖2.3引文內(nèi)容獲取模塊設(shè)計Fig 2.3 The module design for citation content obtaining-38 -
【參考文獻】
相關(guān)期刊論文 前4條
1 王向陽;馬軍;;一個基于PageRank的科技文獻質(zhì)量評價算法[J];廣西師范大學學報(自然科學版);2009年01期
2 葉繼元;袁培國;吳向東;;引文數(shù)據(jù)中的負面引用初探[J];新世紀圖書館;2007年06期
3 金碧輝;Rousseau Ronald;;R指數(shù)、AR指數(shù):h指數(shù)功能擴展的補充指標[J];科學觀察;2007年03期
4 孫瑞英;從定性、定量到內(nèi)容分析法——圖書、情報領(lǐng)域研究方法探討[J];現(xiàn)代情報;2005年01期
本文編號:2880059
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2880059.html
最近更新
教材專著