基于論文摘要和引文文本語(yǔ)料的突破性研究特征詞識(shí)別
發(fā)布時(shí)間:2021-09-29 01:27
[目的/意義]基于作者對(duì)自身研究的描述性評(píng)價(jià)和后續(xù)研究者的評(píng)論性引用視角,利用摘要和引文語(yǔ)料提取突破性研究的特征詞,從而了解突破性研究的摘要和引文語(yǔ)料特征以幫助對(duì)于突破性研究的識(shí)別。[方法/過(guò)程]選取Science評(píng)選為"Breakthrough of the Year"的關(guān)鍵文獻(xiàn)和Nobel Prize獲得者的"key publications"作為突破性研究語(yǔ)料數(shù)據(jù),整合論文的摘要和引文語(yǔ)料進(jìn)行特征詞提取。特征詞提取中,首先利用Stanford CoreNlp工具對(duì)語(yǔ)料進(jìn)行分詞及詞頻統(tǒng)計(jì),并結(jié)合專(zhuān)家意見(jiàn)提取特征詞元。然后將特征詞作為種子詞,利用醫(yī)學(xué)文本的語(yǔ)義關(guān)系對(duì)特征詞進(jìn)行語(yǔ)義拓展。最后通過(guò)查全率和查準(zhǔn)率進(jìn)一步對(duì)比摘要和引文的特征詞拓展前后的檢索識(shí)別效果。[結(jié)果/結(jié)論]突破性研究語(yǔ)料中遴選出8個(gè)摘要語(yǔ)料的特征詞元和8個(gè)引文語(yǔ)料的特征詞元。特征詞檢索識(shí)別中,摘要和引文的拓展特征詞的查全率最高,引文特征詞的查準(zhǔn)率最高,引文拓展特征詞的查全率和查準(zhǔn)率綜合效果較好。
【文章來(lái)源】:圖書(shū)情報(bào)工作. 2020,64(11)北大核心CSSCI
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
突破性研究特征詞提取方法框架
突破性研究語(yǔ)料特征詞選取的重點(diǎn)是選出多篇文獻(xiàn)共同提到的特征詞,無(wú)需考慮反文檔頻率,因此TF-IDF的方法并不適用于此處的特征詞元選取。在篩選特征詞元過(guò)程中,本文選擇傳統(tǒng)的詞頻統(tǒng)計(jì)方式,使用Stanford CoreNlp工具對(duì)語(yǔ)料進(jìn)行分詞及詞頻統(tǒng)計(jì)[19],提高詞頻統(tǒng)計(jì)的準(zhǔn)確性。Stanford CoreNlp工具獲取語(yǔ)料詞頻的步驟為:分詞-詞形還原-基于句法的詞性標(biāo)注-詞頻統(tǒng)計(jì),在此基礎(chǔ)上過(guò)濾標(biāo)點(diǎn)及屬性為CD(純數(shù),基數(shù))的詞,減少標(biāo)點(diǎn)及數(shù)字帶來(lái)的噪音。圖2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”為語(yǔ)料示例展示的詞頻統(tǒng)計(jì)過(guò)程:2.3 基于語(yǔ)義的特征詞元語(yǔ)義拓展
通過(guò)以上方法完成PMC OA Word2vec模型的構(gòu)建,模型構(gòu)建的流程圖見(jiàn)圖3。使用該模型進(jìn)行詞義拓展時(shí),只需某個(gè)詞輸入到模型中,即可輸出與這個(gè)詞義更接近的詞。2.4 提取效果評(píng)價(jià)方法
本文編號(hào):3412931
【文章來(lái)源】:圖書(shū)情報(bào)工作. 2020,64(11)北大核心CSSCI
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
突破性研究特征詞提取方法框架
突破性研究語(yǔ)料特征詞選取的重點(diǎn)是選出多篇文獻(xiàn)共同提到的特征詞,無(wú)需考慮反文檔頻率,因此TF-IDF的方法并不適用于此處的特征詞元選取。在篩選特征詞元過(guò)程中,本文選擇傳統(tǒng)的詞頻統(tǒng)計(jì)方式,使用Stanford CoreNlp工具對(duì)語(yǔ)料進(jìn)行分詞及詞頻統(tǒng)計(jì)[19],提高詞頻統(tǒng)計(jì)的準(zhǔn)確性。Stanford CoreNlp工具獲取語(yǔ)料詞頻的步驟為:分詞-詞形還原-基于句法的詞性標(biāo)注-詞頻統(tǒng)計(jì),在此基礎(chǔ)上過(guò)濾標(biāo)點(diǎn)及屬性為CD(純數(shù),基數(shù))的詞,減少標(biāo)點(diǎn)及數(shù)字帶來(lái)的噪音。圖2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”為語(yǔ)料示例展示的詞頻統(tǒng)計(jì)過(guò)程:2.3 基于語(yǔ)義的特征詞元語(yǔ)義拓展
通過(guò)以上方法完成PMC OA Word2vec模型的構(gòu)建,模型構(gòu)建的流程圖見(jiàn)圖3。使用該模型進(jìn)行詞義拓展時(shí),只需某個(gè)詞輸入到模型中,即可輸出與這個(gè)詞義更接近的詞。2.4 提取效果評(píng)價(jià)方法
本文編號(hào):3412931
本文鏈接:http://www.sikaile.net/tushudanganlunwen/3412931.html
最近更新
教材專(zhuān)著