天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

演進式動態(tài)新聞文檔摘要生成方法研究

發(fā)布時間:2018-10-31 10:43
【摘要】:在現(xiàn)今社會,隨著近十年計算機科學迅猛發(fā)展的浪潮,多文檔摘要技術已經逐漸成長為一個令人興奮并充滿著挑戰(zhàn)的研究前沿,往往通過自然語言處理和信息檢索的聯(lián)合技術來加以解決。面對著當今互聯(lián)網上的信息快速增長,找尋信息的人們往往會發(fā)現(xiàn)自己很難能跟上信息更新的頻率和速度。新聞信息如洪水一般在互聯(lián)網上洶涌襲來,人們很容易被“淹沒”在浩如煙海的信息中,不知道從何開始。因此,人們認為對新聞信息的自動理解已經成為Web信息處理的一個重要成分。 對于一個演進式的新聞主題而言,人們往往有著多重興趣,如:該事件是如何起始的,如何發(fā)展的,當前狀況又是如何,但是傳統(tǒng)的新聞理解技術并不足以應對用戶的這種需求。普通的搜索引擎僅僅只能按照它們的理解對新聞數(shù)據(jù)按照查詢相關度來進行排序,但是它們很難應對各種意圖模糊的新聞主題類查詢。再比如說,即使搜索引擎返回給用戶的結果排序十分理想(雖然這不太可能),用戶也不太會愿意將這些文檔一一閱讀。人們希望能夠有一種簡單瀏覽的方式來掌握整個事態(tài)的發(fā)展流程和演化軌跡。而新聞摘要則正是一個很好的解決方式,可以提供一個經過了壓縮,具有極大信息含量的文檔重組織和展現(xiàn)形式,可以讓用戶能輕松掌握事件的發(fā)展。我們提出了“時序年表”(Timeline)的概念,把一個演進式的新聞按照時間的維度,動態(tài)的摘要生成為一系列相互獨立又互相依賴的子摘要,從而提供了一個展示事件發(fā)展全景概況的靈活方式。 本文具體工作和創(chuàng)新性如下: 1.我們提出了一個面向新聞文檔的全新文本分段算法。相比于傳統(tǒng)的多文檔摘要任務而言,演進式新聞文檔摘要面向的是更為龐大的海量新聞數(shù)據(jù)集。因此,我們在開始摘要生成工作之前,首先會進行一些針對新聞特征的預處理。由于一篇新聞文檔并非是完全不可再分的:一篇新聞文檔通常包含了不止一個事件,而每個事件可能代表著某個新聞主題的某個側面,因此我們從新聞文檔中,抽取出具有原子事件特征的新聞元片段。在同一篇新聞文檔中的所有新聞元事件在一定程度上也是彼此互相獨立的。所以,對于它們而言,并不是所有新聞元都和某個特定的新聞主題緊密關聯(lián)。經過一個細粒度的事件元提取過程,我們可以去除一些事件無關的描述性語句或者過濾掉和當前新聞主題無關的新聞元事件,通過這種方式對海量數(shù)據(jù)進行一步壓縮和預處理。這項工作的挑戰(zhàn)也很明顯,我們需要應對來自文法(如文本,命名實體,時間等)、句法(句子位移,連接詞等)以及視覺要素上的一些約束來進行新聞元片段提取。 2.我們引入了一種全新的摘要任務“演進式動態(tài)新聞文檔摘要”,并提出了兩種解決的算法框架,這些算法框架都可以推廣到所有依賴式摘要生成問題中。給定一個新聞主題文檔集合,系統(tǒng)會自動輸出一個時間年表,而該時間年表下的一系列子摘要代表著該事件隨著時間推移的發(fā)展軌跡。兩個方法之一是基于全局優(yōu)先圖排序算法和局部優(yōu)先圖排序算法的優(yōu)化結合框架,考慮到句子之間跨時間的依賴關系以及同時間下的相互依賴關系。其中,跨時間依賴關系是通過一個時序投影函數(shù),將所有其他時間結點下的句子都投影到某個特定的時間平面上來加以建模的。第二種方式是一個基于約束條件下的迭代式句子替換框架,從一個句子集合中優(yōu)選出最佳句子的子集合生成摘要:子摘要之間不是完全獨立的,而是通過鄰居子摘要來互相優(yōu)化互相精煉生成,反映出新聞演進式的特征。對于每一個子摘要,我們都從兩種角度去考量評價:一種是局部的,基于周圍鄰居時間結點;一種是全局的,基于全數(shù)據(jù)時間結點。 3.我們首次提出了視覺化演進式動態(tài)新聞文檔摘要的概念,并提出了針對視覺化摘要和基于迭代式互相增強算法框架的解決方法。給定某個新聞主題以及相關帶有時間標簽的文檔集,系統(tǒng)會生成一個帶視覺信息的演進式動態(tài)新聞文檔摘要,,其中分別包含文字部分以及圖片部分,兩個部分互為說明互為補充。每個子摘要代表著事件的發(fā)展過程,被全局信息的優(yōu)化條件所約束。在這里,圖片信息可以被用作提示句子摘要信息的線索,從而改變傳統(tǒng)文本摘要的生成方式,這一點將是非常有利的。對于視覺化演進式動態(tài)新聞文檔摘要的生成,我們使用了兩個異質數(shù)據(jù)流,其中圖片數(shù)據(jù)流在以往文檔摘要的生成方法中是往往被忽略了的。此外,由于我們要同時使用兩種異質數(shù)據(jù)流,我們需要通過翻譯模型來建立兩個語義維度的橋梁跨越語義隔閡。對于每個子摘要而言都包含有兩個部分:文本部分和圖片部分。對圖片的選擇會影響到對文本的選擇,反之亦然。我們提出了一個有效的方式來保證這兩部分能夠很好的通過互相增強的方式匹配起來,并且通過全局-局部的約束,將各個子摘要的生成進行統(tǒng)一優(yōu)化。 4.我們提出了兩種可能整合到演進式動態(tài)新聞文檔摘要中的擴展特性。第一種是引入用戶個性化。因為用戶有著個人的喜好,所以可能對自己喜歡閱讀什么樣的內容具有某種傾向性,很明顯的是對于所有用戶都生成一個一模一樣的摘要是不夠的。我們提出了一個交互式的摘要生成方法,允許用戶可以使用“點擊”和“查看”的方式來和摘要生成系統(tǒng)進行交互。人機交互的方式支持用戶點擊句子,并且查看該內容的來源文檔,提供了實時的偽相關反饋。這種隱式的“點擊日志”能反映出人們的興趣。由于用戶的點擊可能比較稀疏,我們使用了“點擊平滑”的方式來擴大點擊數(shù)據(jù)的影響。第二種可擴展的方向是引入大眾熱點信息,我們使用了Twitter網社交媒體的數(shù)據(jù)來捕獲這樣的輔助信息。Twitter系統(tǒng)并不是只有一系列的帖子組成:在帖子的背后是一個潛在的用戶關系網絡圖,包括用戶之間的“粉絲”關系,和帖子之間的“轉發(fā)”關系。對于大眾熱點信息,應該是熱門的并且盡可能避免重復。我們通過一個對用戶以及帖子兩種異質結點進行共同排序的框架,整合信息熱度和信息差異性,基于隨機游走的排序框架甄選出大眾熱點信息。
[Abstract]:......
【學位授予單位】:北京大學
【學位級別】:博士
【學位授予年份】:2013
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 王霞;;讓文檔段首自動空兩格[J];電腦愛好者(普及版);2007年12期

2 陳曉蘇,鄧凡,肖道舉;協(xié)同編著系統(tǒng)實現(xiàn)中的若干問題探討[J];華中理工大學學報;2000年04期

3 耿新,周志華,陳世福;基于混合投影函數(shù)的眼睛定位[J];軟件學報;2003年08期

4 ;QAz疑室[J];少年電腦世界;2005年09期

5 王靜;蔣愛德;;基于投影函數(shù)和梯度方向的快速人眼定位方法[J];科技信息(學術研究);2007年25期

6 梁靜;羅年學;張瑞;李星星;;三種對流層投影函數(shù)的比較及對定位的影響[J];測繪信息與工程;2009年03期

7 陳曉蘇,鄧凡,肖道舉;基于Web的協(xié)同編著系統(tǒng)的設計[J];華中理工大學學報;2000年01期

8 杜志軍;王陽生;;正面人臉圖像中眼睛的定位算法[J];計算機輔助設計與圖形學學報;2009年06期

9 程國;丁正生;劉亞亞;;基于混合投影峰分析的人眼定位方法[J];五邑大學學報(自然科學版);2010年03期

10 向世明,趙國英,陳睿,賈富倉,李華;積厚文檔掃描圖像校正[J];計算機輔助設計與圖形學學報;2005年01期

相關會議論文 前10條

1 高鵬飛;董洋洋;尹倩倩;;對流層投影函數(shù)改進算法研究[A];第三屆中國衛(wèi)星導航學術年會電子文集——S08衛(wèi)星導航模型與方法[C];2012年

2 李軼;胡霞;明東;萬柏坤;;一種改進的混合投影函數(shù)新算法[A];中國生物醫(yī)學工程進展——2007中國生物醫(yī)學工程聯(lián)合學術年會論文集(上冊)[C];2007年

3 陳丹雯;吳玲達;;一種基于互增強原則的視頻檢索重排序方法[A];第三屆和諧人機環(huán)境聯(lián)合學術會議(HHME2007)論文集[C];2007年

4 駱金超;楊粉花;;淺談對流層對GPS定位的影響[A];江蘇省測繪學會2007'學術年會論文集[C];2008年

5 張碩;李建中;王宏志;何震瀛;;基于擴展編碼的在線XML文檔加載機制[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

6 彭菲;劉維湘;陳自強;尤江生;袁克虹;;基于內容圖像搜索的醫(yī)學圖像數(shù)據(jù)庫建立[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年

7 何靖;陳

本文編號:2301878


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2301878.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶193f1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com