一種基于BERT的中文NL2SQL模型
發(fā)布時(shí)間:2022-01-17 09:40
Bert模型為Google開發(fā)的基于Transformer Encoder的大規(guī)模語料預(yù)訓(xùn)練語言模型,在自然語言處理領(lǐng)域(Natural language Processing)近乎各個(gè)子領(lǐng)域內(nèi)均獲得了大幅度的突破。本文在基于Bert作為數(shù)據(jù)增強(qiáng)的基礎(chǔ)上,研究對(duì)當(dāng)前人工智能領(lǐng)域中的一個(gè)實(shí)用性任務(wù):NL2SQL(即“自然語言轉(zhuǎn)SQL語句”任務(wù))。創(chuàng)新地設(shè)計(jì)了新型的針對(duì)19年發(fā)布的首個(gè)中文NL2SQL數(shù)據(jù)集的深度學(xué)習(xí)模型,并達(dá)到了87%左右的準(zhǔn)確率,接近了當(dāng)前State-Of-The-Art模型X-SQL在英文NL2SQL數(shù)據(jù)集WikiSQL上的表現(xiàn)。
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.4:中文NL2SQL數(shù)據(jù)集樣例??-5-??
,丁313'16_3讓2<:3〇14'#衰格名稱??”titimi:?2019年新幵工預(yù)酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出讓”,??”規(guī)劃速筑面積C/im5)”,??1,??"types”:?[#農(nóng)格列所祖應(yīng)的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存儲(chǔ)的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??圖1.5:中文NL2SQL數(shù)據(jù)集中SQL字段說明??下面簡要深度學(xué)習(xí)模型對(duì)于該NL2SQL數(shù)據(jù)集如何才能由用戶問題自動(dòng)構(gòu)??建SQL表達(dá)式。如下圖所示,對(duì)于自然語言查詢語句“二零一九年第四周大??-6-??
???title*:?*表3,?2019年354網(wǎng)(2019.01.28?-?2019.0Z03)全Ufl電影票房TOP10*,???header、[m名稱?,?閥票房(")?,*票房占比(%)?'?場均人次?],??-C〇IaD〇n’:’資M來源:艿思1&影如4.光人證羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??圖1.6:第一條訓(xùn)練樣本??NL2SQL任務(wù)所需做的是將原任務(wù)解耦為各種子任務(wù)來確定最終生成的SQL??表達(dá)式的各個(gè)模塊,進(jìn)而構(gòu)建完整語句并經(jīng)其檢索正確答案。??具體地,通過自然語言査詢語句中的“票房總占比是多少”,模型能夠正確??對(duì)應(yīng)表格中的第三個(gè)特征列“票房占比(%)”,即“sel:⑵”;和對(duì)應(yīng)的聚合函??數(shù),即“agg:間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個(gè)條件同時(shí)確定兩條件間關(guān)系為“AND”,即??確定?“conds”?和?“cond_conn_op”?具體的值。??當(dāng)以上各SQL子句均能正確預(yù)測時(shí),NL1SQL模型即可正確生成對(duì)應(yīng)上述??樣例的SQL表達(dá)式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黃蜂,and?col_l?==,密室逃生,)??-7-??
【參考文獻(xiàn)】:
期刊論文
[1]基于表格的自動(dòng)問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計(jì)算機(jī)工程與應(yīng)用. 2021(13)
碩士論文
[1]面向自然語言問句的結(jié)構(gòu)化查詢語句生成方法研究與實(shí)現(xiàn)[D]. 張立國.天津工業(yè)大學(xué) 2020
本文編號(hào):3594499
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.4:中文NL2SQL數(shù)據(jù)集樣例??-5-??
,丁313'16_3讓2<:3〇14'#衰格名稱??”titimi:?2019年新幵工預(yù)酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出讓”,??”規(guī)劃速筑面積C/im5)”,??1,??"types”:?[#農(nóng)格列所祖應(yīng)的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存儲(chǔ)的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??圖1.5:中文NL2SQL數(shù)據(jù)集中SQL字段說明??下面簡要深度學(xué)習(xí)模型對(duì)于該NL2SQL數(shù)據(jù)集如何才能由用戶問題自動(dòng)構(gòu)??建SQL表達(dá)式。如下圖所示,對(duì)于自然語言查詢語句“二零一九年第四周大??-6-??
???title*:?*表3,?2019年354網(wǎng)(2019.01.28?-?2019.0Z03)全Ufl電影票房TOP10*,???header、[m名稱?,?閥票房(")?,*票房占比(%)?'?場均人次?],??-C〇IaD〇n’:’資M來源:艿思1&影如4.光人證羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??圖1.6:第一條訓(xùn)練樣本??NL2SQL任務(wù)所需做的是將原任務(wù)解耦為各種子任務(wù)來確定最終生成的SQL??表達(dá)式的各個(gè)模塊,進(jìn)而構(gòu)建完整語句并經(jīng)其檢索正確答案。??具體地,通過自然語言査詢語句中的“票房總占比是多少”,模型能夠正確??對(duì)應(yīng)表格中的第三個(gè)特征列“票房占比(%)”,即“sel:⑵”;和對(duì)應(yīng)的聚合函??數(shù),即“agg:間”。從自然語言査詢語句中的“大黃蜂和密室逃生”模型能正確??得出”大黃蜂”和”密室逃生”這兩個(gè)條件同時(shí)確定兩條件間關(guān)系為“AND”,即??確定?“conds”?和?“cond_conn_op”?具體的值。??當(dāng)以上各SQL子句均能正確預(yù)測時(shí),NL1SQL模型即可正確生成對(duì)應(yīng)上述??樣例的SQL表達(dá)式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黃蜂,and?col_l?==,密室逃生,)??-7-??
【參考文獻(xiàn)】:
期刊論文
[1]基于表格的自動(dòng)問答研究與展望[J]. 李智,王震,楊賦庚,奚雪峰. 計(jì)算機(jī)工程與應(yīng)用. 2021(13)
碩士論文
[1]面向自然語言問句的結(jié)構(gòu)化查詢語句生成方法研究與實(shí)現(xiàn)[D]. 張立國.天津工業(yè)大學(xué) 2020
本文編號(hào):3594499
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3594499.html
最近更新
教材專著