人工智能機器學習方法及應用研究
發(fā)布時間:2015-03-25 07:21
1、人工智能機器學習
學習是生物中樞神經(jīng)系統(tǒng)的高級整合技能之一,是人類獲取知識的重要途徑和人類智能的重要標志,按照人工智能大師H•Simon的觀點[1]:學習就是系統(tǒng)在不斷重復的工作中對本身能力的增強或改進,使得系統(tǒng)在下一次執(zhí)行同樣或相類似的任務時,會比原來做得更好或效率更高。
人工智能機器學習則是計算機獲取知識的重要途徑和人工智能的重要標志,是一門研究怎樣用計算機來模擬或實現(xiàn)人類學習活動的學科,是研究如何使機器通過識別和利用現(xiàn)有知識來獲取新知識和新技能。一般認為,人工智能機器學習是一個有特定目的的知識獲取過程,其內部表現(xiàn)為從未知到已知這樣一個知識增長過程,其外部表現(xiàn)為系統(tǒng)的某些性能和適應性的改善,使得系統(tǒng)能完成原來不能完成或更好地完成原來可以完成的任務。它既注重知識本身的增加,也注重獲取知識的技能的提高。
1.1人工智能機器學習基本模型
以H•Simon的學習定義作為出發(fā)點,建立如圖1的基本模型。在人工智能機器學習的過程中,首要的因素是外部環(huán)境向系統(tǒng)提供信息的質量。外部環(huán)境是以某種形式表達的外界信息集合,它代表外界信息來源;學習是將外界信息加工為知識的過程,先從環(huán)境獲取外部信息,然后對這些信息加工形成知識,并把這些知識放入知識庫中;知識庫中存放指導執(zhí)行部分動作的一般原則,由于環(huán)境向學習系統(tǒng)提供的信息形形色色,信息質量的優(yōu)劣直接影響到學習部分容易實現(xiàn)還是雜亂無章。而知識庫則是影響學習系統(tǒng)設計的第二個因素,由于知識庫可能不同,表達方式各有特點,在選擇表示方式上要兼顧表達能力強、易于推理、易于完善及擴展知識表示等幾個方面的要求。執(zhí)行環(huán)節(jié)是利用知識庫中的知識完成某種任務的過程,并把完成任務過程中所獲得的一些信息反饋給學習環(huán)節(jié),以指導進一步的學習。
1.2人工智能機器學習的發(fā)展和研究目標
人工智能機器學習是人工智能研究較為年輕的分支,它的發(fā)展過程大體上分為四個時期[2]。
第一階段是20世紀50年代中葉到60年代中葉,屬于熱烈時期。在這個時期,所研究的是“沒有知識”的學習,即“無知”學習。其研究目標是各類自組織系統(tǒng)和自適應系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進系統(tǒng)的執(zhí)行能力,不涉及與具體任務有關的知識。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。但這種學習的結果遠不能滿足人們對人工智能機器學習系統(tǒng)的期望。
第二階段是在60年代中葉到70年代中葉,被稱為人工智能機器學習的冷靜時期。本階段的研究目標是模擬人類的概念學習過程,并采用邏輯結構或圖結構作為機器內部描述。本階段的代表性工作有溫斯頓(Winston)的結構學習系統(tǒng)和海斯羅思(Hayes-Roth)等的基本邏輯的歸納學習系統(tǒng)。
第三階段從20世紀70年代中葉到80年代中葉,稱為復興時期。在此期間,人們從學習單個概念擴展到學習多個概念,探索不同的學習策略和方法,且在本階段已開始把學習系統(tǒng)與各種應用結合起來,并取得很大的成功,促進人工智能機器學習的發(fā)展。1980年,在美國的卡內基—梅隆(CMU)召開了第一屆人工智能機器學習國際研討會,標志著人工智能機器學習研究已在全世界興起。
當前人工智能機器學習圍繞三個主要研究方向進行:
1.面向任務:在預定的一些任務中,分析和開發(fā)學習系統(tǒng),以便改善完成任務的水平,這是專家系統(tǒng)研究中提出的研究問題;
2.認識模擬:主要研究人類學習過程及其計算機的行為模擬,這是從心理學角度研究的問題;
3.理論分析研究:從理論上探討各種可能學習方法的空間和獨立于應用領域之外的各種算法。
這三個研究方向各有自己的研究目標,每一個方向的進展都會促進另一個方向的研究。這三個方面的研究都將促進各方面問題和學習基本概念的交叉結合,推動了整個人工智能機器學習的研究。
人工智能機器學習的研究目標大致有三個方向,一個方向是基礎性訓究,發(fā)展各種適合機器特點的學習理淪,探討所有可能的學習方法,比較人類學習與人工智能機器學習的異同與聯(lián)系;一個方向是以模擬人類的學習過程出發(fā),試圖建立學習的認識生理學模型,這個方向與認知科學的發(fā)展密切相關;一個方向是應用研究,建立各種實用的學習系統(tǒng)或知識獲取輔助工具,在人工智能科學的應用領域建立自動獲取知識系統(tǒng),積累經(jīng)驗,完善知識庫與控制知識,進而能使機器的智能水平像人類一樣。
2.人工智能機器學習方法
2.1機械學習
機械學習就是記憶,即把新的知識存儲起來,供需要時檢索調用,而無須計算和推理。任何學習系統(tǒng)都必須記住它們獲取的知識。在機械學習系統(tǒng)中,知識的獲取以較為穩(wěn)定和直接的方式進行,不需要系統(tǒng)進行過多的加工。而對于其他學習系統(tǒng),需要對各種建議和訓練例子等信息進行加工處理后,才能存儲起來。當機械學習系統(tǒng)的執(zhí)行部分解決好問題之后,系統(tǒng)就記住該問題及其解?梢园褜W習系統(tǒng)的執(zhí)行部分抽象地看成某個函數(shù),該函數(shù)在得到自變量輸入值(X1,X2,…,Xn)之后,計算并輸出函數(shù)值(Y1,Y2,…,Yp)。機械學習在存儲器中簡單地記憶存儲對((X1,X2,…,Xn),(Y1,Y2,…,Yp))。當需要f(X1,X2,…,Xn)時,執(zhí)行部分就從存儲器中把(Y1,Y2,…,Yp)簡單地檢索出來而不是重新計算它。這種簡單的學習模式如下:
對于機械學習,需要注意:采用適當?shù)拇鎯Ψ绞?使檢索速度盡可能地快;保證所保存的信息適應于外界環(huán)境變化的需要;不能降低系統(tǒng)的效率。
2.2歸納學習
歸納推理是應用歸納方法,從足夠多的具體事例中歸納出一般性知識,提取事物的一般規(guī)律,是從個別到一般的推理。歸納學習是應用歸納推理進行學習的方法,根據(jù)歸納學習有無教師指導,可分為示例學習和觀察與發(fā)現(xiàn)學習。前者屬于有師學習,后者屬于無師學習。
歸納學習系統(tǒng)的模型如圖2所示。實驗規(guī)劃過程通過對實例空間的搜索完成實例選擇,并將這些選中的活躍實例提交給解釋過程。解釋過程對實例加以適當轉換,把活躍實例變換為規(guī)則空間中的特定概念,以引導規(guī)則空間的搜索。
2.2.1示例學習
示例學習又稱實例學習,是通過環(huán)境中若干與某概念有關的例子,經(jīng)歸納得出一般性概念的學習方法。在這種學習方法中,外部環(huán)境提供的是一組例子,每一個例子表達了僅適用于該例子的知識。示例學習就是要從這些特殊知識中歸納出適用于更大范圍的一般性知識,以覆蓋所有的正例并排除所有反例。例如,如果用一批動物作為示例,并且告訴學習系統(tǒng)哪一個動物是"馬",哪一個動物不是。當示例足夠多時,學習系統(tǒng)就能概括出關于"馬"的概念模型,使自己能夠識別馬,并且能將馬與其他動物區(qū)別開來。
2.2.2觀察發(fā)現(xiàn)學習
觀察發(fā)現(xiàn)學習又稱描述性概括,其目標是確定一個定律或理論的一般性描述,刻畫觀察集,指定某類對象的性質。觀察發(fā)現(xiàn)學習可分為觀察學習與機器發(fā)現(xiàn)兩種。前者用于對事例進行聚類,形成概念描述;后者用于發(fā)現(xiàn)規(guī)律,產(chǎn)生定律或規(guī)則。概念聚類的基本思想是把事例按照一定的方式和準則分組,如劃分為不同的類或不同的層次等,使不同的組代表不同的概念,并對每一個組進行特征概括,得到一個概念的語義符號描述。機器發(fā)現(xiàn)是指從觀察事例或經(jīng)驗數(shù)據(jù)中歸納出規(guī)律或規(guī)則的學習方法,也是最困難且最富創(chuàng)造性的一種學習。機器發(fā)現(xiàn)又可分為經(jīng)驗發(fā)現(xiàn)與知識發(fā)現(xiàn)兩種,前者是指從經(jīng)驗數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和定律,后者是指從已觀察的事例中發(fā)現(xiàn)新的知識。
2.3類比學習
類比能清晰、簡潔地描述對象間的相似性。類比學習就是通過類比,即通過對相似事物加以比較所進行的一種學習。例如,當教師要向學生講授一個較難理解的新概念時,總是用一些學生已經(jīng)掌握且與新概念有許多相似之處的例子作為比喻,使學生通過類比加深對新概念的理解。像這樣通過對相似事物的比較所進行的學習就是類比學習。
類比學習主要包括4個過程:
(1)輸入一組已知條件和一組未完全確定的條件。
(2)對輸入的兩組條件,根據(jù)其描述,按某種相似性的定義尋找兩者可類比的對應關系。
(3)根據(jù)相似變換的方法,將已有問題的概念、特性、方法、關系等映射到新問題上,以獲得待求解新問題所需的新知識。
(4)對類推得到的新問題的知識進行校驗。驗證正確的知識存入知識庫中,而暫時還無法驗證的知識只能作為參考性知識,置于數(shù)據(jù)庫中。
類比學習的關鍵是相似性的定義與相似變換的方法。相似定義所依據(jù)的對象隨著類比學習的目的發(fā)生變化,如果學習目的是獲得新事物的某種屬性,那么定義相似時應依據(jù)新、舊事物的其他屬性間的相似對應關系。如果學習目的是獲得求解新問題的方法,那么應依據(jù)新問題的各個狀態(tài)間的關系與老問題的各個狀態(tài)間的關系來進行類比。相似變換一般要根據(jù)新、老事物間以何種方式對問題進行相似類比而決定
2.4解釋學習
基于解釋的學習簡稱解釋學習。解釋學習根據(jù)任務所在領域知識和正在學習的概念知識,對當前實例進行分析和求解,得出一個表征求解過程的因果解釋樹,以獲取新的知識。在獲取新知識的過程中,通過對屬性、表征現(xiàn)象和內在關系等進行解釋而學習到新的知識。
1986年Mitchell等人提出了基于解釋的概括方法,該算法建立了基于解釋的概括過程,并運用知識的邏輯表示和演繹推理進行問題求解,如圖3所示。
在解釋學習中,為了對某一目標概念進行學習,從而得到相應的知識,必須為學習系統(tǒng)提供完善的領域知識以及能夠說明目標概念的一個訓練實例。在系統(tǒng)進行學習時,首先運用領域知識找出訓練實例為什么是目標概念之實例的證明,然后根據(jù)操作準則對證明進行推廣,從而得到關于目標概念的一般性描述,即可供以后使用的形式化表示的一般性知識。
2.5基于神經(jīng)網(wǎng)絡的學習
神經(jīng)網(wǎng)絡的性質主要取決于兩個因素:網(wǎng)絡的拓撲結構;網(wǎng)絡的權值、工作規(guī)則。二者結合起來就可以構成一個網(wǎng)絡的主要特征。
神經(jīng)網(wǎng)絡的學習問題就是網(wǎng)絡的權值調整問題。神經(jīng)網(wǎng)絡的連接權值的確定一般有兩種方式:一種是通過設計計算確定即所謂死記式學習;另一種是網(wǎng)絡按一定的規(guī)則通過學習得到的。大多數(shù)神經(jīng)網(wǎng)絡使用后一種方法確定其網(wǎng)絡權值。比較出名的網(wǎng)絡模型和學習算法有反向傳播算法、Hopfield網(wǎng)絡等。
2.5.1基于反向傳播網(wǎng)絡的學習
誤差反向傳播學習由兩次通過網(wǎng)絡不同層的傳播組成:一次前向傳播和一次反向傳播。在前向傳播中,一個活動模式作用于網(wǎng)絡感知結點,它的影響通過網(wǎng)絡一層接一層地傳播,最后產(chǎn)生一個輸出作為網(wǎng)絡的實際響應。在前向傳播中,網(wǎng)絡的突觸權值全被固定了。在反向傳播中,突觸權值全部根據(jù)突觸修正規(guī)則來調整。特別是網(wǎng)絡的目標響應減去實際響應而產(chǎn)生誤差信號,這個誤差信號反向傳播通過網(wǎng)絡,與突觸連接方向相反,因此叫"誤差反向傳播"。突觸權值被調整使得網(wǎng)絡的實際響應從統(tǒng)計意義上接近目標響應。誤差反向傳播算法通常稱為反向傳播算法,由算法執(zhí)行的學習過程稱為反向傳播學習。反向傳播算法的發(fā)展是神經(jīng)網(wǎng)絡發(fā)展史上的一個里程碑,因為反向傳播算法為訓練多層感知器提供了一個有效的計算方法。
2.5.2基于Hopfield網(wǎng)絡模型的學習
前向神經(jīng)網(wǎng)絡,從學習的觀點看,是強有力的學習系統(tǒng),結構簡單,易于編程。從系統(tǒng)的觀點看,屬于靜態(tài)的非線性映射,通過簡單非線性處理單元的復合映射可獲得復雜的非線性處理能力,但它們因缺乏反饋,所以并不是一個強有力的動力學系統(tǒng)。Hopfield模型屬于反饋型神經(jīng)網(wǎng)絡,從計算的角度講,具有很強的計算能力。系統(tǒng)著重關心的是系統(tǒng)的穩(wěn)定性問題。穩(wěn)定性是這類具有聯(lián)想記憶功能神經(jīng)網(wǎng)絡模型的核心,學習記憶的過程就是系統(tǒng)向穩(wěn)定狀態(tài)發(fā)展的過程。Hopfield網(wǎng)絡可用于解決聯(lián)想記憶和約束優(yōu)化問題的求解。
2.6知識發(fā)現(xiàn)
數(shù)據(jù)庫中的知識發(fā)現(xiàn)是從大量數(shù)據(jù)中辨識出有效的、新穎的、潛在有用的、可被理解的模式的高級處理過程。知識發(fā)現(xiàn)過程如圖4所示:
數(shù)據(jù)選擇是根據(jù)用戶需求從數(shù)據(jù)庫中提取相關數(shù)據(jù)。數(shù)據(jù)預處理是對數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及一致性,對其中的噪音數(shù)據(jù)進行處理,對丟失的數(shù)據(jù)利用統(tǒng)計方法進行填補,形成發(fā)掘數(shù)據(jù)庫。數(shù)據(jù)變換即從發(fā)掘數(shù)據(jù)庫里選擇數(shù)據(jù)。變換的方法主要是利用聚類分析和判別分析。數(shù)據(jù)挖掘是根據(jù)用戶要求,確定知識發(fā)現(xiàn)的目標是發(fā)現(xiàn)何種類型的知識,運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)庫中提取用戶所需要的知識。知識評價主要用于對所獲得的規(guī)則進行價值評定,以決定所得到的規(guī)則是否存入基礎知識庫。
上述知識發(fā)現(xiàn)過程可以進一步歸納為3個步驟,即數(shù)據(jù)挖掘預處理、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘后處理。
知識發(fā)現(xiàn)已在銀行業(yè)、保險業(yè)、零售業(yè)、醫(yī)療保健、工程和制造業(yè)、科學研究、衛(wèi)星觀察和娛樂業(yè)等行業(yè)和部門得到成功應用,為人們的科學決策提供了很大幫助。
3.人工智能機器學習方法的應用
研究表明,目前在眾多涉及計算機處理的技術應用中,人工智能機器學習在許多領域都取得了很大的進步,如用于人工智能、數(shù)據(jù)挖掘、自然語言處理、漢字識別、機器翻譯、專家系統(tǒng)以及商業(yè)領域等?梢哉f,一個系統(tǒng)是否具有“學習”功能己成為是否具有“智能”的一個重要標志。
20世紀90年代逐漸成熟的基于人工智能機器學習的文本分類方法,更注重分類器的模型自動挖掘和生成及動態(tài)優(yōu)化能力,在分類效果和靈活性上都比之前基于知識工程和專家系統(tǒng)的文本分類模式有所突破,成為相關領域研究和應用的經(jīng)典范例[3,4]。近年來,人工智能機器學習與自然語言處理的結合越來越緊密,相應的自然語言學習技術的發(fā)展也越來越快。在自然語言處理及機器翻譯方而,比較流行和傳統(tǒng)的人工智能機器學習方法是基于實例的學習。這種方法給定一些有代表性的實例,從中總結出一些規(guī)律,使其具有代表性和高精確度,并把學習得到的這些特性作為系統(tǒng),賦給另一個從未見過的新事物。比較典型的應用有基于人工智能機器學習方法的自動文摘問題以及用于進行智能中文關聯(lián)詞語識別,中文語句生成和診斷系統(tǒng)等。
人工智能機器學習方法在專家系統(tǒng)及智能決策系統(tǒng)方而的典型應用也很普遍,這方面的研究有:機械設備智能診斷系統(tǒng)的人工智能機器學習機制、故障診斷專家系統(tǒng)中人工智能機器學習方法的研究、基于人工智能機器學習理論的智能決策支持系統(tǒng)模型操縱方法的研究,智能制造系統(tǒng)中人工智能機器學習方法的應用研究等。
人工智能機器學習技術應用于市場營銷、金融、網(wǎng)絡分析和電信領域[5]。在市場營銷領域,人工智能機器學習技術較廣泛地應用于分類型和關聯(lián)型任務;在金融領域,人工智能機器學習技術較廣泛地應用于預測型任務;在網(wǎng)絡分析領域,人工智能機器學習技術應用較為廣泛的是關聯(lián)型任務。在電信領域,人工智能機器學習技術在分類、預測、偵查的任務方面均有廣泛的應用。
此外,人工智能機器學習應用于數(shù)據(jù)挖掘領域[5]或與其它應用技術的結合,比較典型的有基于人工智能機器學習的神經(jīng)網(wǎng)絡初始化方法、進化計算在人工智能機器學習中的應用研究、層次分類中的人工智能機器學習方法研究、基于Rough集方法的數(shù)據(jù)約簡與人工智能機器學習、預測支持系統(tǒng)中的人機界面Agent及其人工智能機器學習。
目前,我們試圖把人工智能機器學習應用到用戶模型的建立更新中。但仍然存在很多難點,如在用戶建模中需要什么樣的人工智能機器學習方法,怎樣獲得大量的人工智能機器學習所需要的訓練樣本,怎樣既能提高用戶模型的精度又能降低運算的復雜度等,這些都還有待進一步研究和探討。
4.小結與展望
人工智能機器學習是人工智能發(fā)展中一個十分活躍的領域,其研究目的是希望計算機具有如同人類一樣從現(xiàn)實世界中獲取知識的能力,同時,以模擬人類的學習過程出發(fā)點,建立學習的計算理論,構造各種學習系統(tǒng)并將之應用到各個領域中去。發(fā)展各種適合機器特點的學習理論,進行基礎性研究。
當前,人工智能機器學習的研究仍繼續(xù)向縱深方向發(fā)展,研究者從各自不同的研究環(huán)境和領域提出多種學習體制、學習方法。但總體來看,為了使人工智能機器學習達到較高水平,應該采用多種學習體制下的集成學習系統(tǒng),以便解決復雜任務和模擬人腦的思維過程,同時在學習機制和學習方法上爭取有質的突破。
在算法研究方面,由于集成學習(EnsembleLearning)可以有效地提高模型的推廣能力,因此從20世紀90年代開始,對集成學習理論和算法的研究成為了人工智能機器學習的一個熱點。早在1997年,國際人工智能機器學習界的權威T.G.Dietterich就將集成學習列為人工智能機器學習四大研究方向之首。四個大方向指通過集成學習方法提高學習精度、擴大學習規(guī)模、強化學習和學習復雜的隨機模型。而在今天,集成學習仍然是人工智能機器學習中最熱門的研究領域之一,研究人員眾多、成果層出不窮,F(xiàn)在已經(jīng)有很多集成學習算法,比如:Bagging算法、Boosting算法、Arcing算法、RandomForest算法等等。
目前的計算機只能是一種初級智能機,人工智能要向前邁進,就不應把自己局限于今天的計算機科學體系。要加強智能與思維的規(guī)律性研究,即加強思維學研究。在人工智能機器學習的研究中,要讓機器從事創(chuàng)造性的思維工作,讓機器從輸入的大量知識中,善于總結、善于學習,善于發(fā)現(xiàn),才能為人類的技術革命做出更大的貢獻。隨著計算機能力的不斷增強,我們有可能只利用計算機強大的計算能力只通過相對簡單和固定的方法達到傳統(tǒng)統(tǒng)計方法無法達到的效果和目的。
5.參考文獻
[1]徐立本.人工智能機器學習引論[M].長春:吉林大學出版社.1993.
[2]劉琴.人工智能機器學習[J].武鋼職工大學學報,2001(6):41-44.
[3]蘇金樹,張博鋒,徐昕.基于人工智能機器學習的文本分類技術研究進展[J].軟件學報.2006,17(9):1848-1859.
[4]王曉曄,張繼東,孫濟洲.一種高效的分類規(guī)則挖掘算法[J].計算機工程與應用,2006(,33):174-176.
[5]黃林軍,張勇,郭冰榕.人工智能機器學習技術在數(shù)據(jù)挖掘中的商業(yè)應用[J].中山大學學報論叢.2005,25(6):145-148.
本文編號:18781
本文鏈接:http://www.sikaile.net/kejilunwen/rengongzhinen/18781.html