時間:2023-05-30 09:58:49
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇模式識別,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
英文名稱:Pattem Recognition and Aitificial Intelligence
主管單位:中國科學技術協會
主辦單位:中國自動化學會;國家智能計算機研究開發中心;中國科學院合肥智能機械研究所
出版周期:雙月刊
出版地址:安徽省合肥市
語
種:中文
開
本:16開
國際刊號:1003-6059
國內刊號:34-1089/TP
郵發代號:26-69
發行范圍:國內外統一發行
創刊時間:1989
期刊收錄:
CBST 科學技術文獻速報(日)(2009)
EI 工程索引(美)(2009)
中國科學引文數據庫(CSCD―2008)
核心期刊:
期刊榮譽:
聯系方式
摘 要 該文在人工免疫系統和克隆選擇原理的基礎上,給出了clonalg算法,并對該算法的實現原理、參數選擇等進行了詳細研究;給出了利用該算法進行數字識別的實例。 關鍵詞 克隆選擇;人工免疫系統;數字識別 1 引言 生物免疫系統是一個高度進化的生物系統,它旨在區分外部有害抗原和自身組織,從而清除抗原并保持有機體的穩定。從計算的角度來看,生物免疫系統是一個高度并行、分布、自適應和自組織的系統,具有很強的學習、識別、記憶和特征提取的能力。人們希望從生物免疫系統的運行機制中獲取靈感,開發出面向應用的免疫系統模型——人工免疫系統(artificial immune system, ais),用于解決實際問題。目前,ais已發展成為計算智能研究的一個嶄新的分支。其應用領域逐漸擴展到了信息安全、模式識別、智能優化、機器學習、數據挖掘、自動控制、故障診斷等諸多領域,顯示出ais強大的信息處理和問題求解能力以及廣闊的研究前景。 克隆選擇是一種常用的ais算法。本文主要探討該算法在數字識別中的應用。 克隆選擇原理最先由jerne提出,后由burnet給予完整闡述。其大致內容為:當淋巴細胞實現對抗原的識別(即抗體和抗原的親和度超過一定閥值)后,b細胞被激活并增殖復制產生b細胞克隆,隨后克隆細胞經歷變異過程,產生對抗原具有特異性的抗體。克隆選擇理論描述了獲得性免疫的基本特性,并且聲明只有成功識別抗原的免疫細胞才得以增殖。經歷變異后的免疫細胞分化為效應細胞(抗體)和記憶細胞兩種。 克隆選擇的主要特征是免疫細胞在抗原刺激下產生克隆增殖,隨后通過遺傳變異分化為多樣性效應細胞(抗體細胞)和記憶細胞。克隆選擇對應著一個親合度成熟(affinity maturation)的過程,即對抗原親合度較低的個體在克隆選擇機制的作用下,經歷增殖復制和變異操作后,其親合度逐步提高而“成熟”的過程。因此親合度成熟本質上是一個達爾文式的選擇和變異的過程,克隆選擇原理是通過采用交叉、變異等遺傳算子和相應的群體控制機制實現的。 根據克隆選擇原理,decastro提出了克隆選擇算法(clonalg算法)模型,并在模式識別、組合優化和多峰值函數優化中得到了驗證。其算法的核心在于增殖復制算子和變異算子,前者與個體親合度成正比,保證群體親合度逐步增大,后者與個體的親合度成反比例關系,保留最佳個體并改進較差個體。 2 clonalg算法 clonalg算法是根據克隆選擇原理設計的免疫算法。解決問題時,一般把問題定義為抗原,而問題的解就是抗體集合。在特定的形態空間中,隨機產生的抗體試圖與抗原發生匹配,即嘗試解決問題。匹配度高的抗體有可能產生更好的解,被賦予更大的克隆概率參與下一次匹配。 抗體和抗原之間的距離d采用漢明距離,如式(1)所示。
抗體和抗原之間的親和力aff與它們的距離成反比,即aff=1/d。 免疫算法的實現步驟如下: 步驟1 初始化抗體集合,隨機產生n個抗體。 步驟2 計算抗體集合ab中所有抗體與抗原ag的親和力。 步驟3 選擇n個親和力最高的抗體,組成一個新的抗體集合。并將這n個抗體按照親和力升序排列。 步驟4 將選中的n個抗體按照對應的親和力進行克隆,產生新的集合c,親和力越高的抗體,克隆的數量就越多,總的數量計算公式如式(2)。 nc是總的克隆數,式(2)右邊是一個和式,其中第i項代表抗體abi產生的克隆數, 是預設的參數因子,n是抗體集合包含的元素個數。 步驟5 新的集合c按照基因重組概率進行基因重組,產生成熟的克隆集合c*。 步驟6 計算成熟克隆集合的親和力。 步驟7 從成熟克隆集合中選擇n個親和力最高的抗體作為記憶抗體的候選,親和力超過現有記憶抗體的候選抗體稱為新的記憶抗體。 步驟8 替換掉親和力最低的d個抗體,并用新的隨機抗體補充。 步驟9 如果抗體集合沒有達到匹配精度要求且進化代數小于最大進化代數,則轉到步驟2,否則算法結束。
3 應用clonalg算法識別數字 模式識別技術是根據研究對象的特征和屬性,利用一定的分析算法,確定研究對象的歸屬和類別,并使結果盡可能符合真實。一般模式識別系統都包括問題描述、系統訓練和模式識別幾個部分。 本系統要解決的問題是識別0到9這十個數字。每個字符都用一個長度l=120的二進制串表示(每一個像素用一個二進制數表示)。原始字符(待識別的字符)(抗原)如圖1所示。
圖1 待識別的字符(抗原) 抗體指令集由10個抗體組成,即取n=10。每次選中5個親和力最高的抗體進行克隆,即n=5。參數 =5。變異率初始值pm=0.05,并根據進化情況進行變化。最大進化代數gen=100,匹配精度取0,即要求完全匹配。 10個抗原(待識別數字)都達到了完全匹配,具體匹配情況如表1所示。 表1 數字0-9的完全匹配代數 抗原(待識別字符) 0 1 2 3 4 5 6 7 8 9 完全匹配代數 36 42 54 47 47 53 49 42 40 53 從表1可以看出,該算法的收斂速度是很快的。 由于篇幅所限,下面僅以數字“3”為例,觀察一下算法的實現過程。 圖2 識別數字“3”的過程 圖2中,第一排按照從左向右的次序:第1幅圖是原始字符,第2幅圖是隨機產生的抗體集,第3幅圖和第4幅圖分別是進化到第10代和第20代的抗體集。第二排按照從左向右的次序:第1幅圖,第2幅圖分別是進化到第30代,第40代的抗體集。最后一幅圖是進化到第47代的抗體集。進化過程中抗體與抗原的距離變化情況如表2所示。 表2 識別“3”時抗體與抗原的距離d的變化 進化代數 5 10 15 20 25 30 35 40 45 47 抗體與抗原的距離d 30 19 12 8 5 3 1 1 1 0 從表2可以看出,實際上進化到35代時,抗體與抗原的距離d=1,在大多數應用中,這已經可以很好地滿足要求了。 4 總結 從上面的討論可以看出,clonalg算法是一種高效、快速收斂的算法,非常適合應用于模式識別。 參考文獻 [1] 閻平凡等著,人工神經網絡與模擬進化計算,清華大學出版社,2000 [2] 陳慰峰著,醫學免疫學,人民出版社,2001 [3] 李濤著,計算機免疫學,電子工業出版社,2004
關鍵詞:CDIO;工程教育;主動學習;經驗學習
作者簡介:袁立(1978-),女,河北邢臺人,北京科技大學自動化學院,副教授;李曉理(1971-),男,遼寧沈陽人,北京科技大學自動化學院,教授,博士生導師。(北京 100083)
基金項目:本文系教育部第五批高等學校特色專業建設項目“自動化CDIO特色專業建設”(項目編號:TS2422)的研究成果。
中圖分類號:G642.0 文獻標識碼:A 文章編號:1007-0079(2013)04-0051-02
CDIO是由美國麻省理工學院、瑞典皇家技術學院、瑞典查爾姆斯技術學院、瑞典林克平大學等四所大學從2000年起合作研究探索的一種新型的工程教育模式。CDIO教育模式力圖培養學生能夠在現代的、基于團隊的環境下構思(Conceive)—設計(Design)—實施(Implement)—運行(Operate)復雜、高附加值的工程產品、過程和系統,讓其成為成熟、有責任感的人。[1]CDIO改革有三個總體目標,即教育學生,使他們能夠更深層次地掌握技術基礎知識,不是通過被動的聽講過程獲取知識,而是讓學生自己構建他們的知識,面對和糾正自身的錯誤理解;教育學生能夠領導新產品、過程和系統的創造與運行,在此過程中培養學生的個人能力和人際交往能力,個人能力包括工程推理和解決問題的能力、科學探索、系統思維和批判性及創造性思維,人際交往能力包括交流溝通和團隊工作能力;第三個目標是使學生能夠理解和研究技術發展對社會的重要性和戰略影響。可以看出,CDIO模式注重扎實的工程基礎理論和專業知識的培養,并通過貫穿整個人才培養過程中的團隊設計和實踐環節的訓練,從而培養既有過硬的專業技能又有良好綜合素質的國際化工程師。[2]
作為高等工程教育的一種新的教育理念,CDIO模式受到越來越多工程學科的重視。北京科技大學(以下簡稱“我校”)自動化專業在2009年以自動化專業工程化、鋼鐵流程自動化為工程背景和專業特色加入了CDIO項目。“模式識別”課程是模式識別與智能系統學科的基礎課,是一門基礎理論與工程實踐相結合的課程。本課程主要討論統計模式識別的分類和識別基本原理、方法。要求學生掌握統計模式識別的基本概念、基本識別原理和方法,了解其發展動態,有效地運用所學知識和方法解決實際問題,為研究新的模式識別的理論和方法打下基礎。[3,4]那么如何在該課程的教學過程中培養學生的綜合素質,滿足學科學習和能力學習的雙重目標,成為需要迫切思考的問題。本文在深入研究和分析“模式識別”課程現有教學模式的問題和不足的基礎上,探索將CDIO教育理念引入該課程,進行教學設計、規劃教學方案、確定教學手段、安排教學內容和考核方式,以促進學生綜合能力的培養。
一、“模式識別”課程傳統教學模式中存在的問題
“模式識別”課程從應用角度來看,屬于人工智能、機器學習的領域,從學術內涵角度來看是進行數據處理、信息分析的學科。該課程在縱向上與概率論、數理統計密不可分,在橫向上注重與數字圖像處理、信號處理、通信原理等專業課程有關聯。可見,該課程對于鞏固已學知識、開展后續專業課學習及未來工作具有積極的指導意義。
該課程內容本身比較抽象性,其概念、原理和方法都隱藏在數學符號中,講課過程中學生往往會感到枯燥、難懂。教師的講解和學生的學習難度都比較大,理論知識學完后學生對于其實際應用有時仍是一頭霧水。傳統教學模式下存在以下一些問題:在教師的授課環節中,往往以教師的授課為中心,而不是以學生為主體,這種重“教”輕“學”的模式不利于學生對基礎知識的掌握;課時的安排上,總課時(32學時)中28學時為理論授課,4學時為實驗。在實驗環節中,學生上機動手編程,根據課上內容設計相應的分類器實現。這種課時安排不利于充分開展工程項目實踐活動,使學生失去了了解模式識別在工程項目中真實應用的機會,限制了其對專業技能的掌握;在實驗環節中,實驗內容的安排基本上以個體為單位的驗證性實驗為主,缺乏多人合作的設計性、綜合性及創新性的實驗,不利于學生團隊協作能力、批判思考能力、綜合解決問題能力及創新能力的綜合培養。
可見,以上重理論輕實踐、強調個人學術能力而忽視團隊協作精神、重視知識學習而輕視開拓創新的培養模式與CDIO理念還有很大差距。
二、基于CDIO的“模式識別”課程教學改革探索
針對目前“模式識別”課程教學中存在的問題對原有的課程體系進行改革,以適應CDIO教育模式下的人才培養目標。我校按照CDIO教學大綱的標準來進行教學設計和教學活動的安排,進行如下一些主要的變革:
第一,從教學內容的安排上進行改革。在教學過程中優化、精選教學內容,確保教學內容相對穩定而又不斷地更新,保持內容的先進性。對基礎理論部分如貝葉斯決策理論、線性與非線性判別函數、近鄰法和集群、聚類分析、特征提取與選擇等知識單元,將主要精力放在精講、訓練與總結這三個環節,對重點、難點講深講透。此外,還根據模式識別領域最近的發展,引入最新科技成果,為學生適當補充統計理論與支持向量機、流行學習理論和稀疏編碼理論等知識。另外,還從橫向上注重與同一層次相關課程(如“數字圖像處理”)的關聯性,使學生把從不同課程上學到的知識整合起來,為將來從事工程項目活動打下基礎。
第二,從教學方式上進行改革。傳統授課方式的一般模式是:教授、復述、周作業、期末一個小的設計項目和最終筆試。要改變這種以教師為中心的教學方式,按照CDIO專業計劃中提倡的一體化學習的思想來完成教學任務。為了考試而死記硬背理論知識會使學生對學習內容理解膚淺,缺少長期學習的積極性。所以在教學中采用主動學習方式使學生直接參與思考和解決問題的活動,讓學生思考概念,特別是新的想法,并要求他們做出明確地反應,使他們明白學到了什么和怎樣學習的。
主動學習方法在課堂教學中有許多靈活的手段,比如授課疑點卡、概念問題、小組討論等等。授課疑點卡通過收集課堂上的反饋來測定學生在理解方面的不足。針對學生提出的問題,教師可以在課程的網頁上回答,也可以在下次課的開始時回答。對學生來講,寫下問題的過程有助于他們組織思路并進行更有效地學習;對教師來講,這些疑點卡能及時糾正學生的錯誤的理解,并幫助教師改進后續的內容。概念問題是一個多項選擇題,用來收集學生對課堂上的反饋,從而了解學生是否理解教學內容并糾正學生的誤解之處。教師在課前把“模式識別”的重要概念以及通常可能的錯誤理解準備成問題,在課堂上適時提出來,學生通過舉手來回答即可。根據回答情況,學生可進行討論或由教師進行點評。小組討論:對于一些相對簡單的內容,讓學生提前預讀,在課上采用分組討論、學生講解、教師總結的方式進行。
第三,采用經驗學習法為學生創造建立信心的機會。工程教育的CDIO教學模式正是基于經驗學習理論的。經驗學習讓學生能夠在模擬工程師角色和工程實踐的環境中進行教學活動。對大多數學生而言,學習和理解理論的動力就是應用理論并與實踐相結合。通過實踐學習能激發他們更大的積極性,并使他們認識到所學的知識是有用的,學習積極性的提高使他們對所學的知識和即得能力更有信心。其結果是讓學生有能力勝任未來工程師的角色。
常用的經驗學習方法就是基于項目的學習。在授課過程中增加模式識別應用項目的內容,如字符識別、車牌識別、人臉識別、膚色分割、圖像檢索等,通過項目講解幫助學生回顧所學的知識,并將理論與實際相結合,使學生學會分析和解決實際問題的方法。另外,還將教師從事的與“模式識別”相關的科研項目介紹給學生,拓展學生的知識面。從實際效果來看,有些學生對實際工程案例和科研工作很感興趣,主動申請“模式識別”方向的本科創新項目和發表學術論文。
對于一些典型的“模式識別”工程項目,學生分團隊后選擇某個工程項目,以團隊合作方式收集和整理有關信息資料,提出解決方案,研究結束后做出演示系統并在課堂上進行講解。
第四,對學習效果的評估方法進行改革,采用多種方法來收集學生在課程學習期間和學習之后等不同時期的學習證據,全面了解學生的學習成績和學習態度有何轉變。第一種方式仍然是傳統的筆試。第二種是口試,可以用于概念問題來判定學生對知識的理解層次。口頭考核能從深層次上反映學生對概念的理解和應用,因為現實中工程師每天都會應用基礎概念進行理性表述,這種方式可以評估學生進行理性表達的能力。第三種是表現評分,通過學生在口頭演講和團隊工作等特定任務中的表現情況來進行評估。第四種是項目審查,對團隊完成的項目進行評估。模式識別項目主要是從分類性能上對學生完成的項目進行評估。
結合CDIO教育模式,通過以上四方面的改革,能夠創設積極的學習情景,激發課堂活力,調動學生的積極性和主動性。這套新的教學體系可以用圖1來描述。
三、結束語
本文在CDIO工程教育模式下,探討了如何對傳統“模式識別”課程教學方法進行改革,提出了一種新的教學體系。近兩年的授課結果表明,新授課體系在CDIO模式下對激發學生學習興趣、明確學習方向、轉變學習態度、提高專業基礎水平和團隊合作意識及提高教學效果等方面發揮出了明顯的積極作用。
參考文獻:
[1]顧佩華,沈民奮,陸小華.重新認識工程教育——國際CDIO培養模式與方法[M].北京:高等教育出版社,2009.
[2]陸鑫,任立勇,王雁東.CDIO模式下軟件工程專業課程的教學評價方式[J].計算機教育,2011,(16):64-67.
關鍵詞:遺傳算法,混沌,圖像分割
0引言
遺傳算法是一種全局優化搜索算法,它使用了群體搜索技術,用種群代表一組問題解,通過對當前種群施加選擇、交叉和變異等一系列遺傳操作,從而產生新的一代種群,并逐漸使種群進化到包含最優解或近似最優解的狀態。近幾年來借助于混沌改進遺傳算法的性能是遺傳算法領域研究的熱點之一,遺傳算法和混沌優化的組合,可以使遺傳算法的全局尋優能力,搜索精度,搜索速度等幾方面得到較明顯的改進。
1混沌的特征和蟲口方程
混沌是存在于非線形系統中的一種較為普遍的現象,具有遍歷性、隨機性等特點,混沌運動能在一定的范圍內按照其自身的規律不重復地遍歷所有狀態。因此,如果利用混沌變量進行優化搜索,無疑會比隨機搜索更具有優越性。科技論文。
描述生態學上的蟲口模型Logistic映射自May于1976年開始研究以來,受到了非線形科學家的高度關注,Logistic映射是混沌理論發展史上不可多得的典范性的混沌模型,如下式所示:
2混沌遺傳算法
基于混沌遺傳算法的二維最大熵算法基本步驟如下:
1.設置混沌遺傳算法的種群規模以及最大進化代數;
2.生成初始群體。隨機產生S 和T ,其中, S ,T ∈(0 ,1) 。然后利用式
計算每個個體的適應值。式(2-1)中的s 和t 分別由以下公式確定:s =(int)( S*255) ,t = (int)(T*255) 。對初始種群執行混沌擾動,如果在C1 步之內找到更優個體,則替換原來的個體,否則保留原個體。科技論文。混沌擾動方式按式(1-1)進行。
3.如果當前進化代數大于G,轉步驟5,否則執行變異操作。變異方式按如下公式進行:
其中,fRandom()產生(0,1)之間的隨機數,如果變異后的個體具有更優的適應值,則把該個體加入當前種群;
4.執行混沌操作。如果在C2 步之內找到更優解,則替代原來的個體, 否則保留原個體。混沌擾動按公式(1-1)進行。結束后轉步驟6。
5. 在較小范圍內執行混沌擾動。擾動方式:
其中m1,m2為混沌變量,且m1,m2∈(0,1)。如果變異后的個體具有更優的適應值, 則替換原來的個體,否則保留原個體。
6.按規定的種群規模直接選擇最優個體進入下一代。
7.如果滿足終止條件, 返回最優解, 否則從步驟3重復上述過程。
8.利用最優解分割圖像。
3實驗結果與分析
為了檢驗本算法的效果,用文中提出的基于混沌遺傳算法(以下簡稱為B算法) 和基于傳統遺傳算法的二維最大熵算法(以下簡稱為A算法)對Couple.bmp 圖像進行了實驗比較。科技論文。當文中算法和基于傳統遺傳算法的二維最大熵算法中各取最大進化代數為10 時,分割效果如圖3、4所示。
圖1 Couple 原圖圖2 Couple圖像直方圖
圖3 A算法結果圖圖4 B算法結果圖
4結論
混沌遺傳算法是混沌思想與遺傳算法思想的結合,比傳統遺傳算法具有更好的群體多樣性、更強的全局尋優能力。文中將混沌遺傳算法與二維最大熵圖像分割算法結合,應用于圖像分割,對比于基于傳統遺傳算法的二維最大熵算法,文中算法具有更強的穩定性,更快的執行速度,分割效果好。
參考文獻
[1]吳薇,鄧秋霞,何曰光.基于免疫遺傳算法的圖像閾值分割.紡織高校基礎科學學報,2004,17(2):160-163
[2]薛景浩,章毓晉,林行剛.二維遺傳算法用于圖像動態分割.自動化學報,2000,26(5):685-689
[3]王小平,曹立明.遺傳算法-理論、應用與軟件實現.西安交通大學出版社.2002
【關鍵詞】入侵檢測系統 人工智能 模式識別
伴隨著互聯網技術的廣泛應用,基于計算機網絡的業務應用領域已經逐步深入到社會各行各業范圍中,計算機網絡的安全性能顯得十分關鍵。計算機網絡的安全定義主要包括保密性、完整性、可用性以及認證等四個重要環節。因為計算機網絡在理念設計、實踐部署以及實際應用過程中存在較大的缺陷,使得計算機網絡安全服務無法得到滿意的結果,所以研發安全可靠的信息安全互聯網產品已經發展成為學術界領域努力的前進方向。入侵檢測技術作為擴充計算機系統安全確保能力、提高信息安全基礎架構完整性的關鍵性領域。因為入侵檢測的操作過程需要面對復雜的網絡環境與變化多端的攻擊方式,這就需要入侵檢測系統具備靈活性、主動性以及自適應性等優秀性能。模式識別環境下入侵檢測技術已經逐步社會重點關注的方向,尤其是模式識別的實際運用,更加是提高入侵檢測系統性能的重要方法。
1 入侵檢測系統的概述
入侵檢測系統的理論定義主要是指在入侵檢測過程中所需要具備的各種基本軟件與硬件的配置組合,其通過對計算機網絡信息系統的實際工作狀態進行實時性的有效監測,發現各種類型的攻擊意圖、攻擊行為或者攻擊后果同時作出相應的響應,從而可以確保計算機系統資源的安全性、運行性與可靠性。其主要功能分別表現在:監控行為、分析系統用戶與執行活動;檢測計算機系統的技術配置與操作漏洞;評估系統取決于計算機資源與數據信息的完整性;模式識別已具備的攻擊行為、統計分析異常行為;對于操作系統進行日志的操作管理;模式識別違反安全策略的系統用戶活動;系統響應入侵行為的事件等。
2 智能入侵檢測技術
現階段大部分入侵檢測系統可以符合大部分系統用戶的實際需求,然而在重點技術領域(金融、商務以及軍事等)的實際應用仍然存在各方面問題,通常表現在:誤報率比較高、報警信息比較多;缺少檢測未知入侵行為的有效技術;自適應與自學習能力比較低;互操作性比較差,無法形成協同防御的完善體系等。人工智能技術的實際應用,為能夠解決上述各種問題積累堅實的基礎。模式識別技術的基本原理是:把一個輸入模式和儲存在計算機系統中的多個參考模式相互對比,尋找出最接近的參考模式,把這種參考模式所代表的類名作為輸入模式的類名輸出。模式識別技術能夠分成學習與識別這兩個具體過程。學習是為了構造識別系統而進行的一種行為,參考模式是通過學習之后確定的。在應用識別系統的過程中,必須實時更新參考模式以增強系統的自適應性,這需要對識別結果集進行學習。本質上,模式識別是對未知樣本進行類歸屬判定的過程;而入侵檢測也是將一個新的實例與原有的規則集進行比較歸類的過程。兩者工作機理非常相似。模式識別的應用對于改善入侵檢測系統的識別精度、識別能力以及智能特性有著重要的影響。
3 智能入侵檢測系統
智能入侵檢測系統主要采取模塊化思想進行設計,其中包含數據采集模塊,特征提取模塊,規則處理模塊,分析檢測模塊和異常響應模塊等。
系統各個模塊的功能如下:
數據采集模塊:實時采集計算機網絡系統的原始數據信息,同時根據各自不同的網絡協議進行解碼操作,然后對解碼處理之后的數據信息進行分片重組、流重組以及代碼轉換等種技術處理,還原數據包的原始數據含義與數據包相關之間的實際關系。
特征提取模塊:對于數據采集模塊直接采集得到的數據信息進行特征化選取,然后對信息數據進行向量化處理,最后生成待檢測的數據樣本。
規則處理模塊:進行規則集的向量化與聚類處理工作。首先根據條讀入的處理規則,對于各條規則進行向量化處理,獲得一個規則向量集,然后對規則向量集進行聚類分析處理,在向量集規模較小的情況不需要進行聚類入生成精簡的參考規則集。
分析檢測模塊:這是計算機系統的核心控制模塊。把待檢測的數據樣本和參考規則集進行比較分析處理,從而確定是否出現入侵狀況。具體的處理過程為:
(1)采取近鄰法分析待檢測的數據樣本和參考規則集。
(2)當歐氏距離d=0的時候,即待檢測的數據樣本和參考規則集中某部分規則進行匹配處理,從而得到分析結果。
(3)當d≠0的時候則采取k-近鄰法進行二次檢測處理,從而得到相應的分析結果。
(4)根據具體的分析結果從而判斷分析待檢測數據樣是否出現異常行為。
(5)假如是異常行為,則會馬上啟動異常響應的處理措施,同時對原規則數據庫進行更新操作;假如是正常行為,則直接退出。
異常響應模塊:對于入侵行為作出響應(報警、日志記錄等)。
4 結語
入侵檢測理論是防火墻技術、數據加密技術以及訪問控制等各種傳統安全技術的重要基礎,作為網絡信息安全防護體系的關鍵構成環節。入侵檢測系統能夠對計算機網絡入侵行為作出相應的識別與響應,其不但能夠檢測來自計算機網絡的實際攻擊行為,也能夠監督系統內部用戶未經授權的訪問活動。模式識別是處于不斷提升發展的新型學科技術,其理論基礎與應用范圍也處于不斷發展的階段。本文提出將模式識別方法具體運用在入侵檢測的技術領域中,把入侵檢測的相關問題轉變成模式識別問題來進行處理,這實際上是一種富有價值的技術解決方案。基于模式識別的入侵檢測系統自適應/學習能力強、成本低和健壯性好,能有效提高系統的安全性。但是,本系統仍存在缺陷:為保證參考規則集的有效性和實時性,需要提取海量的對象行為特征;在高帶寬的網絡環境下,為縮短檢測響應時間,對檢測算法的時空效率提出更高的要求。這兩點對入侵檢測系統的效能來說具有決定性意義,如何快速構建入侵參考模式知識庫、進一步提高檢測算法的智能性和效率,將是進一步研究的方向。
參考文獻
[1]溝口理一郎,石田亨.人工智能[Ml.北京:科學出版社,2005.
[2]蔡自興,徐光v.人工智能及其應用[M].北京:清華大學出版社,2004.
[3]簡清明,曾黃麟,葉曉彤.粗糙集特征選擇和支持向量機在入侵檢測系統中的應用[J].四川理工學院學報:自然科學版,2009,22(5).
[4]趙麗萍.基于模式識別的入侵檢測模型[J].電腦開發與應用,2008,21(6).
[5]胡煜.主分量分析法和K近鄰法應用于基因芯片數據分析[J].北華大學學報:自然科學版,2008,9(1).
[關鍵詞] 模式識別 風險分類 適用性
一、引言
貸款風險分類,就是根據借款人的當前經營情況和違約跡象來判斷其按時還款的可能性并給予風險等級評價,是銀行綜合了借款人財務、非財務因素,對貸款未來安全收回可能性的評價。如何判斷借款人的每個因素對貸款償還的影響程度,以及如何將上述各種因素定性和定量分析歸納匯總,作出全面科學的風險評定是貸款風險分類操作的難點和關鍵。
在現代信用風險度量模型出現以前,測度信貸信用風險的方法主要有:專家制度法、評級法和信用評分法。近年來,一些大的金融機構相繼構建了比較規范的、有重大影響的四大信用風險度量模型:JP 摩根的Credit Metrics 方法;KMV公司的KMV 模型;CSFP(Credit Suisse Financial Products) 的Credit Risk + 方法;麥肯錫公司的信用組合觀點模型(Credit portfolio View)。這四大信用風險度量模型對中國銀行業都有一定的借鑒意義。模型最大的問題是任何一個模型都沒有全面考慮到借款人的道德風險,還有借款人的具體情況,如銀行合同、貸款合同、擔保能力、借款期限等,而且由于經濟制度、金融發展水平等方面的差異,因此,借用西方信用風險模型應慎重,我國應用這些大型量化模型的條件還不成熟。
本文把貸款風險分類看作是一個模式識別問題,在此框架下,就統計模式識別領域中最新使用的神經網絡方法、分類樹法、以及支持向量機三種方法的建模思想、適用性進行比較,并給出有關結論。
二、貸款風險分類是一個模式識別問題
所謂模式識別,就是用計算機的方法來實現人對各種事物或現象的分析、描述、判斷和識別。目前我國實行的貸款風險五級分類法(簡稱風險分類),它是根據貸款對象的第一還款來源與第二還款來源共同特征(財務指標)或屬性(非財務指標)進行識別判斷而進行分類的,其核心在于它以借款人的償還能力作為分類標志。
貸款風險分類的模式識別系統的精度及其正確性,主要取決于(1.3)式中的一些參數的估計的精度。訓練時如果輸入模式樣本的類別信息是已知的,這時可以用“有監督”的模式識別技術,讓識別系統執行一個合適的學習訓練過程,把系統“教”成可使用各種適應修改技術再去識別模式。如果采集到樣本模式是未知類別的,這時可用“無監督的模式識別技術,即必須通過系統的學習過程去得到其所屬的范疇。
三、模式識別技術的建模思路及其適用性分析
目前用于統計模式識別的方法很多,主要有判別分析法、回歸分析法、人工智能(專家系統)、神經網絡、決策樹法、K近鄰法、支持向量機等。本文僅就目前最為流行的人工神經網絡、決策樹法、支持向量機三種非參數模式識別方法建模思路、適用性進行比較分析。
1.神經網絡模型(ANN)
(1)建模思路
人工神經網絡(Artficial Neural Networks ANN )是一種具有模式識別能力,自組織、自適應,自學習特點的計算方法。神經網絡模型建模思路是,首先找出影響分類的一組因素,作為ANN的輸入,然后通過有導師或無導師的訓練擬合形成ANN風險分析模型。對于新的樣本輸入(即一組影響因素值),該模型可產生貸款風險的判別。
(2)適用性分析
神經網絡的適用性首先表現為分類的準確性比較高。特別是在測試數據為非線性關系的情況下,尤其如此;其次是神經網絡有較強的適應訓練樣本變化的能力,當訓練樣本增加新的數據時,能夠記憶原有的知識,根據新增的數據作恰當的調整,使之表示的映射關系能夠更好的刻畫新樣本所含的信息。這一點不僅使得神經網絡具有較強的適應樣本變化的能力,還使它具有動態刻畫映射關系能力,也克服了線性判別分析方法的靜態特點;再次是其具有魯棒性。神經網絡對于樣本的分布、協方差等沒有要求,對樣本中存在的噪音數據、偏差數據不敏感。監管部門在面對眾多監管對象銀行時, 可以根據其報表中的監管指標與監控指標的輸出結果,迅速、準確地判斷商業銀行的經營狀況,就可以輔助以現場檢查的手段,對商業銀行進行適當、適時的干預。
神經網絡方法的主要缺點一是對樣本的依賴性過強,對樣本提出了很高的要求。因為它很少有人的主觀判斷因素的介入;二是解釋功能差。它僅能給出一個判斷結果,而不能告訴你為什么;三是在神經網絡方法中輸入特征變量的確定出關鍵指標問題時,需要依賴于其他的統計分析方法;四是是樣本分成多少個種類,這些問題都是神經網絡方法無法獨自解決的,要依賴于其他方法;五是神經網絡的訓練速度慢且極易收斂于局部極小點,推廣能力差,以及容易出現“過學習”現象。
2.分類樹方法(CART)
(1)建模思路
分類樹方法(CART)是一種由計算機實現,基于統計理論的非參數識別方法。其建模思路是:在整體樣本數據的基礎上,生成一個多層次、多節點的樹,按廣度優先建立直到每個葉節點包含相同的類為止,以充分反映數據間的聯系。然后對其進行刪減,參照一定規則從中進行選擇適當大小的樹,用于對新數據進行分類即建造最大樹,對樹刪減,選擇適當的樹用于新樣本分類。
(2)適用性分析
分類樹方法在銀行貸款風險分類中的適用性首先在于通過借款人經營狀況的變化及其破產的可能性的判斷,來估計其違約的可能性,進而來推測該借款人持有的貸款風險程度。它不但具有哲學上的二分法的優點,而且其分類標準的選擇也包含著經濟理論上的合理性。反映申請者信用關系中各項指標之間的相關性是應用分類樹于信貸信用分類的有利條件,它可以有效地利用定性變量進行分類。
分類樹的缺陷表現在:一是計算量大;二是在一些連續型定量變量的處理上,分類樹就顯得有些力不從心;三是對結點屬性的判定上,往往以葉結點中所含多數樣本的屬性來決定該葉結點的屬性。但如果碰到訓練樣本中某種樣本(譬如好樣本,占大多數)。此時分類的結果很可能是幾乎每個葉結點都是好樣本占多數,或出現一些好壞樣本的個數相當的葉結點。于是就可能出現幾乎所有的葉結點都是好樣本集合,或其中一些結點無法判斷。無論哪種情況出現,都將導致對壞樣本的辨別率降低,進而導致分類樹的效率降低。
3.支持向量機模型(SVM)
(1)建模思路
(2)適用性分析
由于支持向量機出色的學習性能、泛化性能、良好表現和所估計的參數少等特點,能夠較好地解決小樣本、高維數、非線性、局部極小等問題。鑒于支持向量機的諸多優點,國外學者 Van.Gestel(2003)將支持向量機應用到信貸風險分類與評估領域,并與神經網絡及Logistic回歸相比較,得到了較好的結果。同時利用支持向量機,能提高學習機的泛化能力,能成功地解決風險分類、函數逼近和時間序列預測等方面,對構建貸款分類模型也具有重要的實踐意義。
但SVM是解決一個二分類問題,現實中遇到的大都是多分類問題,如支持向量機無法解決信貸風險的五級分類問題。另外,影響支持向量機模型分類能力的參數選擇存在人為確定的主觀性等。
四、結論
從信貸風險管理角度看,信貸風險分類與量化管理是一個必然趨勢。為了提高貸款分類的準確性,必須將上述兩種或兩種以上的方法結合起來使用,取長補短。同時,中國銀行業在運用這些相對復雜的預測技術時,不僅要根據國內的實際情況和銀行業自身發展階段,科學地制定信貸風險管理流程,還要加強人才培養和數據庫建設,盡可能地運用信貸風險管理先進技術將信貸風險損失降到最低限度,實現可持續發展。
參考文獻:
[1]J.P. Morgan.Credit Metrics―Technical Document.1997, 4:2
[2]KMV.Global Correlation Factor Structure. San Francisco:KMV Corporation.1996,8 :16~17
[3]Credit Suisse First Boston. Credit Risk+, A Credit Risk management Framework. Credit Suisse First Boston Internation, 1997
[4]McKinsey and Co, Credit Portfolio View. New York, Mckinsey and Co.1997
[5]曹道勝等:商業銀行信用風險模型的比較及其應用[J].金融研究,2006年第10期
[6]王振民,中國商業銀行貸款風險分析[D].天津大學博士論文,2005年5月,P33
本文在分析輸配電線路安全運行存在問題的基礎上,分別從在輸配電線路的管理中積極運用信息技術;強化輸配電線路的技術管理等方面對輸配電線路的安全運行技術進行了探討。
【關鍵詞】輸配電線路 安全運行 問題 措施
輸配電線路是一種將電力用戶與供電系統連接在一起的電力傳輸設施,其運行安全與否直接決定著電力系統的運行質量,從而直接影響到我們烏魯瓦提水力發電廠的經濟效益。近年來,隨著輸配電線路事故發生率節節攀升,對人們的生命安全造成嚴重威脅。因此,為了確保烏魯瓦提水力發電廠的正常運行以及用戶用電的正常,我們必須采取相應維護措施,加強輸配電線路的安全運行。結合多年實踐經驗,筆者從以下幾個方面對此問題進行探究。
1 輸配電線路安全運行的問題分析
在實際運行過程中,輸配電線路所處的環境較為復雜,影響其安全運行的因素(見表1)也較多。筆者結合自身多年一線實踐經驗,分析、總結輸配電網安全運行中存在的問題。
2 提高輸配電線路安全運行的措施探究
2.1 在輸配電線路的管理中積極運用信息技術
科技是第一生產力,在任何行業都如此。如果能夠熟練運用最新科技產物將給整個輸配電線路的管理工作帶來極大便利。信息技術在配電網中的應用主要在管理設備、檢測運行狀態、管理用電等方面。安全問題一直都是電力行業的重點,要保證電力設備的安全狀態必須對其進行實時監控,對出現的異常及時的進行分析排查。例如我們可以用絕緣系統為例來說明信息技術對配電網的重要作用。對電力設備來說,決定其使用年限的重要因素之一就是絕緣材料,它的使用壽命將直接決定設備的使用壽命。絕緣系統在工作過程長期暴露在電、物理、化學、自然災害等不可抗的損害之下,將不可避免的逐漸老化,嚴重影響其使用性能。在嚴重的情況下,甚至會出現絕緣缺陷的嚴重問題,一旦這些問題沒有及時發現并進行有效改進措施,將會引起運行障礙甚至引發安全事故。而信息技術可以自動實時監控配電網絡中的各個設備和線路,一旦參數出現異常,信息技術都將可以在第一時間發現并排查,以最快的速度恢復正常。提高供電網絡的可靠性。對配電網進行信息技術管理可以提供以下管理功能:
(1)輸配電線路內出現故障時可以及時發現,隔離并排查恢復。
(2)整個恢復過程由電腦自動化全程控制。
(3)在輸配電線路進行故障維修或維護時,能自動實現負荷平衡的配電網供電過程。
(4)對輸配電線路的監控數據都顯示在配有街區線路圖的顯示器上。
(5)可以提供用戶與設備連接的信息。
(6)各種數據顯示結果與檢測報告可以紙質化。
(7)為進一步保證安全配電,可以為相關工作人員提供比較真實的培訓演練過程。
2.2 強化輸配電線路的技術管理
輸配電線路的安全管理是一項涉及項目多、技術要求高、更新速度快的系統工作,在配電網的實際運行維護階段,工作人員應積極引進和運用先進的科學技術,強化輸配電網的技術管理。目前,在輸配電網的運行過程中往往需要用到以下技術,如表2所示。
3 結束語
總而言之,維持輸配電線路的安全運行是一項長期、系統的工作。輸配電線路的正常運行是保證電力系統安全運行的關鍵,也是用戶正常用電的安全保障。因此,對輸配電線路進行安全管理是極為重要的。但是當前我國在輸配電線路的安全運行和管理中還存在一定的不足之處,給輸配電線路的安全運營帶來了隱患。這就需要電力工作人員在日常的工作中及時發現不足,并采取一定的措施如做好日常安全管理;強化輸配電線路的技術管理;在輸配電線路的管理中積極運用信息技術,全面保證電力系統的安全可靠運行,給人們營造一個安全的用電環境,不斷提高人們的生活品質。
參考文獻
[1]吳若愚,彭學洪,張雷.輸配電線路的安全運行問題與對策[J].企業技術開發(下半月),2014(06).
[2]程浩.對輸配電線路安全運行的探究[J].中國科技信息,2013(15).
[3]劉達應.輸電線路人為因素外力破壞原因分析和應對措施探討[J].中國科技博覽, 2011(35).
關鍵詞:膠合板; 聲發射; 小波包變換; 神經網絡
中圖分類號:TN911.7-34; TB52+9文獻標識碼:A文章編號:1004-373X(2011)21-0096-04
Wavelet Feature Extraction and Neural Network Pattern
Recognition of Plywood Acoustic Emission Signals
XU Feng, ZHAO Ming-zhong, LIU Yun-fei
(College of Information Science and Technology, Nanjing Forestry University, Nanjing 210037, China)
Abstract:
To identify the different damage types of plywood, a feature extraction method of plywood acoustic emission signal based on time-frequency and proportion of energy is proposed by combining wavelet-packet time-frequency analysis with energy spectrum. The research indicates that dilatational wave and flexural wave are main modes of plywood matrix cracks signal with wide frequency spectrum, and the energy of signal is mainly concentrated in the first, second, third, fourth and seventh-band of the wavelet power spectrum. Delamination and fiber fracture signals of five-story plywood are mainly dominated by dilatational wave and flexural wave mode respectively, the former frequency is unitary and amplitude is higher, the latter energy mostly focus on the first, second band. Degumming signal waveform are composed of dilatational wave and flexural wave, and the flexural wave is dominant, whose signal energy focus on the first, second, third and fourth band of the wavelet power spectrum. An intelligent pattern classifier with BP neural network was used in recognition of those four kinds of AE signals, the recognition accuracy of flaws amounted to 92.6%.
Keywords: plywood; acoustic emission; wavelet package transform; neural network
0 引 言
聲發射(Acoustic Emission,AE)是材料受外力或內力作用產生變形或斷裂時,以彈性波的形式釋放出應變能的現象[1]。目前聲發射技術作為一種成熟的無損檢測方法,已被廣泛應用于石油化工工業、電力工業、材料試驗等多個領域,但對膠合板的損傷監測,AE技術鮮有報道。
膠合板(也稱夾板)是按相鄰層木紋方向互相垂直的單板,經組坯膠合而成的板材,在我國已廣泛應用于家具工業和建筑工業。膠合板的損傷模式主要包括基體開裂、纖維斷裂、脫膠、分層等,每一種損傷都對應特定的聲發射信號。然而,不同的損傷模式通常以組合形式出現,類別特征相互重疊[2],同時由于傳播介質的各向異性和多源性噪聲的污染,加大了AE信號鑒別的難度。因此,提取各聲源信號特征與識別其損傷模式是聲發射應用的首要任務和核心技術。
由于小波分析同時具有時域和頻域表征信號局部特征的能力,所以特別適合分析瞬態特性的聲發射信號。文獻[3]用小波變換的方法分析了薄板中的彈性波,指出在波的傳播過程中,多模式和頻散的特性、模式的分離有助于準確提取信號中的信息。文獻[4]用Daubechies離散小波進行了多尺度分解,利用頻率能量分析玻璃纖維增強復合材料的不同損傷模式。通過區分能量的大小和不同能量所處的頻率范圍揭示了材料的破損模式。同時,近年來的研究發現,人工神經網絡可對數據量多、特征復雜的信號提供準確度較高的自動分類能力。因此,本文結合小波分析和人工神經網絡技術對膠合板不同損失聲發射信號進行特征提取和模式識別。
1 小波包能量特征提取算法
1.1 小波包定義[5]
給定正交尺度函數Е(t)和小波函數(t),其中:
1.2 基于小波包分解的能量特征提取算法
小波包分解是在多分辨率基礎上構成的一種更精細的正交分解方法。它根據被分析信號本身的特點,自適應地選擇頻帶,確定信號在不同頻段的分辨率。分解得到的各個頻段分量既包含了信號的局部特征,也包含了不同的時間尺度信息,從而精確地給出信號能量隨頻率和時間的聯合分布情況,即各頻帶能量的變化表征了各種信源的特征。因此,本文提取各尺度下各頻段分量的能量占比作為各信號特征向量來識別聲源類型。基于小波包分解的能量特征提取步驟如下:
(1) 對原始信號進行k層小波包分解,分別選擇第k層從低頻到高頻包含主要信息的前n(n≤2k)個頻段分量的信號特征;
(2) 對小波包分解系數重構(重構信號設為Ski),提取各頻段范圍的信號;
(3) 求各頻帶信號的總能量Eki:
И
И
2 人工神經網絡模式識別方法
2.1 神經網絡的選擇
人工神經網絡是一個高度非線性的自適應并行分布處理信息系統,其信息處理由神經元之間的相互作用來實現。信息的存貯表現為神經元之間的物理聯系。網絡的學習取決于神經元連接權系的動態演化過程。神經網絡的類型多種多樣,但與模式識別的結合最成功的是多層前饋網絡,也就是通常簡稱的BP(Back-propagation Network)網絡[6],本文即選其進行模式識別。
2.2 BP網絡結構的設計
由BP定理可知, 一個帶S型激活函數的三層BP網絡,只要隱節點數足夠多,能以任意精度逼近有界區域上的任意連續函數,即一個三層的BP網絡就能完成任意的n維到m維的映射。BP神經網絡最重要的是隱含層的確定。雖然隱層神經元數目的選擇不存在一個理想的解析式,但隱單元數目與問題的要求、輸入/輸出單元的數目都有著直接關系。綜合現有文獻,隱含層元個數的計算公式為:
И
n1=n+m+a
(7)
И
式中:n1為隱單元數;m為輸出神經元數;n為輸入單元數;a是[0,10]之間的常數。
輸入層節點數一般由一組特征值樣本的數據量決定。在分類網絡中輸出層節點數可取類別數x或┆log x。П疚囊含層采用雙曲正切S型激活函數,輸出層采用對數S型激活函數。
2.3 訓練函數的選擇
采用不同的訓練函數對網絡的性能可能會有影響,比如收斂速度等。本文應用各種典型訓練函數對網絡進行訓練,觀察各種訓練算法的收斂速度和誤差,最后確定Levenberg-Marquardt算法為本識別的最優訓練函數。
3 實驗和分析
3.1 實驗方法[7]
試驗對普通膠合板的膠合強度進行測試研究。樣品選用德華裝飾有限公司的“兔寶寶”牌5層膠合板,其內部為雜木夾芯,外覆桃花芯面板,由環保脲醛膠粘合而成。試樣(如圖1所示)按GB9846.9定義的普通膠合板力學性能測試試件方法鋸制,尺寸為250 mm×25 mm×5 mm。試驗測試溫度為25 ℃,樣品為氣干狀態。加載系統為深圳新三思有限公司SANS-CMT6104臺式萬能試驗機;采集系統選用美國PAC公司PCI-2聲發射采集系統,用兩個寬帶傳感器S9208組成線定位陣列方式,同時采集各個波擊的波形。
試驗中為保證傳感器與材料表面良好耦合,選用真空脂作為耦合劑,傳感器采用透明膠帶固定在試樣的表面。試樣兩端夾緊于試驗機的一對活動夾具中,使其成一直線,試樣中心通過活動夾具的軸線,拉伸沿試樣長度方向進行,等速加荷,速度為3 mm/min,最大破壞荷重的讀數精確到5 N,拉伸過程在準靜態條件下進行,直到試樣斷裂為止。拉伸模型如圖2所示。
圖1 五層膠合板拉伸試樣圖(單位:mm)
3.2 膠合板加載聲發射信號特征分析
對于厚度方向尺寸遠小于其他兩個方向的板而言,相應于一定的激勵條件,在其中主要形成的是板波(Lamb波)。由文獻[8-9]可知,受激勵后,板中存在多種模式的板波,但當板厚遠小于波長時,主要以兩種模式的波為主,即最低階的對稱波S0和最低階的反對稱波A0。前者即是膨脹波,其傳播速度是一個定值,沒有頻散效應;后者亦稱彎曲波,它的傳播速度與角頻率的平方根成正比,有頻散效應。一般情況下,板中的波是這兩種波的組合,這兩種波位移的相對幅度同激勵方式有關。研究發現[8],當激勵力源作用方向與板平面垂直時,在板中主要產生的是彎曲波。相反,當力源作用方向沿板方向時,產生的主要是膨脹波。一般而言,膨脹波的高頻成分要比彎曲波豐富。膠合板受載形變作為強聲發射源,其聲源有基體開裂、纖維斷裂、脫膠、分層等。理想上,纖維斷裂總在平面內完成,其類似于一個沿板平面方向的力源,因此,激發的聲發射信號應以膨脹波為主,無頻散效應;而分層損傷則明顯沿板厚方向發生,類似于一個沿板平面垂直方向的力源,因此,所激發的聲信號波形當以彎曲波為主,存在頻散效應;基體開裂、脫膠產生的聲發射信號,其特征介于兩者之間,┮話閿ν時表現為膨脹波和彎曲波兩種組合形式。
3.3 實驗結果分析
本文選用db3小波[10-12]對采集的聲發射信號做5層小波包分解,并進行第五層系數重構,計算各葉子能量占比,繪制時頻、小波包譜和頻譜圖,比較各典型信號的特征差異。由實驗結果得知,聲發射源主要集中在主損傷區或斷裂部位。考慮到聲源的位置、材料物理特性及波的傳播對類別特征的復雜影響[2],將所有樣本取自主損傷區寬20 mm范圍內的事件。對比四種典型的聲發射源波形、頻譜和小波包譜圖,篩選出四類樣本數據集,并應用小波閾值法消噪,得到各類別信號的典型波形如圖3~圖6所示。觀察圖3~圖6中信號的傅立葉頻譜發現,膠合板破壞損傷多以低于300 kHz以下的頻率信號為主,且難以區分其特征差別。為獲取各損傷信號的特征,必須結合小波包時頻和小波包譜圖分析。
圖2 五層膠合板拉伸模型示意圖
基體開裂如圖3所示,波形以低幅度較寬脈沖為主,頻段較寬,膨脹波和彎曲波模式并舉。FFT主峰頻率位于40~180 kHz,小波時頻圖特征峰約集中在100 kHz以下和200 kHz處,發生的時間約在0.5~1.2 ms之間。小波包譜峰位于第一至第四和第七頻段內,其中第一、第二頻段的能量接近,總和約占總能量的60%,剩余40%幾乎集中于第三、四、七段。
圖3 膠合板基體開裂原始信號(去噪)
及其頻譜、時頻、小波包能量譜圖
圖4為五層膠合板纖維斷裂圖,由圖中得出的信號主要以高幅度較寬脈沖形式出現,頻率較低且單一,無頻散現象。纖維斷裂的FFT峰值主要集中在22~40 kHz,時頻圖特征峰位于40 kHz處,持續時間約為1 ms,小波譜峰值主要位于第二頻段,能量占到總能量的70%以上,第一、四頻段能量約占20%。結合樣品斷口紋理分析,斷裂主要沿垂直于纖維方向擴展,呈剪切斷裂方式,波形以膨脹波為主導,基本與第3.2節的信號分析一致。
五層膠合板脫膠信號如圖5所示,信號以中低幅窄脈沖為主,波形為彎曲波模式和膨脹波模式的混合型,且彎曲波模式占主導。受膨脹波成分的影響,在200 kHz頻率處也出現峰值,能量在大于100 kHz頻域上有所分布,但主要集中在小于50 kHz的頻域。從失效樣品查看,明顯存在分層和互相滑移現象,與上述分析基本一致。
圖4 膠合板纖維斷裂原始信號(去噪)
及其頻譜、時頻、小波包能量譜圖
圖5 膠合板脫膠原始信號(去噪)
及其頻譜、時頻、小波包能量譜圖
觀察圖6發現,五層膠合板分層信號中傅里葉頻譜的峰值主要位于11~55 kHz,小波時頻圖的特征峰主要集中在40 kHz處,持續時間約為1.2 ms,小波包譜能量主要集中在第一、二、三、四段,且第一、二段能量所占比重接近,總和占到了總能量的85%。信號多以中幅度寬脈沖形式為主,信號持續時間較長。分層是典型的垂直板平面方向的力源作用,信號明顯存在頻散現象,波形以彎曲波模式為主,能量主要集中在40 kHz以下。
圖3~圖6表明,信號的波形、頻譜和小波包譜等類別特征均有不同程度的重疊,但對5種類別的信號均顯示出一定的鑒別能力,尤其以小波包分析提取的特征更為明顯,以該特征作為樣本可為后續使用神經網絡進行識別提供依據。
3.4 模式識別
按照第1.2所述方法對聲發射信號進行5層小波包分解,將整個頻段分成32個頻帶,考慮反應聲源信號特征的能量主要集中在前10個頻段,因此提取前10個葉子的能量分布為聲發射信號特征,以此作為BP網絡的訓練樣本。樣本包含膠合板脫膠10組、纖維斷裂10組、分層12組和基體開裂8組共計40組。網絡在經過81次訓練后達到設定的最小期望誤差0.001(見┩7)。采用網絡對訓練數據進行識別,識別正確率達到 100%。證明該網絡具有較強的學習能力,能夠按照給定的輸入/輸出正確建模。
圖6 膠合板分層原始信號(去噪)
及其頻譜、時頻、小波包能量譜圖
為檢驗網絡的推廣應用性能,采用該網絡對118組測試樣本(脫膠30組、纖維斷裂30組、分層28組和基體開裂30組)進行檢驗,識別正確率達到 92.6%。這表明該人工神經網絡的范化能力較高,設計結構合理,達到自動識別聲發射信號類別的目標,具有良好的推廣價值。
4 結 論
(1) 針對聲發射這種瞬間的突變信號,小波分析確實能很好地同時表現出時域和頻域的局部特征;
(2) 綜合各類模式信號的波形、頻譜、小波包時頻圖和小波包能譜圖分布等特征,可確定不同損傷機制所對應的聲發射信號特征,為神經網絡模式識別提供質量較高的模式樣本;
(3) 設計的BP人工神經網絡能準確度較高地識別出4種不同損傷機制造成的聲發射信號。
由于木質膠合板的聲發射研究國內開展的不多,對該類材料的聲發射特征的分析及識別還待進一步研究,尤其對多層膠合板聲發射特征的定量研究還有待于大量實驗數據的積累和歸納。
參考文獻
[1]袁振明,馬羽寬,何澤云.聲發射技術及其應用[M].北京:機械工業出版社,1985.
[2]殷冬萌,王軍,劉云飛.木塑復合材料缺陷及損傷的聲發射信號特征分析及神經網絡模式識別[J].應用聲學,2007,26(6):352-356.
[3]JIAO Jing-pin, HE Cun-fu, WU Bin,et al.Application of wavelet transform on modal acoustic emission source location in thin plates with one sensor \[J\]. International Journal of Pressure Vessels and Piping, 2004, 81: 427-431.
[4]QI Gang. Wavelet-based AE characterization of composite materials \[J\]. NDT& E International, 2000, 3(3): 133-144.
[5]胡昌華,張軍波,夏軍,等.基于Matlab的系統分析與設計:小波分析[M].西安:西安電子科技大學出版社,1999.
[6]毛漢穎,成建國,黃振峰.基于BP神經網絡的金屬裂紋聲發射信號特征參數的提取[J].機械設計,2010,27(2):84-86.
[7]陸仁書.膠合板制造學[M].2版.北京:中國林業出版社,1993.
[8]耿榮生,沈功田,劉時風.基于波形分析的聲發射信號處理技術[J].無損檢測,2002,24(6):257-261.
[9]LOWE M J S, DILIGENT O. Low-frequency reflection characteristics of the s0 Lamb wave from a rectangular notch in a plate \[J\]. Acoustical Society of America, 2002, 111 (1): 64-74.
[10]徐長發,李國寬.實用小波方法[M].2版.武漢:華中科技大學出版社,2004.
[11]楊曉楠,唐和生,陳榮,等.鋼結構損傷識別中db族小波函數選擇[J].同濟大學學報,2006,34(12):1568-1572.
[12]周小勇,葉銀忠.故障信號檢測的小波基選擇方法[J].控制工程,2003,10(4):308-311.
關鍵詞:仿生;模式識別;神經網絡;分類器
中圖分類號: F224-39 文獻標識碼: A 文章編號: 1673-1069(2017)02-154-2
1 仿生模式識別的引入
為了適應現實需要,人們開始希望機器能夠代替人類完成某些繁重的識別工作。我們通常所說的模式識別就是指運用機器進行分類識別。以往的識別方法,多數是建立在“分類劃分”的基礎上,根據給定的分類準則來找尋“最優的分類界面”,具體的實現算法也都是注重于不同類樣本的區別,即,一類樣本與有限種類已知樣本之間的區分。基于此出發點的局限性,識別當中出現的問題是顯而易見的:首先,如果遇見未學習過的新事物,常常會牽強地認為它是某一類已學過的舊事物;其次是對未學習過的新事物進行學習時,往往會破壞掉原來的規矩,打亂舊事物的識別。針對以上的缺陷,才有了仿生模式識別的概念。仿生模式的目標是找到同類事物的最佳覆蓋面。
2 仿生模式識別在神經網絡中的超曲面劃分
2.1 多權值神經網絡的高維封閉曲面
(5)式中Wji和W′ji是方向權值,它們決定了曲面的方向,W′ji是核心權值,它決定了曲面的幾何中心。Xj為第j個輸入端的輸入;n是輸入空間維數;p為冪參數,用以控制曲面的彎曲程度;s表示單項正負號方法的參數,若S=0單項符號只能為正,若S=1時單項的符號和Wji的符號相同;若設置了S=0,則該式就變成了一個封閉超曲面的神經元。f函數的基設置為一個定值時,輸入點的軌跡是一個封閉的超曲面,其核心位置由決定。
用p值來改變封閉超曲面的形狀,如圖1~圖8所示。若使權值取不同的值,就相當于將封閉曲面在不同方向進行拉伸或壓縮,θ取值不同,則偏離核心位置的程度也不同。
2.2 通用超曲面神經網絡的計算式
上式中,Ymi(t+1)是輸入空間的第i個神經元在輸入第m個對象,在t+1時間的輸出狀態值。i是神經元數量,最大是1024。Wji與W′ji是第j個輸入節點至第i個神經元的“方向”權值和“核心”權值;fki是第i個神經元的輸出非線性函數,下標ki是第i個神經元的非線性函數在函數庫中的序號;Imj表示的是第m個輸入對象中的第j個輸入值;W′cgi和是Wcgi第cg個(取值范圍[1,256])神經元輸出到第i個(取值范圍[1,1024])神經元的權值“核心”和“方向”權值;p表示的是冪參數;而S是單項正負符號規則;(t)為當輸入為第m個對象時第cg個神經元在時間t的輸出狀態值,θ([1,1024])是第i個神經元的閾值;λi是神經元非線性函數坐標比例因子;Ci是神經元輸入規模比例因子。
由傳統的BP神經網絡和經向基RBF神經網絡及超曲面神經網絡對圖9中三類事物的分類邊界分別為折線和圓環及橢圓的并,可見超曲面神經網絡具有更準確的分類效果。
3 總結
仿生模式識別是對事物逐類分別訓練“認識”的過程。它的顯著優點是對于沒有經過訓練的對象會拒識,而新增加樣本的訓練不會影響到原有的識別。因此,仿生模式識別,較之原有的識別模式識別效果更佳,可以廣泛應用在人臉識別,語音識別等眾多領域。
參 考 文 獻
[1] 覃鴻,王守覺.多權值神經元網絡仿生模式識別方法在低訓練樣本數量非特定人語音識別中與HMM及DTW的比較研究[J].電子學報,2005(5).
【關鍵詞】 圖像識別技術 神經網絡識別
模式識別研究的目的是用機器來模擬人的各種識別能力―比如說模擬人的視覺與聽覺能力,因此圖像識別的目的是對文字、圖像、圖片、景物等模式信息加以處理和識別,以解決計算機與外部環境直接通信這一問題。可以說,圖像識別的研究目標是為機器配置視覺“器官”,讓機器具有視覺能力,以便直接接受外界的各種視覺信息。
一、圖像識別系統
一個圖像識別系統可分為四個主要部分:被識圖像、圖像信息獲取、圖像預處理、圖像特征提取、分類判決。
二、圖像識別方法
圖像識別的方法很多,可概括為統計(或決策理論)模式識別方法、句法(或結構)模式識別方法、模糊模式識別方法以及神經網絡識別方法。重點介紹神經網絡識別方法。
2.1神經網絡識別方法
2.1.1人工神經網絡的組成
人工神經網絡(簡稱ANN)是由大量處理單元經廣泛互連而組成的人工網絡,用來模擬腦神經系統的結構和功能。而這些處理單元我們把它稱作人工神經元。
2.1.2人工神經網絡的輸出
2.1.3人工神經網絡的結構
人工神經網絡中,各神經元的不同連接方式就構成了網絡的不同連接模型。常見的連接模型有:前向網絡、從輸入層到輸出層有反饋的網絡、層內有互聯的網絡及互聯網絡。
2.1.4 學習算法
1)感知器模型及其算法
算法思想:首先把連接權和閾值初始化為較小的非零隨機數,然后把有n個連接權值的輸入送入網絡中,經加權運算處理后,得到一個輸出,如果輸出與所期望的有較大的差別,就對連接權值參數按照某種算法進行自動調整,經過多次反復,直到所得到的輸出與所期望的輸出間的差別滿足要求為止。
2)反向傳播模型及其算法
反向傳播模型也稱B-P模型,是一種用于前向多層的反向傳播學習算法。
算法思想是:B-P算法的學習目的是對網絡的連接權值進行調整,使得調整后的網絡對任一輸入都能得到所期望的輸出。學習過程包括正向傳播和反向傳播。正向傳播用于對前向網絡進行計算,即對某一輸入信息,經過網絡計算后求出它的輸出結果;反向傳播用于逐層傳遞誤差,修改神經元之間的連接權值,使網絡最終得到的輸出能夠達到期望的誤差要求。
B-P算法的學習過程如下:
第一步:選擇一組訓練樣例,每一個樣例由輸入信息和期望的輸出結果兩部分組成;第二步:從訓練樣例集中取出一樣例,把輸入信息輸入到網絡中;第三步:分別計算經神經元處理后的各層節點的輸出;第四步:計算網絡的實際輸出和期望輸出的誤差;第五步:從輸出層反向計算到第一個隱層,并按照某種原則(能使誤差向減小方向發展),調整網絡中各神經元的權值;第六步:對訓練樣例集中的每一個樣例重復一到五的步驟,直到誤差達到要求時為止。
3)Hopfield模型及其學習算法
它是一種反饋型的神經網絡,在反饋網絡中,網絡的輸出要反復地作為輸入再送入網絡中,使得網絡具有了動態性,因此網絡的狀態在不斷的改變之中。
算法思想是:
(a) 設置互連權值
其中xis是s類樣例的第i個分量,它可以為1或0,樣例類別數為m,節點數為n。
(b) 未知類別樣本初始化。 Yi(0)=Xi 0≤i≤n-1
其中Yi(t)為節點I在t時刻的輸出,當t=0時,Yi(0)就是節點I的初始值,Xi為輸入樣本的第I個分量。
(c) 迭代直到收斂
人 工 智 能 作 業
擁抱人工智能
學院:
年級:
專業:
學號:
姓名:
擁抱人工智能
摘 要:介紹了人工智能的含義以及模式識別的領域。
關鍵詞 人工智能;模式識別;AlphaGo
1 人工智能
1.1人工智能的含義
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能可以對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。總的說來,人工智能研究的一個主要目標是使機器能夠勝任一些通常需要人類智能才能完成的復雜工作。但不同的時代、不同的人對這種“復雜工作”的理解是不同的。AlphaGo的勝利,無人駕駛的成功,模式識別的突破性進展,人工智能的的飛速發展一次又一次地挑動著我們的神經。作為人工智能的核心,機器學習也在人工智能的大步發展中備受矚目,光輝無限。
我所理解的人工智能,就是如下五個定義。定義一:AI就是讓人覺得不可思議的計算機程序。定義二:AI就是與人類思考方式相似的計算機程序。定義三:AI就是與人類行為相似的計算機程序。定義四:AI就是會學習的計算機程序。定義五:AI就是根據對環境的感知,做出合理的行動,并獲得最大收益的計算機程。如今人工智能的時代到來,給予了我們很大的便利。如智能圖像理解軟件Google照片、智能美圖軟件美圖秀秀、只能搜索排序軟件Google、智能出行自動駕駛軟件滴滴優步司機、智能機器翻譯軟件有道翻譯官等。
1.2 人工智能的發展歷史
迄今為之,人工智能誕生已有62年。1956年,John McCarthy創造人工只能一次。1962年,IBM的阿瑟··薩繆爾開發的西洋跳棋程序就戰勝過一位盲人跳棋高手。1987年到1993年現代PC的出現,讓人工智能的寒冬再次降臨。1997年IBM計算機“深藍“成功擊敗世界頂級國際象棋高手之后,國際商用機器公司(IBM)又嘗試一輪新的人機博弈。2016年AlphaGo在圍棋人機大戰中擊敗韓國職業九段棋手李世石。
1.3 人工智能的復興
人工智能的復興可分為以下兩次。第一次AI熱潮由圖靈測試掀起。艾倫.圖靈是人工智能的開拓者,他所提出的圖靈測試,直到今天仍然是我們判定一部機器是否具有人類智慧的重要手段。假如有一臺宣稱自己會"思考"的計算機,人們該如何辨別計算機是否真的會思考呢?一個好方法是讓測試者和計算機通過鍵盤和屏幕進行對話,測試者并不知道與之對話的到底是一臺計算機還是一個人。如果測試者分不清幕后的對話者是人還是機器,即,如果計算機能在測試中表現出與人等價,或至少無法區分的智能,那么,我們就說這臺計算機通過了測試并具備人工智能。第二次AI熱潮則由語音識別掀起。20世紀80年代到90年代的第二次AI熱潮中,語音識別是當時最具代表性的幾項突破性進展之一。今天我們拿出手機,使用蘋果手機內置的語音輸入法,或者使用中文世界流行的科大訊飛語音輸入法,我們就可以直接對著手機說話以錄入文字信息。技術上,科大訊飛的語音輸入法可以達到每分鐘錄入400個漢字的輸入效率,甚至還支持十幾種方言輸入。
1.4人工智能所帶來的警示
AlphaGo帶來的警示是:如果計算機可以在兩年內實現大多數人預測要花20年或更長時間才能完成的進步,那么,還有哪些突破會以遠超常人預期的速度來臨?這些突破會不會超出我們對人工智能的想象,顛覆人類預想中的未來?我們已為這些即將到來的技術突破做好準備了嗎?AI真的會讓人類大量失業嗎?哪種工作最容易被AI取代?這一系列的問題,都引起我們的思考。
1.5 分析人工智能
人工智能的應用場景有:自動駕駛、智慧生活、智慧醫療、藝術創作、智慧金融、和人類同場競技等。今天的人工智能還不能做什么?情感、審美、自我意識、跨領域的推理、抽象能力、常識等。人工智能時代,程式化的、重復性的、僅靠記憶與練習就可以掌握的技能將是最沒有價值的技能,幾乎一定可以由機器來完成;反之,那些最能體現人的綜合素質的技能,例如,人對于復雜系統的綜合分析、決策能力,對于藝術和文化的審美能力和創造性思維,由生活經驗及文化熏陶產生的直覺、常識,基于人自身的情感(愛、恨、熱情、冷漠等)與他人互動的能力,這些是人工智能時代最有價值,最值得培養、學習的技能。
2 識別模式
如今,機器學習的應用已遍及人工智能的各個分支,如專家系統、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領域。其中模式識別就是計算機用數學技術方法來研究模式的自動處理和判讀。我們把環境與客體統稱為“模式”。當我們人眼看到一幅畫時,我們能夠很清晰的知道其中哪里是動物,哪里是山,水,人等等,但是人眼又是如何識別和分辨的呢,其實很簡單,人類也是在先驗知識和對以往多個此類事物的具體實例進行觀察的基礎上得到的對此類事物整體性質和特點的認識的,并不是人類原本就有對這類事物的記憶,就好比嬰孩時期的我們,并不知道什么是狗,什么是帥哥,什么是美女,但是隨著我們的慢慢長大,我們觀察的多了,見的多了,再加上過來人的經驗指導,我們就知道的多了。 其實,每一種外界的事物都是一種模式,人類平均每天都在進行著很多很多的各種各樣的模式識別,人們對外界事物的識別,很大部分是把事物進行分類來完成的。而我們對事物進行辨別,就是模式識別。
2.1 識別模式的主要方法
解決模式識別的方法主要有:模板匹配法,ANN法,基于知識的方法和基于數據的方法。基于知識的方法就是專家系統,句法識別就屬于基于知識的,但是句法識別不常用。基于數據的方法也就是基于統計的方法,即依據統計原理來構造分類器,來對未知樣本進行預測,這種學習過程是機器學習中研究最多的一個方向,也是模式識別采用的最主要方法。顧名思義,ANN也就是大名鼎鼎的神經網絡。模式識別的研究范疇,存在兩個極端,要么分類和特征之間的關系完全確定,要么完全隨機。
2.2 監督與無監督
簡單來說,類別已定的就叫做有監督分類,反之就是無監督分類;前者因為我們有已知劃分類別的訓練樣本來作為學習過程的“導師”,所以很多時候,有監督和無監督,又叫做有導師學習和無導師學習;
后者,在不知道要劃分的是什么類別時,我們要做的工作是聚類(clustering),根據樣本特征將樣本聚成多少類,使屬于同一類的樣本在一定意義上是相似的,不同類之間的樣本則有較大差異,通過聚類得到的類別也稱作為聚類,但是通常在聚類中存在一個尺度問題,當設置的尺度不一樣,得到的聚類也不一樣。所以在很多無監督識別問題中,分類結果并不一定是唯一的,因此在沒有特別指定的目的情況下,很難說哪種分類方案更合理。另外,用一種方法在一個樣本集上完成了聚類分析,得到了若干個聚類,這種聚類結果只是數學上的一種劃分,對應用的實際問題是否有意義,還需要結合更多更專業的知識來進行解釋。
2.3 識別模式應用
主要有:語音識別,說話人識別,OCR,復雜圖像定目標的識別,根據地震勘探數據對地下儲層性質的識別,利用基因表達數據進行癌癥的分類等等。
2.4 模式識別系統的構成
一個模式識別系統通常包括典型的四個部分(如下圖):對原始數據的獲取和預處理,特征提取與特征選擇,分來或聚類,后處理;以上四個部分,無論是監督的還是無監督的都共有的,可以說是整個系統的核心所在,也是模式識別學科的主要研究內容。
3 總結與期望
AI來了,有思想的人生并不會因此而黯然失色,因為我們全部的尊嚴就在于思想。機器帶給人類的不是失業,而是更大的自由與更加個性化的人生體驗。未來也將是一個人類和機器共存、協作完成各類工作的全新時代。正如譚鐵牛院士在中科院第十九次院士大會上的報告《人工智能:天使還是魔鬼?》所說的那樣,高科技本身沒有天使和魔鬼之分,人工智能也是如此,這一把雙刃劍,是天使還是魔鬼取決于人類自身。人工智能在天使手里是天使,在魔鬼手里就是魔鬼。因此我們有必要未雨綢繆形成合力,確保人工智能正面效應,確保人工智能造福于人類。
參考文獻
[1]張學工,模式識別[M].北京:清華大學出版社,2000.1
1 交通方式識別關鍵技術研究
1.1 交通方式識別概述
模式是客觀事物活動的方式,它包括客觀事物本身,也包括有客觀事物在時間和空間分布的信息。時間萬物都有其獨特性,這種獨特性可用三個方面來理解,即可觀察性、可區分性和相似性。
在AI(人工智能)領域,模式識別已經是一個重要的分支,和人類自身的識別系統相比,計算機的模式識別,其優勢在于計算機擁有極強的計算能力,他可以儲存數量極大的樣本,并通過對這些樣本的分析來提取特征,而完成這些工作,計算機是高效的。如圖1所示為計算機模式識別系統的五個基本組成單元。
如圖1所示,現階段的模式識別系統一般都是由五個基本單元來組成。
(1)數據獲取單元;(2)預處理單元;(3)特征提取和選擇單元;(4)分類器設計單元;(5)決策單元。
1.2 定位技術研究
1.2.1 基站定位技術
在各種定位技術中,基站定位技術是最早開始應用的,基站定位目前采用的主要技術是COO(Cell of Origin)技術,COO技術的基本原理是,在移動終端登錄到網絡以后會上報自己的小區ID,移動網絡會據此估算用戶的當前位置,如圖2所示。
1.2.2 GPS定位技術
GPS由衛星、地面監控系統和移動終端三個部分組成。衛星提供精密的時間標準并提供定位信息,地面監控系統主要是對衛星工作狀態和運行軌道的監控。
1.2.3 A-GPS定位技術
A-GPS定位技術,即輔助GPS定位技術,它是一種對GPS定位方法的改進,A-GPS定位技術仍然無法解決數據缺失和數據漂移問題,但由于有A-GPS服務器的存在,它可以起到很多輔助的作用。
1.3 典型識別算法研究
在數據挖掘、機器學習和模式識別等領域中,都需要分類算法,分類算法可以分為三個步驟:(1)對已知類別訓練集進行分析;(2)生成分類規則;(3)通過規則預測新數據的類別。
2 基于智能手機功能的交通方式識別研究
2.1 數據采集
按照現階段智能手機的流行配置,本系統要求智能手機含有GPS模塊、加速度傳感器、陀螺儀、聲音傳感器和SIM卡。因為現在一般的智能手機都能夠滿足這個要求,本文就不再贅述手機選型。但是采樣頻率還是需要預先設定:GPS數據每秒采樣1次,加速度傳感器和陀螺儀的采樣頻率為32Hz,聲音傳感器每秒采樣30次。
2.2 特征提取
特征量主要包括時域上的特征量,如均值、過均值率、標準差、中位數、最大值與最小值的差、個數等,頻域上的特征量包括和、方差兩類。
(1)與速度相關的特征量;(2)與加速度相關的特征量;(3)與聲音相關的特征量;(4)與交通站點相關的特征量。
2.3 基于改進隨機森林算法的模式識別
獲取所有的特征之后,隨機森林算法過程可做如下描述:(1)輸入的數據即樣本集,每個樣本包含有若干個特征屬性和一個類別屬性。(2)訓練樣本集由Bagging方法隨機抽取,最后形成的是由N個樣本組成的訓練樣本集。(3)從樣本的特征屬性中抽取部分屬性作為分裂屬性。(4)以上步驟重復n次,最后形成由n棵決策樹構成的森林,最后再進行匯總排序。
2.4 特征量有效性的驗證
特征量有效性的驗證即比較使用和不使用的情況下F值的大小就可以了。
2.4.1 陀螺儀
如圖3所示為陀螺儀有效性驗證結果,驗證結果表明,在不使用陀螺儀的情況下, 8種類別的F值均有下降,這也說明,陀螺儀的引入對于交通方式識別起到了一定的作用。
2.4.2 聲音傳感器
如圖4所示為聲音傳感器有效性驗證結果,驗證結果表明,相比較陀螺儀,聲音傳感器的引入對于交通方式識別起到的作用更大。
2.5 模型簡化
(1)特征重要性排序;(2)模型簡化結果。
模型簡化包含兩個部分,一個是特征集的簡化,那么在特征集簡化之后,就可以進行模型本身的簡化。