97超级碰碰碰久久久_精品成年人在线观看_精品国内女人视频免费观_福利一区二区久久

基于中文自然語言理解的農(nóng)業(yè)信息自動(dòng)回答系統(tǒng)論文

時(shí)間:2022-12-14 12:22:16 農(nóng)業(yè)經(jīng)濟(jì)管理 我要投稿
  • 相關(guān)推薦

基于中文自然語言理解的農(nóng)業(yè)信息自動(dòng)回答系統(tǒng)論文

  摘 要:隨著信息社會(huì)、知識(shí)經(jīng)濟(jì)的到來,傳統(tǒng)的被動(dòng)式知識(shí)傳授已逐步讓位于主動(dòng)式知識(shí)探究。本系統(tǒng)主要從農(nóng)業(yè)的信息角度出發(fā),采用中文自然語言處理技術(shù),建立知識(shí)庫和自動(dòng)分詞,進(jìn)行語言理解,這樣一方面完成對(duì)用戶提問的理解;另一方面完成正確答案的生成,使農(nóng)民能夠及時(shí)得到自己想要的信息,更快捷的處理疑問,使其真正實(shí)現(xiàn)農(nóng)業(yè)信息化。

基于中文自然語言理解的農(nóng)業(yè)信息自動(dòng)回答系統(tǒng)論文

  關(guān)鍵詞: 自然語言理解;自動(dòng)回答;知識(shí)庫;自動(dòng)分詞;語言理解

  自然語言理解(natural language understanding,NLU),又稱自然語言處理(natural language processing, NLP),人工智能研究的重要內(nèi)容之一。自然語言理解,是指計(jì)算機(jī)對(duì)自然語言的音,形,義等信息進(jìn)行處理,即對(duì)字,詞,句子和篇章的輸入,輸出,識(shí)別,分析,理解,生成等操作和加工。就是利用電子計(jì)算機(jī)來理解自然語言,使計(jì)算機(jī)懂得人的語言,讓計(jì)算機(jī)在人的語言的指揮下,進(jìn)行某些“智能”活動(dòng)。

  自然語言理解是一門新興的邊緣學(xué)科,內(nèi)容涉及語言學(xué)、心理學(xué)、邏輯學(xué)、聲學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué),而以語言學(xué)為基礎(chǔ)。自然語言理解的研究,綜合應(yīng)用了現(xiàn)代語音學(xué)、音系學(xué)語法學(xué)、語義學(xué)、語用學(xué)的知識(shí),同時(shí)也向現(xiàn)代語言學(xué)提出了一系列的問題和要求。這門學(xué)科也通過長期的研究,已經(jīng)形成了一整套的理論和方法,使我們加深了人類語言現(xiàn)象的理解,并且能解決在自然語言的應(yīng)用中遇到的許多實(shí)際問題。

  中文信息處理

  1. 領(lǐng)域知識(shí)庫構(gòu)建,中文自動(dòng)分詞

  領(lǐng)域知識(shí)庫是用來存儲(chǔ)領(lǐng)域?qū)<姨峁┑膶iT知識(shí)的集合體。這種專門知識(shí)即包括領(lǐng)域?qū)ο蟮脑硇灾R(shí),如有關(guān)對(duì)象的概念、事實(shí)、定理、方程、方法、模型、實(shí)驗(yàn)、和操作等。一般或存在于書本或文獻(xiàn)中,大多數(shù)有確定的數(shù)學(xué)模型;也包括專家解決復(fù)雜的不良結(jié)果問題時(shí)得到的經(jīng)驗(yàn)等啟發(fā)性知識(shí)。

  領(lǐng)域知識(shí)庫是基于知識(shí)的系統(tǒng)的核心部件,知識(shí)庫中的知識(shí)數(shù)量和質(zhì)量直接決定著系統(tǒng)性能和效率。

  構(gòu)建領(lǐng)域知識(shí)庫。知識(shí)是智能的基礎(chǔ),為了使計(jì)算機(jī)具有智能,使它能模擬人類的智能行為,就必須使它具有知識(shí),但是需要把人類擁有的知識(shí)采用適當(dāng)?shù)哪J奖硎境鰜,才能存?chǔ)到計(jì)算機(jī)中去,這就是知識(shí)表示要解決的問題。知識(shí)表示是對(duì)知識(shí)的一種描述,或者說是一組約定,是一種計(jì)算機(jī)可以接受的、用于描述知識(shí)的數(shù)據(jù)結(jié)構(gòu),對(duì)知識(shí)進(jìn)行表示就是把知識(shí)表示成便于計(jì)算機(jī)存儲(chǔ)和利用的某種數(shù)據(jù)結(jié)構(gòu),知識(shí)表示方法又稱為知識(shí)表示技術(shù),其表示形式稱為知識(shí)表示模式。

  目前使用較多的只是表示方法有:一階謂詞邏輯表示法,產(chǎn)生式表示法,框架表示法,語義網(wǎng)絡(luò)表示法,面向?qū)ο蟊硎痉ā?/p>

  一個(gè)完整的知識(shí)庫非常龐大,不僅需要精密的框架設(shè)計(jì)還要錄入海量的詞匯數(shù)據(jù),甚至還有一次多義、多詞同義等特殊情況。知識(shí)庫中需要一個(gè)詞匯集合來存放已知的詞匯信息。在數(shù)據(jù)庫中建立詞匯表,各字段如下:編號(hào)(id)表示本條詞語在數(shù)據(jù)庫中的編號(hào)。為整數(shù)類形,自動(dòng)遞增且為主鍵,必填字段。詞語(word)表示詞匯本身,為字符類型,必填字段,詞性(partos)表示詞匯的詞性,為字符類型,必填字段。近義詞(similar)表示詞匯的相近詞匯,為字符類型,可選字段,詞義(acceptation)表示詞匯的詞義,字符類型,可選字段。備注(remark)例如:id:1,word:大豆partos:名詞,similar:黃豆。當(dāng)然基于農(nóng)業(yè)領(lǐng)域的知識(shí)庫構(gòu)建只有詞匯表是不夠的,還要有農(nóng)業(yè)信息知識(shí)庫。以大豆為例,大豆的基礎(chǔ)知識(shí),大豆的品種介紹,大豆植物學(xué)特征,大豆生物學(xué)特征,大豆病害,大豆蟲害,大豆草害,大豆栽培技術(shù),大豆高產(chǎn)栽培技術(shù),大豆栽培新技術(shù),大豆市場信息等等。所以要對(duì)各種農(nóng)業(yè)信息進(jìn)行詳細(xì)入庫,并使其更高效查詢。

  中文自動(dòng)分詞(Chinese Word Segmentation)指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文自動(dòng)分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文自動(dòng)分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。漢語自動(dòng)分詞的任務(wù),通俗地說,就是要由機(jī)器在中文文本中詞與詞之間自動(dòng)加上空格。

  現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。

  (1)基于字符串匹配的分詞方法:本質(zhì)就是基于大規(guī)模詞庫的機(jī)械分詞方法。

  (2)基于理解的分詞方法:基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,

  利用句法信息和語義信息來處理歧義現(xiàn)象。通常包括3個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。

  (3) 基于統(tǒng)計(jì)的分詞方法:主要是利用詞是穩(wěn)定的字的組合這一規(guī)律,這樣就可以通過記錄字與字相鄰共現(xiàn)的頻率從而利用概率統(tǒng)計(jì)的方法給切詞系統(tǒng)提供切分標(biāo)準(zhǔn)。

  本系統(tǒng)為自動(dòng)回答系統(tǒng),所以要充分理解每一條用戶所提信息,以上分詞方法作為本系統(tǒng)基礎(chǔ)分詞的方法,在對(duì)領(lǐng)域內(nèi)的名詞用概念從屬樹組織起來,再利用格語法理論建立動(dòng)詞的靜態(tài)知識(shí)庫,用靜態(tài)事實(shí)庫配合概念從屬樹的爬樹過程來完成對(duì)切詞結(jié)果的語義分析,同時(shí)對(duì)切詞結(jié)果進(jìn)行歧義排除。

  2. 進(jìn)行語言分析,語言理解的實(shí)現(xiàn)

  語言雖然表示成一連串的文字符號(hào)或者一串聲音流,但其內(nèi)部實(shí)際上是一個(gè)層次化的結(jié)構(gòu),語言的分析和理解過程也應(yīng)當(dāng)是一個(gè)層次化的過程,一般分為詞法分析、句法分析、和語義分析。詞法分析的主要目的是找出詞匯的各個(gè)詞素,從中獲得語言學(xué)信息,漢語中每個(gè)字都是一個(gè)詞素,但是切分出各個(gè)詞就不是那么容易的。例如,我們研究所有東西,可以是“我們——研究所——有——東西“,也可以是”我們——研究——所有——東西“。句法分析是對(duì)句子和短語的結(jié)構(gòu)進(jìn)行分析,最直接的方法就是模式匹配,如noun+verb+noun,但自然語言有很多變化,一個(gè)句子可以表示成((pronoun∨(adj*noun))verb(pronoun∨(adj*noun))

  這也可以用狀態(tài)轉(zhuǎn)移圖來表示,稱之為轉(zhuǎn)移網(wǎng)絡(luò)(TN,transition network)。語義分析就是通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達(dá)的真正含義和概念。語義分析方法主要有謂詞邏輯、語義網(wǎng)絡(luò)、格語法、概念從屬理論等等。

  語言理解的實(shí)現(xiàn),農(nóng)業(yè)信息的語句結(jié)構(gòu)相對(duì)簡單,句子組成遠(yuǎn)不如日常用語那么復(fù)雜。農(nóng)業(yè)詞語根據(jù)行業(yè)特性、構(gòu)成特點(diǎn)的差異,可以劃分為農(nóng)業(yè)術(shù)語、農(nóng)業(yè)語詞、農(nóng)業(yè)用語三個(gè)層次。農(nóng)業(yè)術(shù)語一般運(yùn)用于行業(yè)典籍,農(nóng)業(yè)語詞較易為行外人士理解,農(nóng)業(yè)用語容易發(fā)生分化。其擴(kuò)散以南北朝同類文獻(xiàn)為起點(diǎn),到普通文獻(xiàn)的農(nóng)業(yè)語境,然后到普通文獻(xiàn)的非農(nóng)業(yè)語境,經(jīng)過激烈競爭,部分詞語保留到了后世文獻(xiàn)中。專門詞語和一般詞語可以互相轉(zhuǎn)化,行業(yè)色彩輕重是決定性因素:農(nóng)業(yè)術(shù)語演變?yōu)橐话阍~語的難度較大,演變?yōu)檗r(nóng)業(yè)語詞的難度較小,演變?yōu)檗r(nóng)業(yè)用語的難度最大。農(nóng)業(yè)信息提問句式以農(nóng)業(yè)方面名詞開頭,并大多數(shù)以疑問句存在。下面以“大豆子葉上產(chǎn)生赤褐色圓形斑是什么病,怎樣防治”。

  這個(gè)句子根據(jù)上面的切詞方法,首先字符匹配可以切成“大豆/子葉/上/產(chǎn)生/赤褐色/圓形/斑/是/什么/病/,/怎樣/防治”.用這種方法會(huì)產(chǎn)生歧義,也可以分成“大豆子/葉/上/產(chǎn)生/赤褐色/圓形/斑/是/什么/病/,/怎樣/防治”。大豆和大豆子在農(nóng)業(yè)上是兩種植物,所以還要進(jìn)一步對(duì)這句話理解,分析其句子成分,找到主語,謂語,賓語。只要能準(zhǔn)確分析出句子的每個(gè)成分,那么整句的分析就有了一個(gè)良好的基礎(chǔ)!埃ù蠖棺尤~上產(chǎn)生赤褐色圓形斑)主語(是)謂語(什么。┵e語,(怎么)主語(防治)謂語。首先找到句子謂語(謂語一般由動(dòng)詞構(gòu)成的),這樣我們就可以根據(jù)分詞到指示表中找到句子中的謂語,在程序中一般掃描謂語前面的為主語,謂語后面的為賓語。找到主語和賓語到知識(shí)表中各個(gè)詞進(jìn)行搜索,搜索引擎會(huì)把搜到的結(jié)果進(jìn)行排列,降低切詞帶來的歧義性,找到用戶提出問題的最佳答案。

  3. 語言自動(dòng)生成。

  一個(gè)基于中文自然語言理解的農(nóng)業(yè)信息自動(dòng)回答系統(tǒng)不僅是理解了提問就算完成,最重要的是對(duì)問題的回答。語言生成就是把在計(jì)算機(jī)內(nèi)部以某種形式存放的需要交流的信息,以自然語言的形式表達(dá)出來。語言生成是自然語言理解的一個(gè)逆過程。一般包括以下兩部分:1、建立一種結(jié)構(gòu),以表達(dá)出需要交流的信息。2、以適當(dāng)?shù)脑~匯和一定的句法規(guī)則,把要交流的信息以句子形式表達(dá)出來。同自然語言理解一樣,語言生成的處理方法有很多種,這不僅由于它們所采用的內(nèi)部表達(dá)結(jié)構(gòu)不同(如采用語義網(wǎng)絡(luò)或者概念從屬等),而且由于語言生成的目的不同(如有的目的是為了對(duì)輸入文章作摘要,有的是為了作為問題回答系統(tǒng)的人-機(jī)界面等) 。

  本系統(tǒng)首先要建立一種結(jié)構(gòu),以回答的形式為主,如:主語+”是”+(賓語),如果我們要回答“大豆子葉上產(chǎn)生赤褐色圓形斑是什么病”這個(gè)問題,就要提出主語(大豆子葉上產(chǎn)生赤褐色圓形斑)+謂語(是)+賓語(來自知識(shí)庫)。知識(shí)庫中有大豆紫斑。òY狀、病原、傳播途徑和發(fā)病條件、防治方法)。程序查找到(大豆子葉上產(chǎn)生赤褐色圓形斑)為大豆紫斑病的癥狀里邊的字段,程序可得出賓語(大豆紫斑病),同時(shí)第二個(gè)問題也進(jìn)行了回答。

  在本問題得到完善回答后,系統(tǒng)后臺(tái)在程序運(yùn)行前期需要進(jìn)行人工審核,如果問題回答出現(xiàn)偏差需要及時(shí)修改,并存入歷史數(shù)據(jù)庫。如有相同問題出現(xiàn)時(shí),可直接讀取歷史數(shù)據(jù)庫進(jìn)行回答。使本系統(tǒng)更加完善,搜索更高效,回答更準(zhǔn)確,更加有利于用戶使用。

  結(jié)束語

  本文設(shè)計(jì)了一個(gè)簡單的基于中文自然語言理解的農(nóng)業(yè)信息自動(dòng)回答系統(tǒng),本系統(tǒng)的核心技術(shù)為中文的自然語言理解技術(shù),實(shí)現(xiàn)了領(lǐng)域知識(shí)庫的建立,中文的自動(dòng)分詞和進(jìn)行了語言分析、語言理解的實(shí)現(xiàn),并成功對(duì)其所提出問題進(jìn)行了合理回答。經(jīng)過簡單的輸入測(cè)試,系統(tǒng)初步達(dá)到設(shè)計(jì)目的。能夠滿足一些簡單農(nóng)業(yè)信息要求。還存在不足之處待以后改進(jìn)。

  (1)擴(kuò)充知識(shí)庫。雖然是農(nóng)業(yè)領(lǐng)域知識(shí)庫,但其內(nèi)容涉及也是十分龐大的,

  所以無論在結(jié)構(gòu)上或內(nèi)容上都要擴(kuò)充知識(shí)庫。

  (2)完善分詞算法。本系統(tǒng)分詞還存在歧義性,還需要長時(shí)間的對(duì)各種句子測(cè)試和改進(jìn)。

  (3)完善語言理解和自動(dòng)回答。

  自然語言的豐富程度遠(yuǎn)遠(yuǎn)超過這些,如何做到更高級(jí)的自動(dòng)回答系統(tǒng),使機(jī)器語言理解更加智能,是一個(gè)長期且艱巨的任務(wù)。

  參考文獻(xiàn):

  [1]馮志偉。 國外主要自然語言理解系統(tǒng)概況  計(jì)算機(jī)科學(xué) 1984(2)

  [2]吳 江。 中文自然語言理解技術(shù)與智能檢索 圖書館學(xué)研究 2006(3)

  [3]尹朝慶, 尹皓。人工智能與專家系統(tǒng)  中國水利水電出版社 2002

  [4]豐博,胡鋼偉,趙克,億珍珍。 一種自反饋漢語切詞系統(tǒng)的研究和實(shí)現(xiàn) 計(jì)算機(jī)技術(shù)與發(fā)展 2006(5)

  [5]王祥濱,趙 克,程培濤,許 威。 基于領(lǐng)域自然語言理解的知識(shí)庫管理系統(tǒng) 計(jì)算機(jī)技術(shù)與發(fā)展 2009(12)

  [6]蔡自興,徐光祐。人工智能及其應(yīng)用 清華大學(xué)出版社 2003

  [7]化振紅。《齊民要術(shù)》農(nóng)業(yè)詞語擴(kuò)散的層次分析 學(xué)術(shù)論壇 2006(12)

  [8]由麗萍 ,范開泰 ,劉開瑛  漢語語義分析模型研究述評(píng) 中文信息學(xué)報(bào) :2005(7)

【基于中文自然語言理解的農(nóng)業(yè)信息自動(dòng)回答系統(tǒng)論文】相關(guān)文章:

基于C/S的酒店信息管理系統(tǒng)的教學(xué)設(shè)計(jì)論文06-25

基于自動(dòng)控制系統(tǒng)的汽車電子技術(shù)分析論文07-04

excel試卷分析系統(tǒng):基于Excel的自動(dòng)閱卷評(píng)分系統(tǒng)06-24

基于U盤式設(shè)計(jì)的教學(xué)信息管理系統(tǒng)設(shè)計(jì)思考論文07-03

基于B/S架構(gòu)的物流管理信息系統(tǒng)的設(shè)計(jì)論文07-04

基于Web的網(wǎng)絡(luò)考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)論文07-03

基于μSOS的智能家居系統(tǒng)設(shè)計(jì)論文07-04

基于SSH的科研管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)論文06-27

基于RFID學(xué)生考勤管理系統(tǒng)的設(shè)計(jì)論文06-28

基于智能建筑中的樓宇自動(dòng)化系統(tǒng)的設(shè)計(jì)研究的建筑工程論文07-02