試論文本內容信息過濾系統(tǒng)的開發(fā)與研究
試論文本內容信息過濾系統(tǒng)的開發(fā)與研究
摘 要:隨著時代的不斷前進和發(fā)展,信息技術也得到了一定的進步和創(chuàng)新,在各個行業(yè)中都得到了極為廣泛的應用。本文主要是在PHP的基礎上對文本內容信息過濾系統(tǒng)進行設計以及開發(fā)的,其相關的功能主要包括非法信息的過濾、后臺管理、自動安裝以及遠程頁面的檢測等。文本內容信息過濾系統(tǒng)為管理員在審核一些相關的信息內容時提供了方面,促使其管理效率以及速度的提高。
關鍵詞:文本內容;信息過濾系統(tǒng);開發(fā);研究
隨著網絡信息技術的發(fā)展以及廣泛應用,一些不法分子也開始使用網絡對不法信息進行傳送,網絡上出現一些反動、色情以及暴力等相關的不良信息傳播的情況,對社會的發(fā)展進步造成了嚴重的影響,因此,網絡信息的安全得到了越來越多的人的關注。在這個社會大背景下,對文本內容信息過濾系統(tǒng)進行研究和開發(fā),可以對網絡文本中的不良信息在傳播的時候進行過濾,促使這樣的情況得到控制,從而使人們在對網絡進行使用的時候,信息資源環(huán)境的健康整潔得到保障。
一、文本內容信息過濾系統(tǒng)的功能需求
在對文本內容信息過濾系統(tǒng)進行實際使用的時候,會對公眾信息公開申請、網站留言以及網站信息發(fā)布等內容的模塊了進行自動過濾,將其中出現的誹謗、侮辱以及謾罵等相關的非法內容進行自動過濾,并在系統(tǒng)中對相關的用戶進行提醒,將其及時反饋給管理員。這樣的工作在開展的時候,審核效率以及速度得到了大幅度的提升。而在使用PHP進行開發(fā)設計的文本內容信息過濾系統(tǒng)在使用的時候,可以對文本中的不良信息進行剔除,還可以對一些已經發(fā)表過的文字進行檢測工作的開展,在結果出來后對相關的管理員進行及時反饋。
(一)對數據庫的設計。在對MySQL數據庫進行使用的時候,其相關的設計結果相對較為清晰,在對用戶表、日志表以及詞匯表進行管理工作的開展提供一定的便利,并且,可以對詞庫表中所含有的敏感詞、敏感詞名以及詞類別進行檢測。而在對用戶表進行管理的時候,主要包括對用戶密碼、用戶名以及用戶類別信息的管理。另外,在日志表中,則注意是對URL地址、檢測結果以及原文章內容等相關的進行管理。
(二)系統(tǒng)中中文的簡體以及繁體互換功能。在MySQL數據庫中,其相關的字符設集被設置成了GBK格式,其檢測的敏感詞幾乎是簡體。而在現實生活中,一些用戶在對文章進行發(fā)表的時候,在文章之中總會有繁體的敏感詞存在,因此,在對用戶所發(fā)表的一些文章進行文本內容的檢測時,可以對信息進行過濾,在這個過程中,需要對敏感詞進行簡繁的轉換,促使信息在過濾時的準確性得到一定的提高。
(三)系統(tǒng)中拼音以及中文之間互換的功能。在對文本內容信息過濾系統(tǒng)進行運用的時候,一些文章在發(fā)表的時候,用拼音來代替敏感詞,因此,相關的工作人員還要注意在系統(tǒng)中設計中文以及拼音的互換功能。這樣就可以對文章中所含有的不良敏感詞信息進行有效的過濾,從而使文本內容信息過濾系統(tǒng)子在使用的時候,精確性能夠達到新的高度。
二、文本內容信息過濾系統(tǒng)的設計
在對文本內容信息過濾系統(tǒng)進行設計的時候,其主要包含有信息過濾模塊、自動安裝模塊、后臺管理模塊以及頁面檢測模塊等四大模塊。其中,信息過濾模作為系統(tǒng)中的是核心內容,可以分析文本中所含有的敏感詞,對其中存在的一些非法詞匯進行最大程度的過濾;自動安裝模塊可以配置系統(tǒng),比如在數據庫與相關信息進行連接的時候,需要對系統(tǒng)相關的管理員進行創(chuàng)設,從而使配置文件得以生成;后臺管理模塊在實際使用的過程中,可以在管理員管理工作實際開展的時候,為管理員進行提供權限管理、管理敏感詞匯庫以及用戶管理等相關的操作后臺;頁面檢測模塊在使用的時候可以對URL地址進行檢測,可以對網頁的源碼進行提取,對文本中所含有的一些不良信息進行分析以及濾除。
(一)對后臺的管理設計。在對文本內容信息過濾系統(tǒng)進行實際使用的時候,可以為相關的管理員提供一個相對較為簡潔、友好以及功能完善的管理后臺,以供管理員對用戶進行管理工作的開展,其中注意包括對詞庫中數據進行查旬、增加、權限管理、刪除以及修改等操作。
(二)對系統(tǒng)中信息過濾模塊的設計。在對文本內容信息過濾系統(tǒng)中的信息過濾模塊進行設計的時候,要對中文和拼音之間的互相轉化、繁體和簡體之間的互相轉化以及喜好詞的生成等相關的功能進行重點關注。為用戶在使用過程中非法信息的濾除、對相關用戶的搜索的關鍵詞進行自動分析以及對用戶的喜好詞進行智能生成等,為用戶在實際使用的過程中提供方便。
(三)在系統(tǒng)中對自動安裝設計模塊進行添加。在對文本內容信息過濾系統(tǒng)進行設計的時候,自動安裝模塊可以對其開展全新的安裝工作,其中主要分為三個步驟。第一是對系統(tǒng)信息的填寫和配置,促使配置文件的生成;第二是對系統(tǒng)相關的管理員的創(chuàng)建;第三是對文本系統(tǒng)相關的數據庫進行創(chuàng)建,其中還包括對系統(tǒng)中敏感詞庫的創(chuàng)建。
三、結束語
綜上所述我們可以得知,隨著我國經濟水平的不斷發(fā)展和提高,我國科技水平也得到了相應的創(chuàng)新和進步,其中,網絡信息技術在各個行業(yè)中得到了相對較為廣泛的應用。本文通過對文本內容信息過濾系統(tǒng)的設計以及研究進行全面的了解和掌握,其在設計的時候對關鍵詞匹配技術進行了采用,促使系統(tǒng)在對敏感詞進行深入分析,從而使文本內容信息過濾系統(tǒng)對不良信息內容過濾時的精準度進行提高。