中文文本分類中的特征選擇研究
- 文件介紹:
- 該文件為 pdf 格式(源文件可編輯),下載需要
20 積分
- 中文文本分類中的特征選擇研究
目的: 隨著信息技術不斷前進和互聯(lián)網技術的迅猛發(fā)展和普及,信息呈近乎爆炸的形式急速膨脹。無論網絡上、企業(yè)中或是個人系統(tǒng)上,都有海量的信息需要處理。文本作為計算機系統(tǒng)中信息的最重要表現形式之一,其增長速度更為驚人。如何在海量文本庫中搜尋、過濾和管理這些文本成為一個亟待解決的問題。作為數據挖掘技術的重要手段之一,基于機器學習的文本分類技術可以在較大程度上解決文本庫雜亂無章的現象,幫助人們將大量的文本自動分門別類,從而更好地把握文本信息,使信息的價值最大化。 在采用向量空間模型對文本進行表示的情況下,文本分類的最大特點和困難之一是特征空間的高維性和文檔表示向量的稀疏性。中文的詞條總數有二十多萬條,尋求一種有效的特征抽取算法,降低特征空間的維數,提高分類的效率和精度,成為文本自動分類中需要首先面對的重要問題。特征選擇是解決這個問題的有效方法。 本選題的核心目的就在于研究如何進行特征項的選取,使得分類的效率和效果最好。 思路: 首先需要理解中文文本分類技術以及應用的框架,熟悉中文文本分類技術的各個組成部分,然后搭建一個中文文本分類的輔助平臺(包括分詞組件、分類器、測試文檔集、訓練文檔集,大部分都可以從開源軟件或公開資料里獲得),在輔助平臺的基礎上研究特征相的提取并用實驗檢驗之。 方法: 通過閱讀大量的資料或文檔學習所要用的知識和技術,并通過實驗驗證自己的想法和理論。 相關支持條件: PC、java或C++開發(fā)環(huán)境、中文文本分類輔助平臺(自己搭建)、Internet ...
- 帮助:如何获取积分? 上传资料可以赚钱? 版权投诉
中文文本分類中的特征選擇研究_下載(pdf格式) 技術文檔
主站蜘蛛池模板:
亚洲日韩精品射精日|
久久亚洲精品国产精品|
中文字幕在线亚洲精品|
亚洲一区精品中文字幕|
乱精品一区字幕二区|
国产成人久久久精品二区三区|
久久99精品久久久久子伦|
久久久久亚洲精品中文字幕|
国产精品久久久久久一区二区三区|
亚洲高清国产拍精品青青草原|
99精品久久久久久久婷婷|
9久久9久久精品|
狼色精品人妻在线视频|
亚洲精品无码激情AV|
精品综合久久久久久88小说|
国产精品 羞羞答答在线|
欧美国产亚洲精品高清不卡|
国产成人精品日本亚洲专一区|
久久国产精品77777|
亚洲国产精品国自产拍AV|
日韩美女18网站久久精品|
久久精品一区二区三区中文字幕|
国产A∨免费精品视频|
欧美国产亚洲精品高清不卡|
国产精品1024香蕉在线观看|
国产精品伦一区二区三级视频
|
91精品最新国内在线播放|
亚洲国产另类久久久精品小说|
另类国产精品一区二区|
国产精品无码久久久久|
视频二区国产精品职场同事|
好属妞这里只有精品久久|
国产精品麻豆高清在线观看|
国产亚洲一区二区精品|
精品久久香蕉国产线看观看亚洲|
成人午夜精品网站在线观看|
国产精品熟女一区二区|
国产精品亚韩精品无码a在线|
无码国内精品人妻少妇|
无码国产精品一区二区免费vr|
麻豆aⅴ精品无码一区二区|