天蠶在你身邊


不方便打電話?讓天蠶聯絡你

預處理中必不可少的一個環節是去停止詞,不管是中文還是英文中總是有一些詞在文章中必須出現但是又沒有意義的存在
1.中文文章中經常出現的“的”、“地”、“得”這些助詞,
2.一些感嘆詞比如嘿、哈、哇
3.一些副詞和介詞的比如,從而、以、卻。
4.英文文章中經常出現的這類詞有 the、a、an、to、of這樣的詞統一被我們稱之為停止詞,搜索引擎在爬行文章的時候第一步就是去掉這些詞,獲得文章中德精髓。
一個是減少數據存儲,另外可以讓數據更加精準。處理完了這些進行的下一步就是消除噪聲,我們大部分網站中總有那么些無用的內容,比如版權聲明,導航,廣告之類的內容這類對用戶搜索起來沒有任何的意義并且只能干擾網站主題內容的提取,在經歷消除噪聲后剩下的就是頁面內的真正內容。
重慶網絡公司
地址:重慶市渝中區上清寺鑫隆達B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com