首頁 > 網站 > 幫助中心 > 正文

            采集操作使用詳細說明

            2020-10-28 20:20:35
            字體:
            來源:轉載
            供稿:網友
            一、項目編輯--基本設置

              項目名稱:    電腦入門                         (注:隨便寫)
              網站名稱:    it.com.cn                        (注:隨便寫)
              網站地址:    http://www.it.com.cn             (注:隨便寫)
              新聞列表網址:http://www.it.com.cn/edu/readme/ (注:采集網站哪個網站的網址。)
              項目備注:    記得經常采集這個欄目。           (注:隨便寫)


            二、項目編輯--采集目標源碼

              列表開始代碼:(注:要找到唯一的)
              列表結束代碼:頻道精選 
              列表索引分頁:(注:這里有三種,<設置標簽>、<批量生成>、<手動添加>)

              1、設置標簽:
              下頁開始標記:下頁結束標記:>下一頁     (注:要找到唯一的)
              索引分頁重定向:   (注:不知何意,請老大指教?。?/P>

               2、批量生成 (注:這里設置生成范圍為 1 TO 5 是不行的,沒index_1.html這個目標,有些網站是可以。)
              原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
              生成范圍:2  To  5

              3、手動添加(注:這里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
              http://www.it.com.cn/edu/readme/index_2.html
              http://www.it.com.cn/edu/readme/index_3.html
              http://www.it.com.cn/edu/readme/index_4.html
              http://www.it.com.cn/edu/readme/index_5.html

            三、項目編輯-- 采集列表

              鏈接開始代碼: 鏈接結束代碼:  target=_blank      (注:要找到唯一的)
              鏈接特殊處理:  不作處理   重新定位              (注:不知何意,請老大指教?。?BR>  絕對鏈接字符:                                   (注:不知何意,請老大指教?。?/P>

              這是分析后所得到的新聞絕對鏈接地址:http://www.it.com.cn/f/edu/051/15/68987.htm  請查看是否正確。(注:點擊后的地址是:http://127.0.0.1/Admin/target=_blank   BUG???)

            四、項目編輯--采集目標內容頁源碼

              標題開始標記: 或:
              正文開始標記:?。ㄗⅲ阂业轿ㄒ坏模?BR>  正文結束標記:?。ㄗⅲ阂业轿ㄒ坏模?/P>

              作者設置:  ?。ㄗⅲ哼@里就不說了,設置標簽和采集正文的一樣)
              關鍵字詞設置:?。ㄗⅲ和希?BR>  正文分頁設置:?。ㄗⅲ哼@里演示<設置標簽>)

              設置標簽
              下頁開始標記:下頁結束標記:>[下一頁]
              分頁絕對鏈接: (注:感覺沒什么用處?不知何意,請老大指教?。?/P>

            五、項目編輯--屬性設置

             ?。ㄗⅲ旱竭@一步顯示出正文,說明測試采集目標成功,這里要注意的是:文中的圖片顯示不出來是正常的,發表后自然會顯示出來)

            六:項目編輯--文章屬性  (注:自己設置啦~~~)

              過濾選項: (注:建議全部打上勾)


            satan_zero兄的【經驗之談】幾個關鍵:

              1. 請選擇文章中獨一無二、每篇必存的代碼作為代碼。這要看你的心思了,這關都通不過,
              嘿嘿,還是去買本有講HTML的書或者找個教程看看

              2. 請在不要復制2005版中的代碼作為標簽。因為在代碼視圖中有些代碼不可見,這應該是中鳥(嘿嘿)采集失敗的原因,
              譬如:2個字節的空格的代碼  ,代碼視圖中就看不到。
              解決辦法:用記事本或者文本編輯器打開源代碼看。

            文件比較大,傳到自己的空間里,分三部分下載:
              http://www.itcfan.com/cj/1.part1.rar
              http://www.itcfan.com/cj/2.part2.rar
              http://www.itcfan.com/cj/3.part3.rar

            發表評論 共有條評論
            用戶名: 密碼:
            驗證碼: 匿名發表
            日韩三区