代理加盟 2019全新代理計劃 賺錢+省錢雙管齊下,獨立平臺,豐厚利潤!

您現在的位置: 秀站網 > 織夢大學 > 織夢采集 >

DeDeCMS織夢后臺自帶采集器采集教程案例分享

來源:未知 發布時間:2019-04-13熱度:我要評論
前面幾篇文檔,我們介紹了 織夢自帶采集器使用教程 ,但是不是每個用戶都可以用都好,總之采集這個東西要實站積累經驗才行,因為目標站代碼不同,只有碰到不同的問題積累起來才能上手操作。 第一步、我們打開織夢后臺點擊采集采集節點管理增加新節點 第二步、新增節點-...

織夢模板免費下載,無需注冊無需充值

前面幾篇文檔,我們介紹了織夢自帶采集器使用教程,但是不是每個用戶都可以用都好,總之采集這個東西要實站積累經驗才行,因為目標站代碼不同,只有碰到不同的問題積累起來才能上手操作。

第一步、我們打開織夢后臺點擊采集——采集節點管理——增加新節點

 

第二步、新增節點-配置網址索引

填寫要采集的網站的列表相關規則,

查看采集站點的編碼和網站源碼

我們右鍵單擊,點擊查看源碼,在源碼的開頭位置,找到一個寫有charset=某一編碼的meta標簽,比如charset="gb2312",這個就是所說的網站編碼了

 

 

選擇采集站點的編碼

 

 

第三步、新增節點-配置文章網址匹配規則

我們查看采集站點的列表頁源碼,找到文章列表開始html和結束html標簽,分別把它們復制到增加采集節點->文章網址匹配規則的"區域開始的HTML"和“區域結束的HTML”輸入框中。你不一定選擇右鍵查看源碼來找到文章列表開始標簽,你可以在文章開始的地方右鍵單擊,審查元素(chrome瀏覽器,firefox是查看元素),這樣就更方便的找到文章列表開始和結束的標簽了。

設置之后我們點擊"保存信息并進入下一步設置"

 

 

第四步:網址獲取規則測試

如果在測試結果發現有無關的網址信息,說明的第五步中的網址過濾規則有誤或者沒有填寫過濾規則。如果發現采集有誤,你可以返回上一次修改,沒有就點擊“保存信息并進入下一步設置”。

 

第五步:內容字段獲取規則

我們查看采集站點的文章源碼,找到相關選項的開始和結束html標簽,填寫入指定位置,開始和結束標簽以"[內容]"分格。

設置完畢,我們點擊"保存配置并預覽"

 

第六步:過濾規則

在第七步中的匹配規則后面,都 有一個過濾規則,這個過濾規則是用來過濾無需采集的內容。

比如,網易每篇文章都有一個放置廣告的iframe標簽,我們要采集網易的文章,不可能采集回來之后,一篇一篇得去刪除這個廣告。但是如何去除呢?去除方法就是那個過濾規則,我們點擊常用規則,就會彈出一個小窗口,列出了常用的過濾規則,我們只需點擊要們要過濾的規則即可,要過濾網易文章中的iframe標簽,我們就點擊iframe即可。

測試內容字段設置

因為網易有的文章開頭是<div id="endText">,有的文章開頭是<div id="endText" class="end-text">,所以會出現采集出錯的情況。

如果你現在就要采集,你可以點擊保存并采集。這里我選擇僅保存

采集內容(一)

回到采集節點管理的界面,也就是第一步中的界面,我們選擇節點,點擊采集

 

采集內容(二)

 

 

查看已下載

可以在采集界面(即第十步中的界面)的右上角,點擊“查看已下載”。也可以在“采集節點管理”的界面里點擊“查看已下載”。這里以第二個方法為例。

導出內容

選擇要導入到的欄目,數據量,是否生成html文件 ,隨機推薦數量

最終結果

 

本文地址:http://www.alolpiu.com.cn/dedecms_cj/1636.html

責任編輯:秀站網

    發表評論

    評論列表(條)

      新时时彩中奖怎么查