保存模板可引用的數據
#網址#采集的原始網址
#標題#網址對應的網頁標題
#描述#網頁標題下面的一段描述文字
#域名#原始網址的域名部分,如“http://test.shuimiao.net/123.htm”中的“test.shuimiao.net”
#頂級域名#取原始網址的頂級域名部分,如“http://test.shuimiao.net/123.htm”中的“shuimiao.net”
常見問題
一、不同批次關鍵詞采集的結果為什么會存在部分網址重復?尤其是只引用了 #域名# 或 #頂級域名# 之后,這種部分網址重復的情況比較多。這也是正常的,因為每個網站的內頁可能包含很多主題,不同關鍵詞都可能采集到該網站的不同內頁,當引用域名后,相同網站的不同內頁的域名結果自然就相同了。
二、為什么采集回來的網址的主題與關鍵詞不符?
是因為引用了 #域名# 或 #頂級域名# 后,取的是域名部分,域名打開的是該網站的首頁,而采集的原網址可能不是首頁,而是該網站的某一篇文章的內頁,該內頁包含關鍵詞主題,因此被搜索引擎收錄,軟件才能采集得到。但取域名后,你打開的域名首頁就不一定包含該關鍵詞。
為了比對采集是否正確,可以在保存模板里輸入:<a href="#網址#" target="_blank">#標題#</a>,保存為htm文件,采集完后可以自己打開該文件查看比對。
三、為什么采集一段時間之后,無法采集?
這可能采集多了被搜索引擎限制。一般換個IP(如使用VPN換IP)即可繼續(xù)采集,如果不換,只能等待搜索引擎取消屏蔽之后才能繼續(xù)采集。百度的屏蔽時間通常半小時到數小時。
不過,現在即使出現驗證碼屏蔽,軟件也會彈出驗證碼手動輸入的(百度、谷歌)