后羿采集器由前谷歌技術團隊傾力打造,基于人工智能技術,只需輸入網(wǎng)址就能自動識別采集內容,可視化點選,一鍵采集網(wǎng)頁數(shù)據(jù),全平臺,Win/Mac/Linux都可用,后羿采集器無限制放心用,可后臺運行,速度實時顯示,采集和導出全免費!
后羿采集器軟件功能
1、智能識別數(shù)據(jù),小白神器
智能模式:基于人工智能算法,只需輸入網(wǎng)址就能智能識別列表數(shù)據(jù)、表格數(shù)據(jù)和分頁按鈕,不需要配置任何采集規(guī)則,一鍵采集。
自動識別:列表、表格、鏈接、圖片、價格等。
2、可視化點擊,簡單上手
流程圖模式:只需根據(jù)軟件提示在頁面中進行點擊操作,完全符合人為瀏覽網(wǎng)頁的思維方式,簡單幾步即可生成復雜的采集規(guī)則,結合智能識別算法,任何網(wǎng)頁的數(shù)據(jù)都能輕松采集。
可模擬操作: 輸入文本、點擊、移動鼠標、下拉框、滾動頁面、等待加載、循環(huán)操作和判斷條件等。
3、支持多種數(shù)據(jù)導出方式
采集結果可以導出到本地,支持TXT、EXCEL、CSV和HTML文件格式,也可以直接發(fā)布到數(shù)據(jù)庫(MySQL、MongoDB、SQL Server、PostgreSQL)供您使用。
4、功能強大,提供企業(yè)級服務
后羿采集器提供豐富的采集功能,無論是采集穩(wěn)定性或是采集效率,都能夠滿足個人、團隊和企業(yè)級采集需求。
豐富的功能: 定時采集,自動導出,文件下載,加速引擎,按組啟動和導出,Webhook,RESTful API,智能識別SKU和大圖等。
5、云端賬號,方便快捷
創(chuàng)建后羿采集器賬號并登錄,您的所有采集任務設置都將自動加密保存到后羿的云端服務器,無需擔心采集任務丟失,任務運行及采集的數(shù)據(jù)均在您本地,而且非常安全,只有您自己在本地登錄客戶端后才能查看。后羿采集器對賬號沒有終端綁定限制,您切換終端時采集任務也會同步更新,任務管理方便快捷。
6、全平臺支持,無縫切換
同時支持Windows、Mac和Linux全操作系統(tǒng)的采集軟件,各平臺版本完全相同,無縫切換。
使用教程
自定義采集百度搜索結果數(shù)據(jù)的方法
一、創(chuàng)建采集任務
1、啟動后羿采集器,進入主界面,選擇自定義采集并點擊創(chuàng)建任務按鈕創(chuàng)建 “自定義采集任務”;
2、輸入百度搜索的URL,包括三種方式。
手動輸入:在輸入框中直接輸入URL,多個URL時須要換行分割。
點擊從文件中讀取方式:用戶選擇一個存放URL的文件,文件中可以有多個URL地址,地址須要換行分割。
批量添加方式:通過添加并調整地址參數(shù)生成多個有規(guī)律的地址。
二、自定義采集流程
1、點擊創(chuàng)建后自動打開第一個URL進而進入自定義設置頁面,默認已經(jīng)創(chuàng)建了開始、打開網(wǎng)頁、結束的流程塊。底部模板區(qū)用于拖拽到畫布中生成新的流程塊;點擊打開網(wǎng)頁中的屬性按鈕,可修改打開的網(wǎng)址;
2、添加輸入文字流程塊:在底部模板區(qū)中拖拽輸入文字塊到打開網(wǎng)頁塊后面附近,當出現(xiàn)陰影區(qū)域的時候可以松開鼠標,此時會自動連接,添加完成;
3、生成完整流程圖:仿照上面添加輸入文字流程塊的拖拽流程添加新塊;
關鍵步驟塊設置介紹
定時等待用于等待前面打開網(wǎng)頁完成。
點擊輸入框Xpath屬性按鈕,在屬性菜單中點擊圖標進行點選網(wǎng)頁中的輸入框,點擊輸入文本屬性按鈕,在菜單中輸入要搜索的文本。
用于設置點擊開始搜索按鈕,點擊元素的xpath屬性按鈕,在菜單中點擊點選圖標,然后點擊網(wǎng)頁中的百度一下按鈕即可。
用于設置循環(huán)加載下一列表頁。在循環(huán)塊內部的循環(huán)條件塊中設置詳細條件,此處點擊操作按鈕,選擇單個元素,然后在屬性菜單中點擊元素的xpath屬性按鈕,同上進行點選網(wǎng)頁中的下一頁按鈕。循環(huán)次數(shù)屬性按鈕可默認為0,即不限制點擊下一頁的次數(shù)。
用于設置循環(huán)抽取列表頁中的數(shù)據(jù)。在循環(huán)塊內部的循環(huán)條件塊中設置詳細條件,此處點擊操作按鈕,選擇不固定元素列表,然后在屬性菜單中點擊元素的xpath屬性按鈕,然后在網(wǎng)頁中連續(xù)點選兩次抽取第一塊和第二塊元素。循環(huán)次數(shù)屬性按鈕可默認為0,即不限制列表中收取字段的數(shù)量。
用于執(zhí)行點擊下一頁按鈕操作,點擊元素xpath屬性按鈕,選擇使用當前循環(huán)中元素的xpath選項。
同理用于設置網(wǎng)頁加載等待時間。
用于設置在列表頁抽取的字段規(guī)則,點擊屬性按鈕中使用循環(huán)中的元素按鈕,選擇使用循環(huán)中的元素選項。點擊元素模板屬性按鈕在字段表格中點擊加減進行添加刪除字段,添加字段使用點選操作,即點擊加號后鼠標移動到網(wǎng)頁元素上點擊選擇。
4、點擊開始采集,啟動采集。
三、數(shù)據(jù)采集及導出
1、采集任務運行中;
2、采集完成后,選擇“導出數(shù)據(jù)”可以把數(shù)據(jù)都導出到本地文件;
3、選擇“導出方式”,將采集好的數(shù)據(jù)導出,這里可以選擇excel作為導出為格式;
4、采集數(shù)據(jù)導出后如下圖。