服務(wù)區(qū)域:全國
服務(wù)內(nèi)容全部包含:
網(wǎng)絡(luò)爬蟲,爬取網(wǎng)站信息,并保存為各種格式或數(shù)據(jù)庫
1.信息獲取
根據(jù)客戶提供的網(wǎng)站,解析網(wǎng)站獲取指定信息,包括但不限于文本,圖片,網(wǎng)址,視頻,列表信息。
2.信息儲存
可以存儲結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù),包括但不限于excel,mysql,mongodb。
3.源碼
提供源碼并提供6個月的后期維護(hù),也可封裝為小程序。
服務(wù)優(yōu)勢:
爬取過一些棘手的網(wǎng)站,可以實現(xiàn)大批量爬取,分布式爬取。
1.懂需求
有豐富的與客戶交流的經(jīng)驗,能清楚地搞懂客戶需要什么類型的信息。
2.有反反爬經(jīng)驗
處理過不少擁有嚴(yán)格反爬措施的網(wǎng)站,如pdd網(wǎng)頁版,CFDA官網(wǎng)等。
3.售后服務(wù)
提供代碼后期維護(hù)工作,當(dāng)需求不變,網(wǎng)站小規(guī)模變更導(dǎo)致代碼不可用時,提供修改服務(wù)。
服務(wù)前需客戶提供的信息:
需客戶提供需爬取的網(wǎng)站,所需的數(shù)據(jù),以及數(shù)據(jù)交付時保存的形式,關(guān)于數(shù)據(jù)具體要求:
1.盡量提供確定的網(wǎng)址
2.對于寬泛的某類數(shù)據(jù),不限于單個網(wǎng)址的數(shù)據(jù),盡量將限制描述清楚
3.數(shù)據(jù)的交付形式可以不固定,但是盡量以適合觀看或理解的形式交付
其他:
產(chǎn)品只針對當(dāng)前網(wǎng)站配置,售后的維護(hù)也只針對網(wǎng)站在結(jié)構(gòu)上不發(fā)生大規(guī)模改動,如果網(wǎng)站進(jìn)行了大規(guī)模改動導(dǎo)致產(chǎn)品不可用,不屬于責(zé)任范圍。
半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)交易數(shù)據(jù)其他關(guān)系型數(shù)據(jù)庫文件數(shù)據(jù)源描述性分析其他其他
常見問題
這是由于配置不到位,在啟動代碼或小程序是可能需要一些配置文件或者外部環(huán)境作為支持,這些會在交付時詳細(xì)說明。