主要負(fù)責(zé)互聯(lián)網(wǎng)的公開信息進(jìn)行采集的工作,主要是需要接口分析、抓包代理、逆向工程等等。詳情見崗責(zé)。
【崗位職責(zé)】
1、負(fù)責(zé)多平臺信息(視頻、音頻、圖片、文章等)爬取,包括APP端采集,agent相關(guān)數(shù)據(jù)采集等。
2、負(fù)責(zé)設(shè)計和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)、技術(shù)選型。
3、參與數(shù)據(jù)采集平臺架構(gòu)設(shè)計和開發(fā)工作。
【崗位要求】
1、3年及以上網(wǎng)絡(luò)爬蟲相關(guān)、采集平臺、RPA 相關(guān)開發(fā)經(jīng)驗。
2、熟練掌握Python編程語言及常用采集框架,深入了解框架提供的特性及其實現(xiàn)原理細(xì)節(jié)。
3、熟練掌握PC/Android自動化采集技術(shù),如playwright,selenium、dirssionpage等。
4、研究爬蟲策略和防屏蔽規(guī)則,解決封賬號、封IP、驗證碼、混淆加密,頁面跳轉(zhuǎn)等難點攻克,提升網(wǎng)頁抓取的效率和質(zhì)量。
5、熟悉風(fēng)控逆向相關(guān)技術(shù),國內(nèi)外驗證碼破解等;熟悉如何TLS 指紋、逆向、混淆、JS補(bǔ)環(huán)境等技術(shù),以及各類加密算法,譬如(AES、RSA、Base64,Md5、SHA 系列等)。
6、具有良好的溝通能力、學(xué)習(xí)能力、分析解決問題能力,有較強(qiáng)的責(zé)任心、自驅(qū)力和成長型思維;
7、有長期規(guī)模化采集系統(tǒng)建設(shè)經(jīng)驗優(yōu)先;有國外人機(jī)驗證碼破解經(jīng)驗優(yōu)先;有computer use/phone use等agent相關(guān)數(shù)據(jù)采集經(jīng)驗優(yōu)先。