主要負責互聯(lián)網的公開信息進行采集的工作,主要是需要接口分析、抓包代理、逆向工程等等。詳情見崗責。
【崗位職責】
1、負責多平臺信息(視頻、音頻、圖片、文章等)爬取,包括APP端采集,agent相關數(shù)據采集等。
2、負責設計和開發(fā)分布式網絡爬蟲系統(tǒng)、技術選型。
3、持續(xù)對系統(tǒng)進行架構改造和優(yōu)化,提升系統(tǒng)的穩(wěn)定性與可擴展性,保障系統(tǒng)穩(wěn)定,高效,安全。
4、參與數(shù)據采集平臺架構設計和開發(fā)工作。
【崗位要求】
1、3年及以上網絡爬蟲相關、采集平臺、rpa相關開發(fā)經驗。
2、熟練掌握Python編程語言及常用采集框架,深入了解框架提供的特性及其實現(xiàn)原理細節(jié)。
3、熟練掌握PC/Android自動化采集技術,如playwright,selenium、dirssionpage等。
4、研究爬蟲策略和防屏蔽規(guī)則,解決封賬號、封IP、驗證碼、混淆加密,頁面跳轉等難點攻克,提升網頁抓取的效率和質量。
5、熟悉風控逆向相關技術,國內外驗證碼破解等;熟悉如何TLS 指紋、逆向、混淆、JS補環(huán)境等技術,以及各類加密算法,譬如(AES、RSA、Base64,Md5、SHA 系列等)。
6、具有良好的溝通能力、學習能力、分析解決問題能力,有較強的責任心、自驅力和成長型思維;
7、有長期規(guī)模化采集系統(tǒng)建設經驗優(yōu)先;有國外人機驗證碼破解經驗優(yōu)先;有computer use/phone use等agent相關數(shù)據采集經驗優(yōu)先。