崗位職責(zé):
1. 負(fù)責(zé) Web 端數(shù)據(jù)全流程采集(爬取、清洗、入庫),可獨立設(shè)計多源數(shù)據(jù)采集方案;
2. 熟練掌握 Python,能使用 FastAPI 構(gòu)建后端接口并進(jìn)行聯(lián)調(diào);
3. 熟悉數(shù)據(jù)庫(Redis、PostgreSQL、MySQL),能進(jìn)行結(jié)構(gòu)設(shè)計與性能優(yōu)化;
4. 熟練使用 Docker 進(jìn)行服務(wù)容器化與多服務(wù)編排(Compose),了解 K8s 優(yōu)先;
5. 掌握多種抓取技術(shù)(網(wǎng)頁爬取、動態(tài)渲染、API 調(diào)用),能處理代理池、驗證碼識別等場景;
6. 熟練使用 XPath、BeautifulSoup、pandas 等解析工具提取結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù);
7. 精通反爬破解技術(shù)(JS Hook、AST 分析、混淆還原等);
8. 參與分布式爬蟲系統(tǒng)設(shè)計與優(yōu)化,搭建采集調(diào)度與監(jiān)控體系;
9. 熟練使用 Scrapy、PySpider 框架,具備二次開發(fā)與中間件擴(kuò)展能力;
10. 具備良好的溝通能力,可與產(chǎn)品、數(shù)據(jù)、后端團(tuán)隊協(xié)同開發(fā);
11. 有 APP 逆向與協(xié)議分析經(jīng)驗者優(yōu)先。