崗位職責(zé):
1、設(shè)計并實現(xiàn)高效、穩(wěn)定的爬蟲系統(tǒng),抓取并處理海量數(shù)據(jù);
2、維護和優(yōu)化現(xiàn)有爬蟲,確保其高效運行和數(shù)據(jù)準確性;
3、分析和解決爬蟲運行中的問題,如反爬機制、IP 封禁等;
4、研究和應(yīng)用新的爬蟲技術(shù)和方法,提高數(shù)據(jù)抓取的效率和質(zhì)量;
5、與數(shù)據(jù)分析團隊合作,提供高質(zhì)量的數(shù)據(jù)支持和服務(wù);
6、編寫爬蟲相關(guān)的技術(shù)文檔和代碼注釋,保證代碼的可維護性和可擴展性。
任職要求:
1、大專及以上學(xué)歷,計算機科學(xué)、軟件工程或相關(guān)專業(yè);
2、2 年以上 Python 開發(fā)經(jīng)驗,至少 2 年以上爬蟲開發(fā)經(jīng)驗;
3、熟練使用 Scrapy、BeautifulSoup、Selenium、Requests、Playwright、DrissionPage 等爬蟲框架和工具;
4、熟悉 HTML、CSS、JavaScript,能夠分析和提取網(wǎng)頁數(shù)據(jù);
5、熟悉常見的反爬機制及應(yīng)對策略,如驗證碼處理、動態(tài)加載、IP 封禁等;
6、熟悉數(shù)據(jù)庫技術(shù),如 MySQL、MongoDB、Redis 等,能進行數(shù)據(jù)存儲和管理;
7、具有一定的 JS 逆向能力;
8、具有良好的編碼習(xí)慣和文檔編寫能力,能夠編寫高質(zhì)量的技術(shù)文檔;
9、具有團隊合作精神,良好的溝通能力和解決問題的能力;
具備大數(shù)據(jù)處理、機器學(xué)習(xí)等相關(guān)經(jīng)驗者優(yōu)先。