你值得擁有更快速、方便的抓取工具
最近因為研究深度學習,需要抓取大量同種圖片當做訓練集
而imagenet是目前世界上擁有最多免費、被標記過的圖片樣本集
點選連結後會跳出一個txt,裡面塞滿了約1000多個圖片連結網址
雖然可以很簡單的用 wget -i 來實現
但身為工程師就是懶,希望能夠更快速的把這些檔案批次下載完
剛好找到了 aria2c 這個好用工具,在這邊跟大家簡單介紹
環境:Ubuntu 16.04
安裝
sudo apt-get install aria2
平行抓取檔案內的所有連結 (最大平行抓取數)
aria2c -j 50 -i image_urls.txt
加速單一大檔案的下載速度 (最大同時抓取數)
aria2c -x 4 http://bigfile.zip
這個工具同時也支援抓BT, FTP, 磁力等多種功能
非常推薦!