Crawl Data
Khái quát cào dữ liệu (crawl data)
Muốn học machine learning thì phải có data nên đầu tiên mình sẽ giới thiệu mọi người cách cào (crawl) data từ trên mạng về.
Cào dữ liệu hay crawl data là kỹ thuật request lên server rồi tách, lấy data từ các trang web về và lưu vô máy (Tự mình định nghĩa vậy thôi :D )
Crawler là một công cụ (tool) thực hiện nhiệm vụ crawl.
Bây giờ ta bắt đầu xây dựng một Crawler nào.
Xây dựng Crawler
Ta sẽ sử dụng python để build một crawler sử dụng thư viện Scrapy.
Updating…