scrapy爬取appstore信息-Scott-Blog

主要参考这个

改了几点：

1）、中国区的起始页改为：https://apps.apple.com/cn/genre/ios/id36

2）、看代码以前貌似可以在首页爬取app信息，但是现在的只能在首页爬取到分类信息，所以修改了下spider中的start_requests方法：

start_url = 'https://apps.apple.com/cn/genre/ios/id36'

yield scrapy.Request(start_url, self.parse_category)

增加了一个方法parse_category，用于获取分类的url和分类名称：

a_list = response.xpath('//div[@class="grid3-column"]//ul//li//a[@class="top-level-genre"]')

for a in a_list:

cat_href = a.xpath('@href').extract()[0]

cat_name = a.xpath('text()').extract()[0]

print(cat_href+" | "+cat_name)

目前已正确获得了分类的名称和url，后面还要继续写，先做个记录吧

以前解析response用的是beautifulsoup4,没使用过xpath，用了下还不错，不过在解析app分类的a标签时，需要同时用href和text，参考了这个文章，略做了修改

cag_href=a.xpath('@href').extract()[0]

cat_name = a.xpath('text()').extract()[0]

这个文章还没仔细看