主要参考这个
改了几点:
1)、中国区的起始页改为:https://apps.apple.com/cn/genre/ios/id36
2)、看代码以前貌似可以在首页爬取app信息,但是现在的只能在首页爬取到分类信息,所以修改了下spider中的start_requests方法:
start_url = 'https://apps.apple.com/cn/genre/ios/id36'
yield scrapy.Request(start_url, self.parse_category)
增加了一个方法parse_category,用于获取分类的url和分类名称:
a_list = response.xpath('//div[@class="grid3-column"]//ul//li//a[@class="top-level-genre"]')
for a in a_list:
cat_href = a.xpath('@href').extract()[0]
cat_name = a.xpath('text()').extract()[0]
print(cat_href+" | "+cat_name)
目前已正确获得了分类的名称和url,后面还要继续写,先做个记录吧
以前解析response用的是beautifulsoup4,没使用过xpath,用了下还不错,不过在解析app分类的a标签时,需要同时用href和text,参考了这个文章,略做了修改
cag_href=a.xpath('@href').extract()[0]
cat_name = a.xpath('text()').extract()[0]
这个文章还没仔细看