scrapy爬取appstore信息

主要参考这个

改了几点:

1)、中国区的起始页改为:https://apps.apple.com/cn/genre/ios/id36

2)、看代码以前貌似可以在首页爬取app信息,但是现在的只能在首页爬取到分类信息,所以修改了下spider中的start_requests方法:

start_url = 'https://apps.apple.com/cn/genre/ios/id36'

yield scrapy.Request(start_url, self.parse_category)

增加了一个方法parse_category,用于获取分类的url和分类名称:

a_list = response.xpath('//div[@class="grid3-column"]//ul//li//a[@class="top-level-genre"]')

        for a in a_list:

            cat_href = a.xpath('@href').extract()[0]

            cat_name = a.xpath('text()').extract()[0]

            print(cat_href+" | "+cat_name)

目前已正确获得了分类的名称和url,后面还要继续写,先做个记录吧

以前解析response用的是beautifulsoup4,没使用过xpath,用了下还不错,不过在解析app分类的a标签时,需要同时用href和text,参考了这个文章,略做了修改

cag_href=a.xpath('@href').extract()[0]

cat_name = a.xpath('text()').extract()[0]


这个文章还没仔细看