爬虫爬取数据_ python爬虫爬取淘宝天猫商品评论数据教程_爬虫爬取流程图

最近,因为工作需要,需要获取天猫某一商品的全部评论数据。于是,写了一个python脚本,自动爬取所有评论。做个记录。

一、准备阶段

  1. 获取评论数据来源

天猫的评论数据一般会放在JS文件里,故我们只需要打开商品页,快捷键Fn+F12,选择NetWork,筛选JS文件,找到名称为“rate.tmall....”开头的文件。

 

爬虫爬取数据

 

 

复制JS文件的链接,在新的页面打开访问。

爬虫爬取数据

 

bingo!就是我们需要的评论数据。

二、python代码

  1. 导入需要的第三方库

爬虫爬取数据

 

2.生成链接列表

爬虫爬取数据

 

3.获取评论数据的函数

爬虫爬取数据

 

4.将爬下来的数据写入到txt文件中

爬虫爬取数据

 

5.主函数,开始运行

爬虫爬取数据

 

6.最终得到一个txt文件, 打开后有完整的数据,如果有需要可以导入到csv或者excel文件里。

爬虫爬取数据

 

三、遇到的坑及解决方案

  1. 一定要加头文件,头文件里一定要有cookie,否则获取不到正确的js
  2. 商品评论中有emoji表情包,而gbk编码方式无法识别表情包。有两种解决方式,一个是转换为UTF-8之后使用ignore参数再转换为gbk编码,这样会忽略掉无法识别的emoji表情包;另一个办法是直接将数据存为txt文件,会默认忽略掉非文本数据,简单粗暴。
  3. 天猫会有反爬虫机制,大批量的访问会导致IP受限。这时候就要用到IP池了。
  4. 天猫只提供2000条的评论数据(可以爬所有的评论,不过2000+后面的评论都是重复的),如果要定期跟踪评论舆情,那就需要定期爬取数据。

 

四、后续操作

因为淘宝天猫取消了差评的筛选,所以我们是无法直接分类出哪些评论是差评。但是通过一些中文文本挖掘库(比如snownlp)进行购物评论文本情感分析,可以对评论进行语义分析。时间有限,后续再说。

五、获取源代码?

如何获取源代码:

 

大家都在看

相关专题