爬取Amazon商品评论 | 飞桨PPDB—

爬取Amazon商品评论有两个坑。

一、发送请求时要加header信息，不然会跳转到输入验证码页面；

二、需要解析的评论数据被转义了，需要反转义。

html实体是html中的特殊字符，如> < "是为了避免浏览器错误解析，不能直接再文本中使用。

python

import html
s = html.escape('< & >')
print(s)

输出：

python

&lt; &amp; &gt;

python

import html
s = html.unescape('&quot;2019&quot;')
print(s)

输出：

"2020"

项目实战经验

在做爬虫项目的时候，如果发现页面上有需要的内容，但是Beautiful Soup或者requests_html工作做解析的时候却无法解析到所需内容。这个时候可以考虑转义的问题。

数据页面

实战代码