Skip to content

爬取Amazon商品评论有两个坑。

一、发送请求时要加header信息,不然会跳转到输入验证码页面;

二、需要解析的评论数据被转义了,需要反转义。

html实体是html中的特殊字符,如> < "是为了避免浏览器错误解析,不能直接再文本中使用。

转义escape

python
import html
s = html.escape('< & >')
print(s)

输出:

python
&lt; &amp; &gt;

反转义unescape

python
import html
s = html.unescape('&quot;2019&quot;')
print(s)

输出:

"2020"

项目实战经验

在做爬虫项目的时候,如果发现页面上有需要的内容,但是Beautiful Soup或者requests_html工作做解析的时候却无法解析到所需内容。这个时候可以考虑转义的问题。

项目练手:爬取amazon某商品的评论

数据页面

Life and Death Are Wearing Me Out: A Novel

实战代码

完整代码

飞桨PPDB——深度学习社区