爬取Amazon商品评论有两个坑。
一、发送请求时要加header信息,不然会跳转到输入验证码页面;
二、需要解析的评论数据被转义了,需要反转义。
html实体是html中的特殊字符,如> < "
是为了避免浏览器错误解析,不能直接再文本中使用。
转义escape
python
import html
s = html.escape('< & >')
print(s)
输出:
python
< & >
反转义unescape
python
import html
s = html.unescape('"2019"')
print(s)
输出:
"2020"
项目实战经验
在做爬虫项目的时候,如果发现页面上有需要的内容,但是Beautiful Soup或者requests_html工作做解析的时候却无法解析到所需内容。这个时候可以考虑转义的问题。
项目练手:爬取amazon某商品的评论
数据页面
Life and Death Are Wearing Me Out: A Novel
实战代码