爬取Amazon商品评论有两个坑。
一、发送请求时要加header信息,不然会跳转到输入验证码页面;
二、需要解析的评论数据被转义了,需要反转义。
html实体是html中的特殊字符,如> < "
是为了避免浏览器错误解析,不能直接再文本中使用。
转义escape
1 | import html |
输出:
1 | < & > |
反转义unescape
1 | import html |
输出:
1 | "2020" |
项目实战经验
在做爬虫项目的时候,如果发现页面上有需要的内容,但是Beautiful Soup或者requests_html工作做解析的时候却无法解析到所需内容。这个时候可以考虑转义的问题。
项目练手:爬取amazon某商品的评论
数据页面
Life and Death Are Wearing Me Out: A Novel
实战代码
- 本文作者: 燕清
- 本文链接: http://eshop88.cn/2020/03/25/code/爬取Amazon商品评论/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!