因为QA模块信息太重要了,写一个QA自动爬行程序,在浏览器中爬行竞争产品QA。
部分数据效果图如下。
图片来源:乃超老师
本文分为四个部分:
1. QA的作用
2. 使用步骤
3. 触类旁通思路
4. 工具代码
@ QA的作用
1. 从竞争产品中找到买家的关注点,优化产品,避免问题
2. 在弱客服的情况下,尽量从QA层面回答买家的问题,提高转化率
@ 使用步骤
1. 在谷歌浏览器中安装web scraper插件
2. 导入文章末尾的代码
3. 设置需要爬行的链接
https://www.amazon.com/ask/questions/asin/爱森跨境/[1-n]?sort=SUBMIT_DATE
* 用想爬的ASIN取代“爱森跨境”
* 将‘[1-n]想爬的页数中的n取代了想爬的页数
4. 点击爬行按钮,下载表格
@ 触类旁通思路
爬行思路很简单,对于QA模块,当然可以收集到很多数据,可以根据自己的爬行规则来定制
1. 分析网页结构,打开QA模块主页
图片来源:亚马逊平台截图
根据网页分析,得出三个结论:
* 链接拼凑的结果是 公共部分 ASIN 页序号 排序方式
* 有两种排序方法 Most Helpful first 和 Newest first。SUBMIT_____DATE、HELPFUL
* 遇到多个答案的问题,无法展开,只能跳到问答详情页面
因此,根据流程,要爬取一个问题的所有答案,就必须抓取详细页面的数据。问答详情页面分析如下:
图片来源:亚马逊平台截图
从图中可以看出,问答对应于问答ID,问答详细信息页面也由ID拼接而成。因此,只需打开不同的问题,在相应的问题下得到所有的答案。
加入我们获取更多纯干货内容,教你如何用流行代码收集和分析普通数据。
QA的作用 使用步骤 触类旁通思路