以东方网为例,使用水淼·万能文章采集器
采集步骤:
1.首先,生成标题列表的列表页地址:2.然后单篇采集一个列表页以确定能采集到标题列表(使用精确标签所有):
在列表页复制到的第一个链接的代码是:
<a href="http://news.eastday.com/c/20161105/u1a12249849.html" target="_blank" class="blue14">
这里可以简化为 <a class="blue14"> 作为精确标签:
3.最后就是将全部的列表页地址放到批量采集区里开始采集:
采集好之后,一个列表页的标题列表是保存一个文件的。
如果想要多个列表页文件合并为一个文件,可以使用水淼分割合并助手