使用精确标签删除正文中的广告等多余内容。
作者: 水淼
日期: 2016-08-07 22:20:20
人气: -
标签: 正文过滤 排版教程
使用精确标签来采集文章:
比如这个网页,使用《万能文章采集器》的精确标签来提取正文:
<div id="bookContent">
使用精确标签来删除多余内容:
然后发现这个正文里还包括了一些不需要的内容,通常在正文尾部。
这里则使用《多功能批量排版》的精确标签(网页处理-删除标签之间)来删除不需要的内容:
<div class="pro-examine" id="proScoreModule">
该软件还有各种文本处理功能,可以组合处理。
《万能文章采集器》的最新版本也支持了过滤正文时指定精确标签: