水淼·关键词网址采集器
软件下载
软件介绍
输入关键字采集各搜索引擎的网址、域名、标题、描述等信息。3.0全新重构版本,从各方面进行了优化,采集效率更高,采集数量更多,整体性能更优,支持搜索时间,代理,多线程,多国语言。
最新版本6.1内置关键词组合助手(高达5组关键词遍历组合)和整行过滤助手(删除不需要的内容所在行或提取需要的内容所在行)
支持百度、搜狗、谷歌、必应、360等。每个关键词600到800条
关键词可以附带搜索引擎参数,就跟网页里输入关键词搜索一样,
如百度里搜索结果网址中必须包含bbs的关键词,则输入“关键词 inurl:bbs.”
保存模板可引用的数据:
#网址#
采集的原始网址#标题#
网址对应的网页标题#域名#
原始网址的域名部分,如“http://test.shuimiao.net/123.htm”中的“test.shuimiao.net”#顶级域名#
取原始网址的顶级域名部分,如“http://test.shuimiao.net/123.htm”中的“shuimiao.net”#描述#
网页标题下面的一段描述文字Excel导出:
csv是一种文本表格,能被Excel兼容显示为多列多行的数据。只要在保存模板中设置为:"#网址#","#标题#","#描述#"
这种格式就是csv格式,使用引号围住每个项目,多个项目使用逗号隔开,然后保存扩展名填为csv即可
升级记录(2024年9月22日):
1.6.2.1:改造为支持OEM代理1.7.0.0:增加必应和雅虎采集;多项改动
1.7.1.0:将必应、雅虎、谷歌改为https请求以避免一些情况下的采集失败问题。
1.7.2.0:增加百度新闻采集。
1.7.2.1:一些更新。
1.7.3.0:增加关键词分割线选项。
1.7.4.0:修复百度最新变动无法采集的问题。
1.7.5.0:修复必应改动采集失效问题;修复某些电脑不能使用xmlhttps的问题(涉及谷歌、必应、雅虎)。
1.7.5.1:改进注册机制,使用硬盘+网卡全识别模式(同时兼容旧版注册码),可解决部分情况重装、换VPN所导致的机器码变的问题;其他更新。
1.7.6.0:增加每页采集数设置;引入新算法可以让搜狗极速搜索永不被封(当然如果搜狗修改了算法可能会不行,届时再说)。
1.8.0.0:增加#描述#项采集;增加搜狗延时时间避免搜狗最新规则限制。
1.8.1.0:修复雅虎采集失效问题
1.8.1.1:将每页采集数的默认值设置为50,以应对百度变动问题;增加采集失败的代码显示。
1.8.1.2:尝试修复部分电脑取硬盘码失败的问题。
1.8.2.0:修复雅虎采集失效问题
1.8.3.0:修复百度新闻改动采集失败的问题。
1.8.5.0:修复360在部分电脑返回不同网址格式导致采集失败的问题。
1.8.6.0:修复谷歌变动采集失败问题,并增加判断谷歌验证码弹出由用户手动解除再继续采集的功能。
1.8.8.0:新增必应和谷歌的英文站搜索选项。
1.9.0.0:修复雅虎改动采集失败问题;增加谷歌必应雅虎无等待高速采集选项;调整界面。
1.9.1.0:修改谷歌判断验证码的方式以更准确捕获验证码出现。
1.9.2.0:修复site百度时部分描述不能正确采集的问题。
1.9.3.0:修复描述的空格被清除的问题。
1.9.3.1:修复部分电脑上无法解析百度最新的https链接问题
1.9.5.0:修复因谷歌改动导致部分电脑取法采集谷歌的问题。
1.9.6.0:新增百度验证码弹出输入
1.9.7.0:新增谷歌地址前缀指定,可自行设置能使用的谷歌域名。
1.9.7.1:更新谷歌地址前缀文件;修复部分系统异常导致百度采集错误的问题。
1.9.7.3:修复必应采集失败问题。
1.9.8.0:修复谷歌因改动导致采集不全的问题。
1.9.8.1:增加谷歌英文验证码提示识别。
1.9.9.0:增加搜狗新闻引擎;尝试修复百度部分电脑采集不了的问题;增加取顶级域名时不包括www选项;其他更新
1.9.11.0:增加搜狗验证码识别弹出
1.9.12.0:将百度http修改为https
1.9.13.0:修复百度改动导致百度链接转换失败问题
1.9.16.1:修复百度采集可能存在的一些问题
1.9.20.0:再修复百度采集在部分电脑上可能存在的一些问题
1.9.21.0:升级搜狗验证码新改动的识别弹出。
1.9.22.0:升级对360跳转网址的识别转换。
1.9.23.0:升级对百度知道跳转网址的二次识别转换。
1.9.25.0:如果没有引用#网址#、#域名#时免去转换百度网址的过程以节省时间。
1.9.26.0:增加#关键词#引用。
1.10.0.0:增加#网页关键词#引用。
1.11.0.0:修复谷歌无法采集的问题(仍需翻墙);取消谷歌地址前缀,只能使用VPN翻墙的方式才能采集谷歌。
1.11.1.0:修复百度只采集标题且忽略自家网站时无法采集的问题。
1.12.0.0:修复360无法采集被提示访问不稳定或危险的网址。
2.0.0.0:新增百度移动,360移动,神马移动采集。
2.0.1.0:修改访问命令,尝试解决百度移动采集一段时间后崩溃的问题;其他更新。
2.0.2.0:修复360部分关键词卡住的问题。
2.1.0.0:修复多项搜索引擎无法采集的问题;界面调整等更新。基于1.9.21.0版本升级
2.1.1.0:修改谷歌验证从ie浏览器中打开以便验证通过后继续采集。
2.1.2.0:修复百度移动、360移动、搜狗采集失败问题。
2.2.0.0:修复百度和百度新闻。
2.2.1.0:解除验证时升级为谷歌内核浏览器。
2.2.2.0:修复百度移动。
2.2.3.2:修复百度部分情况下弹出伪验证的问题;修复百度移动。
2.2.5.2:针对百度的假验证问题,增加三种采集模式进行尝试。
2.2.6.0:修改百度采集模式为两种,如果弹出验证输入无效导致一直弹出,请卸载多余杀毒,只安装火绒杀毒(huorong.cn),Win10系统请升级操作系统到最新版。
2.2.8.0:增加自动关闭验证窗口。
2.2.9.2:改版验证窗口和相关处理。
2.2.10.0:改进了浏览器UA,尝试修复百度验证无效问题。
2.2.11.0:修复百度个别关键词错误验证的问题。
2.3.0.0:修复百度新闻改动采集不了的问题;修复搜狗新闻改动链接无法转换的问题。
2.3.5.0:增加验证时自动删除缓存选项。
2.3.6.0:修复必应采集。
2.5.0.0:接入联众打码用于搜狗自动打码,打码启用时不再内置访问间隔,可以高速采集搜狗,联众账号密码填入时启用自动打码。另外我发现,在自动打码最好打钩清除缓存,这样就很少需要真的打码。
2.5.1.0:调整打码提交的步骤,避免提示失败
2.5.2.0:改进缓存清除机制,经过测试可以有效避免或减少谷歌验证
3.0.0.0:全新重构版本,从各方面进行了优化,采集效率更高,采集数量更多,整体性能更优,支持搜索时间,代理,多线程,多国语言。
3.1.0.0:修复关键词有:等字符时无法保存的问题;(每个关键词)保存数量小于等于10时,内部强制每页搜索数量10个(原先是自动的,有的50有的10),可以减少请求消耗;其它细节改动
3.2.0.0:调小界面,并支持拉动窗口边框,以解决有人屏幕小无法显示全部界面的问题
3.3.0.0:解决(不算修复算变更)保存模板单纯保存#标题#时,搜索结果标题高度重复时提前退出采集的问题。
3.5.0.0:增加验证前清除Cookies 选项;增加右击开始采集按钮启用无Cookies模式;转换搜索引擎网址时增加Cookies同步;其它修改
3.6.0.0:联众打码倒闭了,增加斐斐打码和超级鹰打码;其它
3.7.0.0:修复百度描述采集失败问题;新增最大页数设置,如果为0表示自动,自动就是根据保存数量来自动翻页,如果设置了最大页数,每页数量固定为10,并且达到页数自动停止
3.8.0.0:修复必应国际版的采集;其它
3.9.0.0:修复必应国内和国际版的采集;优化百度移动的验证弹出逻辑;改进验证时的自动关闭判断逻辑;去除自动关闭选项(鸡肋功能);其它
3.11.0.0:修复最大页数bug;其它
3.12.0.0:修复必应国际版链接解析问题;增加外部浏览器用来采集谷歌(已实测有效,需要你先安装一个谷歌浏览器或Edge浏览器,然后弹出外部浏览器验证时请完成验证,软件自动继续采集);其它
3.13.0.0:尝试修复外部浏览器有的电脑无法调用的问题;增加谷歌和edge浏览器切换功能
3.15.0.0:外部浏览器的端口查询功能去掉报毒DLL(改为其它方式查询)
3.16.0.0:优化外部浏览器策略;其它更新
3.18.0.0:修复必应中国的网址转换;尝试修复百度验证异常的问题(请选中验证前清空Cookies);界面匹配dpi放大;其它更新
3.19.0.0:修改界面为黑体;再次修复百度验证异常问题;继续优化外部浏览器策略;其它
3.21.0.0:修复必应国内和国际采集问题(支持内置浏览器和外部浏览器切换采集);优化搜狗验证逻辑(支持内外浏览器验证);保存文件为utf8带bom;其它更新
5.0.0.0:360自动使用外部浏览器验证;全界面支持无损放大(文字、图标都可以无损放大),文字全部改为微软雅黑。无论你的显示屏有多大,都能高清显示;组合框更换为独家新款外观(支持带图标列表更直观);各种界面调整;优化启动速度;目录树图标更换;改进机器码获取功能
5.2.0.0:改用EDGE浏览器内核;其它更新。
5.3.0.0:增加每页数量设置,并增加强制采集到最大页数;其它。
5.5.0.0:修复搜狗网页和360网页采集;其它。
5.6.0.0:修复搜狗系采集(但可能采集多了还是受限);因为原先使用浏览器访问时,浏览器不支持代理,新版本修正了使用代理时不使用浏览器而是使用后台访问,这样代理才有效果;输入代理界面给出了水淼测试过的隧道代理购买网站。
5.7.0.0:修复搜狗移动因为验证问题无法正常采集的问题。
5.8.0.0:修复百度移动因改动无法采集的问题。
5.9.0.0:修复搜狗自动验证问题;变动界面;新增广告系统;其它。
5.11.0.0:优化广告加载。
6.1.0.0:界面大调整;新增搜索词组合(关键词组合助手)和域名过滤(整行过滤助手)两个工具
6.2.0.0:微调界面;修复点击【保存目录】时合并保存被隐藏的问题,并且支持点击【保存目录】打开保存目录
6.5.0.0:恢复之前浏览器版本(上次升级的浏览器版本可能存在问题);其它
6.7.0.0:修复必应采集变动导致采集不了几个的问题
6.9.0.0:合并保存的文件名使用当前秒。
6.11.0.0:修复上次升级导致的合并保存换行不正常的问题。