请选择 进入手机版 | 继续访问电脑版
查看: 1790|回复: 7

[其它] 网站百度抓取失败,原因找不到

[复制链接]
发表于 2020-6-7 10:11:46 | 显示全部楼层 |阅读模式
20金币
本帖最后由 amo12 于 2020-6-7 10:33 编辑

正常的php能抓取到,带参数的全部失败






以下是百度Spider抓取结果及页面信息:


提交网址:        h-t-t--p-s:/-/w-w-w.0352fang.com/3g/archive.php?aid=729226&addno=1&img=1
抓取网址:        h-t-t--p-s:/-/w-w-w.0352fang.com/3g/archive.php?aid=729226&addno=1&img=1
抓取UA:        Mozilla/5.0 (compatible; Baiduspider/2.0; +h-t-t--p-s:/-/www.baidu.com/search/spider.html)
抓取时间:        2020-06-07 09:55:56
网站IP:        61.***.***.75 报错
下载时长:        0.149秒
抓取异常信息:        拒绝访问  查看帮助
返回HTTP头:


HTTP/1.1 403 Forbidden
Date: Sun, 07 Jun 2020 01:55:57 GMT
Content-Type: text/html;charset=gbk
Transfer-Encoding: chunked
Connection: close
Set-Cookie: __cfduid=d64a98daf12d9dc16ffc6e33246e579711591494957; expires=Tue, 07-Jul-20 01:55:57 GMT; path=/; domain=.0352fang.com; HttpOnly; SameSite=Lax
Vary: Accept-Encoding
Set-Cookie: PHPSESSID=cmja9ct61c3uuangu1maq0o4l1; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
CF-Cache-Status: DYNAMIC
Expect-CT: max-age=604800, report-uri="h-t-t--p-s:/-/report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"
Server: yunjiasu-nginx
CF-RAY: 59f6c0fa5e6e3ec4-SJW
cf-request-id: 032e16f07400003ec4f3214200000001




网站用的百度云加速专业版,面板是宝塔,前段时间给服务器安装了Nginx免费防火墙和百度的openrasp,现在已经全部卸载了
找了宝塔的运维,登录到服务器和面板个把小时后也说不知道什么原因,解决不了
联系了百度云加速,说没问题,叫我联系站长平台,用17ce看了全国访问状态,大部分是200没问题17ce.com/site/http/20200607_8f6701f0a86411ea8db8f51908eb1437:1.html


大佬有没有什么办法我排除下,重装服务器有点麻烦



附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册
发表于 2020-6-8 09:28:26 | 显示全部楼层
1.重启服务器,看看是否服务器不稳定导致,如果重启后一段时间内不出现抓取错误,那就是服务器问题,或者缓存日志等问题了
2.关闭CDN,看是否是各地CDN服务器不稳定导致
3.robots文件检查一下
4.查看服务器网站程序主要目录的权限设置是否有变动,防止被装小后门不得知
5.伪静态服务重新安装,该服务不稳定也会出现各种问题

找不出原因,那就大范围检查,权当一次自己服务器安全检查,就算没有收获,也不亏
回复

使用道具 举报

 楼主| 发表于 2020-6-10 15:41:53 | 显示全部楼层
心烦忧伤 发表于 2020-6-8 09:28
1.重启服务器,看看是否服务器不稳定导致,如果重启后一段时间内不出现抓取错误,那就是服务器问题,或者缓 ...

1,服务器不但重启过,还全盘格式化和安装了新的系统,web服务器
2,cdn关闭后几个小时,用百度站长的抓取测试,显示为源站IP,也还是不行
3,robots就是普通的几个目录的,一直没有动过,看不出有什么问题
4,找了宝塔面板的管理员,他给看了设置文件权限什么都操作了不行
5,网站有动态页面和静态页面,没有使用伪静态

现在问题更极端。网址里带&参数的链接全部失败
h--ttps://w-ww.0352fang.com/index.php?caid=2  (抓取成功)
h---ttps://w-ww.0352fang.com/index.php?caid=2&a=1   (抓取失败)
回复

使用道具 举报

发表于 2020-6-11 08:44:53 | 显示全部楼层
amo12 发表于 2020-6-10 15:41
1,服务器不但重启过,还全盘格式化和安装了新的系统,web服务器
2,cdn关闭后几个小时,用百度站长的抓 ...

如果自身无问题,那就是百度的问题了,有想过百度新算法,在整改搜索聚合页面,而你带参数的链接,会不会无意间踩到百度的某种雷呢?
要排除百度的问题,你可以通过360、搜狗、谷歌等站长平台,进一步检测一下,是否就百度出了问题!
如果其他搜索引擎也有这样的问题,那真是你程序出现某种bug了
回复

使用道具 举报

发表于 2020-6-12 20:26:12 | 显示全部楼层
检查下是不是IP的问题,比如HTTP换成HTTPS,会使得IP变化,而百度更新IP需要时间。如IP不对应,报错就行了。
回复

使用道具 举报

发表于 2020-7-27 11:08:54 | 显示全部楼层
看看服务器软件设置问题,我感觉不是robots文件的话 就是服务器软件设置的问题
回复

使用道具 举报

发表于 2020-7-27 12:35:59 | 显示全部楼层
可能网站代码原因
回复

使用道具 举报

发表于 2020-7-31 19:16:18 | 显示全部楼层
提示 403 Forbidden ,应该是服务配置有问题吧,检查下服务器配置
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-8-13 22:55 , Processed in 0.322214 second(s), 15 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部