请选择 进入手机版 | 继续访问电脑版
查看: 1946|回复: 10

[结果展现] 怎么删除或屏蔽不存在且收录索引的页面

[复制链接]
发表于 2021-4-9 10:51:59 | 显示全部楼层 |阅读模式
200金币
问题是从网站挂马后产生的,网站安全已经没问题了,现在要处理挂马后产生的问题。
现在网站收录了好多重复的页面。但是这些页面其实也不在网站文件里面,找不到文件页面也无法直接删除做成404的页面。
比如 网站链接A是真正的URL。中了木马产生了这样的后缀的
A?id=oqhcdrcvtkds.docx
A?id=816891306466.txt
A?838817436061.ppt    红色的部分都是种马后百度收录的链接
且在索引描述都是不好的信息。点进去都是指向真正的网页A链接的内容。
有谁知道怎么做才能把这些产生不规则链接进行屏蔽或者做成404页面。
我在网站主页文件portal.php加入一段代码后,那些产生的重复的主页不规则链接现在都是404页面了,这样提交死链工具就可以删除掉。
<?php



if(!empty($_GET)){
    @header('HTTP/1.1 404 Not Found');
    @header('Status: 404 Not Found');
    exit;
}

但是在网站目录和内容页产生的重复的不规则的链接且不好的索引描述就就不知道该怎么做成404页面了,有遇到或者知道怎么解决的可以帮助下。
说可以尝试可尝试通过修改Nginx或Apache配置文件,通过正则匹配后缀为 .txt .ppt .ga .doc的请求跳转404页面,但是不会操作,希望懂的可以指点下,谢谢。

发表于 2021-4-9 11:12:57 | 显示全部楼层
首先判断这些页面是否可以打开,如果可以打开,那么就证明服务器是存在这些页面,做删除处理。
这些页面是404,那么做一个专门的404页面,让这些页面都跳转到404页面。
这些页面全部是死链,导出死链提交到百度。
robots.txt限制,不抓取带?的网址,或者这些网址有什么特点,做限制。

点评

这些页面都是可以正常访问打开的,404页面已经做好了。服务器目前是查不到这些文件。索引已经放出来了,但都是不良信息,因为木马就是快照劫持,一个页面产生很多不同的描述不同的后缀网址。可以试下robots限制。谢  详情 回复 发表于 2021-4-9 14:02
回复

使用道具 举报

发表于 2021-4-9 11:36:25 | 显示全部楼层
“但是这些页面其实也不在网站文件里面,找不到文件页面也无法直接删除做成404的页面。”
你这句话我就已经知道做什么了,反向代理了吧。

你可以通过服务器日志,查看访问链接,导出一份在站长平台,进行死链接提交。
robots.txt文件屏蔽
User-agent: *
Disallow: /A?*
User-agent: *
Disallow: /A?*.txt$
User-agent: *
Disallow: /A?*.ppt$
User-agent: *
Disallow: /A?*.ga$
User-agent: *
Disallow: /a?*.doc$

robots.txt 如果无法屏蔽掉,你可以设置服务器404页面,把404页面设置成动态文件,进行统计死链接。

点评

反向代理没有做,不过中木马后产生的快照劫持不知道是不是反向代理这个原理。索引上去好多,但都是不良信息,重复的页面,同一个网页好多不同后缀但都是一个页面。现在好多索引已经出来了,不知在做robots是否有效,  详情 回复 发表于 2021-4-9 13:59
回复

使用道具 举报

 楼主| 发表于 2021-4-9 13:59:22 | 显示全部楼层
毕文权 发表于 2021-4-9 11:36
“但是这些页面其实也不在网站文件里面,找不到文件页面也无法直接删除做成404的页面。”
你这句话我就已经 ...

反向代理没有做,不过中木马后产生的快照劫持不知道是不是反向代理这个原理。索引上去好多,但都是不良信息,重复的页面,同一个网页好多不同后缀但都是一个页面。现在好多索引已经出来了,不知在做robots是否有效,但是可以尝试下。
回复

使用道具 举报

 楼主| 发表于 2021-4-9 14:02:44 | 显示全部楼层
王书玲time 发表于 2021-4-9 11:12
首先判断这些页面是否可以打开,如果可以打开,那么就证明服务器是存在这些页面,做删除处理。
这些页面是4 ...

这些页面都是可以正常访问打开的,404页面已经做好了。服务器目前是查不到这些文件。索引已经放出来了,但都是不良信息,因为木马就是快照劫持,一个页面产生很多不同的描述不同的后缀网址。可以试下robots限制。谢谢回复。
回复

使用道具 举报

发表于 2021-4-9 21:51:33 | 显示全部楼层
查看植入URL特征,在robots.tx中t屏蔽,上传后在资源平台提交robots更新,在网页中增加canonical标签。
回复

使用道具 举报

发表于 2021-4-16 11:27:51 | 显示全部楼层
可以通过三种方式删除或者屏蔽:
第一:robots.txt屏蔽不存在目录。
第二:做404页面或者301重定向到相关页面。
第三:已经收录不存在的页面使用百度投诉形式给与彻底消失

小编分享一下有关索引,快照,权重的内容,希望能否帮助您!1,百度索引:
百度索引量是指有多少页面作为搜索候选结果。对于新站,由于收录比较慢,那么索引量一般远远大于收录,这是正常的现象,也是网站良好的表现,而且这些索引量在未来大部分可能会变成网站的可以搜索的收录量。
2,百度权重:
百度权重是站长工具等网站推出的针对网站关键词排名预计给网站带来流量,划分等级0-9的第三方网站欢迎度评估数据。百度官方明确表示不承认百度权重。百度权重并不是像谷歌的PR、搜狗的SR、IBM hits等那样是对网站的综合评级的算法。百度权重只是针对关键词排名…
3,百度快照:
百度快照是指百度上保存的被收录的网页的纯文本备份。当搜索引擎派出蜘蛛去对网站进行索引的时候,会对网站页面进行拍照抓取,同时生成一个临时的缓存页面,它被存储于搜索引擎服务器上。

回复

使用道具 举报

发表于 2021-4-16 22:54:23 | 显示全部楼层
最简单的方法就是自己写个规则就行,比如A? 后面的一律301到首页或者相对应的内页,这样就行了

点评

感谢回复,可以指导下规则该怎么写吗,robots屏蔽做了,从日志上看还是在抓取这样页面,感觉没有什么用。现在只想把这些重复的页面不同后缀网址直接指向404错误页面,感觉就是你说的自己写个规则可以实现,,但是我  详情 回复 发表于 2021-4-23 15:50
回复

使用道具 举报

发表于 2021-4-17 10:28:14 | 显示全部楼层
1、首先可以反馈给百度进行更新;
2、robots.txt屏蔽;
3、更新快照
回复

使用道具 举报

 楼主| 发表于 2021-4-23 15:50:09 | 显示全部楼层
大量 发表于 2021-4-16 22:54
最简单的方法就是自己写个规则就行,比如A? 后面的一律301到首页或者相对应的内页,这样就行了 ...

感谢回复,可以指导下规则该怎么写吗,robots屏蔽做了,从日志上看还是在抓取这样页面,感觉没有什么用。现在只想把这些重复的页面不同后缀网址直接指向404错误页面,感觉就是你说的自己写个规则可以实现,,但是我自己不会。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2021-10-27 20:31 , Processed in 0.294180 second(s), 15 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部