对一个做了2年没收录页面的网站做分析

SEO 文章 2021-06-10 10:54 37 0 全屏看文

这几天我的某个网站收录量破百万了。


/uploads/files_user1/question/60c17131c0fd7648832.png


破百万而已,18年那会,这个网站破400W,我都没开心。因为蜘蛛每天来蹲点,疯狂的抓,搞得同服务器的其他网站都打不开。所以关站了大半年。现在只是又回到了百万而已。


我在群里说了网站过百万的事,这时候有个小兄弟联系我说他网站做了2年了,百度基本上都没收录他的网站,希望我看看。


所以我就先习惯的去看下收录多少。在百度里输入:

site:www.他的网址.com

结果只有一个网页


/uploads/files_user1/question/60c171f524dac137546.png



我习惯性的理解:

这个网站是不是被K了。所谓的被K,就是做了违反百度规则的事或者是做了大型的改动。比如变换网站整体的框架、修改网站标题、大量重写URL,网站大面积出现不可访问状态。


所以问了他这些:


/uploads/files_user1/question/60c1734b81ef5550748.png


在得到没有任何大改动的情况下,我就打算查看源码。这是蜘蛛的角度:

我们要先明确一些事:

  1. 如果没给蜘蛛提供抓取渠道,那它会从首页进入。所以很多时候你就看到它只收录了一个首页

  2. 蜘蛛目前还没法很好的去解析通过脚本动态生成的链接。毕竟写过脚本的人知道,一个超链接我可以用N种方法生成,而链接里的href的内容,我可以用各种变量拼凑。 所以很难实别。


所以我在console里查看页面有多少超链接。纯正的,有href的那种。

document.querySelectorAll("a").forEach(function(a){console.log(a.href)})


如果在sanshu.cn里查看会出现各种文章链接。


/uploads/files_user1/question/60c17d3dd9f22637205.png



而在这个小兄弟的网站里出现的是:


/uploads/files_user1/question/60c17d6b33863414397.png


都是一些和文章枚关系的,比如分类、热门啥的。 这也没啥,大不了蜘蛛抓进去之后再去抓文章好了。

我点击其中一个进去后。


/uploads/files_user1/question/60c17dbdeab46433110.png


确实很多文章,我以就按照之前的方法查看链接


/uploads/files_user1/question/60c17dedde300362485.png


以就是这类和文章没有任何关系的链接。

所以等于说,蜘蛛根本抓不到任何文章!!!!!

不过蜘蛛的来源有三类:

  1. 首页抓进来,再通过文章超链接收录

  2. 百度push

  3. sitemap


百度push目前是百度最推荐的。网站融合方法参考:

http://www.sanshu.cn/a/14366.html.html


在我和小兄弟确认上面三种来源后,确定他只提供了第一种,而第一种如我们之前的分析,蜘蛛根本就找不到任何有用的文章页!。所以就导致只收录了首页。


最后感谢小兄弟送上的红包。多谢!


-EOF-