HTTrack,一个相当容易(yì)使用(yòng)的脱机阅览软件,能将网站传送(sòng)到计算(suàn)机目录里,并且(qiě)会将所有相(xiàng)关链结重新组织(zhī),以方便更(gèng)顺利的脱机浏览(lǎn)。
HTTrack是一(yī)个免费并易于使用的线下浏览器工具,它能够让你从(cóng)互联(lián)网上下载整(zhěng)个(gè)网站进行线下浏览(lǎn)。浏览(lǎn)线(xiàn)下站点和线上并没有什么不(bú)同。HTTrack同样可以进行线下(xià)线上站点同(tóng)步,支(zhī)持断点续传。HTTrack是(shì)一个可全面配置(zhì)并包括全面的帮助系统(tǒng)的工具。
HTTrack是一(yī)个网站镜像工具,本(běn)来是(shì)用来抓取网站做(zuò)离线浏(liú)览用的。但是我发现它的爬虫特性和搜索引(yǐn)擎(qíng)爬虫非(fēi)常的像(xiàng),逐渐应用到了自己的SEO工作中。其实这(zhè)两种看似不同的爬虫(chóng)做(zuò)的(de)都是同(tóng)样的工作,就是复制网站并存储下来(搜索引擎(qíng)的网页快(kuài)照就是被存(cún)储下来的内容)。
网站镜像,通(tōng)过复制整个(gè)网站或部分网页内容并分配(pèi)以不同域名和服(fú)务器,以此(cǐ)欺骗(piàn)搜索引擎对同一(yī)站点或同(tóng)一页面进行多次索引的行为。这既是为什么有(yǒu)的网站注明禁止未授权(quán)不得做网(wǎng)站镜像的原因(yīn)了,两个(gè)网站的内容完(wán)全一样,相似度过高(gāo)必然会(huì)导致自己的网站受到影响。
