博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
简单的网页下载方法
阅读量:2493 次
发布时间:2019-05-11

本文共 1315 字,大约阅读时间需要 4 分钟。

 

可以使用下面的命令 wget -r -p -k -np ,

-r 表示递归下载,会下载所有的链接。
不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接。
wget也会把别的网站的东西下载下来,由于互联网的特性,很有可能你会把整个互联网下载下来,
所以要加上 -np这个参数,表示不下载别的站点的链接.
-k表示将下载的网页里的链接修改为本地链接.
-p获得所以显示网页所需的元素,比如图片什么的.

 

另外还有其他的一些参数可以使用:

 

-c表示断点续传

-t 100表示重试100次,-t 0表示无穷次重试

另外可以将要下载的url写到一个文件中,每个url一行,使用这样的命令 wget -i download.txt.

 

--reject=avi,rmvb 表示不下载avi,rmvb的文件,--accept=jpg,jpeg,表示只下载jpg,jpeg的文件.

可以在用户目录下建立一个.wgetrc的文件(windows里面好像不能直接建立这样的文件,windows会认为没有文件名--),里面写上 http-proxy = 123.456.78.9:80,然后在加上参数 --proxy=on,如果需要密码,再加上下面的参数 --proxy-user=username, --proxy-passwd=password

现在不少网站变聪明了,比如说 再也不能用很多人常用的:

 

wget -r -p -np -k -l inf

下载整个网站了。

其中有一个很重要的原因是因为Wget设置的User-Agent,比如我的wget 1.10.2

HTTP_USER_AGENT=Wget/1.10.2

 

其中wget版本不同,"/"后的数字也对应改变。

不少网站都是根据这个过滤掉wget的请求的。

知道了这个对付就简单了,加个 -U USER-AGENT就行了,比如我的K-Meleon的默认User-Agent:

 

Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.7.13) Gecko/20050610 K-Meleon/0.9

或者XP下的IE6:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

还是Opera什么的:

Opera/7.54 (Windows NT 5.1; U) [en]

 

这样就可以下载了:

wget -r -p -np -k -l inf /  -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" / 

当然也可以调整一下参数:

wget -N -r -l inf --no-remove-listing -k -p -np /  -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" / 

或者简写成

wget -m -k -p -np -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" / 

 

转载地址:http://scmrb.baihongyu.com/

你可能感兴趣的文章
vs文件上传失败--超过最大字符限制
查看>>
《过早退出是一切失败的根源》读后感
查看>>
luogu P1774 最接近神的人_NOI导刊2010提高(02)
查看>>
Dynamic Proxy
查看>>
Yii2的一些问题
查看>>
LeetCode OJ - Populating Next Right Pointers in Each Node II
查看>>
C++ wifstream读取日文方法(中文适用)
查看>>
B-树
查看>>
php计算上个月是几月份
查看>>
浅谈 trie树 及其实现
查看>>
60款很酷的 jQuery 幻灯片演示和下载
查看>>
JavaScript数组内置排序函数
查看>>
hdu 3549 Flow Problem(最大流模板题)
查看>>
nyoj-20-吝啬的国度(深搜)
查看>>
Vue.js(2.x)之Class 与 Style 绑定
查看>>
属性“dataProvider”有多个初始值设定项。(注意:“dataProvider”是“mx.charts.BarChart”的默认属性)。...
查看>>
C3P0在多线程下的maxPoolSize配置
查看>>
宽客的人&&事件映射
查看>>
linux(fedora) 下dvwa 建筑环境
查看>>
Oracle 跨库 查询 复制表数据 分布式查询
查看>>