Free ebooks - Project Gutenberg
爬取Gutenberg网站的方法:
- 找一个镜像下载(主站不允许爬虫访问)
- 把媒体文件去掉,否则会很大(应该是以T为单位)
- 仅收集htm格式部分,这部分的排版质量比较好
- 分批下载,否则会太大和太慢。下面的命令只下载其中10%的目录:
wget -q -r -l inf --no-remove-listing -nc --reject *.zip --reject *.txt --reject *.m4b --reject *.ogg --reject *.mp3 --reject *.spx --reject *.m4a —-reject *.mpg —-reject *.mpeg --reject *.pdf --reject *.png --reject *.jpg --reject *images --reject .listing --reject *.epub --reject *.rar --reject *.gif --reject pgdvd.* --reject *.iso --reject *.ISO --reject *.wav ftp://aleph.gutenberg.org/5/
评论