Free ebooks - Project Gutenberg

By admin, 11 九月, 2017

Free ebooks - Project Gutenberg

爬取Gutenberg网站的方法:

  1. 找一个镜像下载(主站不允许爬虫访问)
  2. 把媒体文件去掉,否则会很大(应该是以T为单位)
  3. 仅收集htm格式部分,这部分的排版质量比较好
  4. 分批下载,否则会太大和太慢。下面的命令只下载其中10%的目录:

wget -q -r -l inf --no-remove-listing -nc --reject *.zip --reject *.txt --reject *.m4b --reject *.ogg --reject *.mp3 --reject *.spx --reject *.m4a —-reject *.mpg —-reject *.mpeg --reject *.pdf --reject *.png --reject *.jpg --reject *images --reject .listing --reject *.epub --reject *.rar --reject *.gif --reject pgdvd.* --reject *.iso --reject *.ISO --reject *.wav ftp://aleph.gutenberg.org/5/

评论

Restricted HTML

  • 允许的HTML标签:<a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id> <img src>
  • 自动断行和分段。
  • 网页和电子邮件地址自动转换为链接。
验证码
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
请输入"Drupal10"