最近要训练某个漫画图片/动漫视频填字的模型,需要大量的漫画素材,于是直接就想到E绅士网站肯定有最全面的资料XD~

刚好朋友有比较资深的账户,遂借了账号就直接前往目标图集批量下载,结果发现E站每日访问量有限制,而且有Credits、Hath、GP虚拟货币的概念,比较复杂,在踩了各种坑之后就有了此文,希望以后有需要的朋友不用再踩坑了。

下载图集是需要GP的,如果GP不够就直接拿Credits来使用(Credits通过每日登陆获取),直接用非常不划算(看完下边你就理解了),记住下载之前一定要来交换所换好GP。

如何流畅地从e-hentai.org大量爬取你的目标训练集

如上图所示,买家卖家都可以开价,价格相匹配的话就可以立刻交易,不匹配的话会公示到列表中,等到有别人开价和你匹配的时候立刻执行交易。

一般都是从Credits换GPs,直接在Buy GP那里填写你需要购买的GP数量,以及单价即可。

比如我现在还有483Credits,当前开价最低的Seller报价是292个Credits能换1kGP,有119395k的GP可以交换,我只希望换1kGP,那么直接在左边两个框框分别填上1和292,然后按下Buy GP!就行。

如何流畅地从e-hentai.org大量爬取你的目标训练集

然后到下载这一步,点这个↑

如何流畅地从e-hentai.org大量爬取你的目标训练集

这里就会弹出这样一个窗口,可以看到有两个选项,一个是下原图,一个是下resample后的图,后者压缩过,画质经测试平均下降30%,这个看训练需要哈,我们对精读要求比较高,所以直接下原图了。

以及最关键的来了,下边有一个H@H Downloader,可以看到通过这个下载器来下载,花费的GP会远小于直接下载。那么这个下载器该如何使用呢?这个时候就要进入正题了:

本来每日登陆送的Credits就少,下载图集还那么费GP,这要爬到猴年马月?有没有什么方法能短时间获取大量的Credits和GP?这个时候我们就要了解他的整个H@H系统了。

如何流畅地从e-hentai.org大量爬取你的目标训练集如何流畅地从e-hentai.org大量爬取你的目标训练集

通过部署Hentai@Home Clients,可以充当为他们的cdn节点,帮助他们加速网站服务更多的用户。

如何流畅地从e-hentai.org大量爬取你的目标训练集

这个时候就需要祭出我们手头上的外网vps了,aws和oracle都有小鸡可以薅羊毛,免费用半年一年的,都可以来部署他的程序。

如何流畅地从e-hentai.org大量爬取你的目标训练集

他默认每个人只会部署一台机,一台机每天大概会产出2-4个Hath点数,如果你想多加几台机子,多获得一些Hath增殖速度,需要给他们管理员发消息(PM),以及请记得附上speedtest的测速链接:

如何流畅地从e-hentai.org大量爬取你的目标训练集

然后就这样挂个一周,基本就会有20多个Hath了,这些点数可以先通过交易所换成Credits,然后再把Credits换成GP:

如何流畅地从e-hentai.org大量爬取你的目标训练集

一般来说1Hath = 2740Credits = 8.458kGP

这个时候我们再回到Hentai@Home Clients的配置页面,会发现这么一个选项:

如何流畅地从e-hentai.org大量爬取你的目标训练集

把它勾选上,这不就和之前的H@H Downloader串起来了~这个时候我们再回到下载页面,点击H@H Downloader下边那些下载,图片就会自动通过client下载到当前VPS里:

如何流畅地从e-hentai.org大量爬取你的目标训练集如何流畅地从e-hentai.org大量爬取你的目标训练集

然后再通过ssh把资源从vps拉到本地就行了~

注意:有一些油猴插件,用于将Image Limits转化为下载resample图片,这个路径可以用,但是不推荐,因为会很不稳定,有些图重试多次下不下来脚本就会摆烂放弃下载,会损失精度。

比如这个:https://github.com/ccloli/E-Hentai-Downloader


人生有無數種可能,人生有無限的精彩,人生沒有盡頭。一個人只要足夠的愛自己,尊重自己內心的聲音,就算是真正的活著。