很早之前写过,也有人在评论里提到过,很多网站章节用js显示,杰奇后台根本采集不到,我之前的尝试就失败过。今天下午看了看www.qu.la这个网站,发现章节并不是我想象的那种显示,而是直接代码,所以就试试写了后台采集规则,没想到成功了,只是windows下采集真的很慢,我的电脑采集到一半nginx竟然还崩溃了,不过这也是个成功吧。所以我觉得如果是用windows系统,直接用关关采集器好多了,linux下用后台采集还行。 或许看我这个,应该可以学会自己配置后台采集吧。
本文章仅供学习研究,请勿用于侵权 以下为我的填法,最底下我会附配置好的文件,除了我设置的之外,其它的可以不填:
小说信息页面采集规则
小说信息页面地址:http://www.qu.la/book/<{articleid}>/
小说标题采集规则:<meta property=“og:novel:book_name” content=“!!!!”/>
作者采集规则:<meta property=“og:novel:author” content=“!!!!”/>
小说类型采集规则:<meta property=“og:novel:category” content=“!!!!”/>
小说类型对应关系:根据自己网站的填写
关键字采集规则:<meta name=“keywords” content=“****”/>
内容简介采集规则:<meta property=“og:description” content=“****”/>
封面图片采集规则:<meta property=“og:image” content=“!!!!”/>
目录页面链接采集规则 :<meta property=“og:novel:latest_chapter_url” content=“http://www.qu.la/book/$$$$/$.html”/>
全文标记采集规则:<meta property=“og:novel:status” content=“!!!!”/>
小说目录页面采集规则
小说目录页面地址:http://www.qu.la/book/<{articleid}>/
分卷名称采集规则:》!!!!</dt>
章节名称采集规则:>!!!!</a></dd>
章节序号采集规则:/$$$$.html”>
章节内容页面采集规则
章节内容页面地址:http://www.qu.la/book/<{articleid}>/<{chapterid}>.html
章节内容采集规则:<div id=“content”>****</div>
章节内容过滤规则:看情况吧,目标网站有哪些广告文字就填哪些进来
是否采集图片内容到本地:是 提示:目前遇到的问题就是,虽然可以成功获取到小说的封面,但是似乎无法本地化,当然不排除是我试验时候,是用的一库多站分站的原因,或者看了这篇文章的人也可以试试,希望可以留下反馈,当然如果出现问题或者有问题也留下评论,我都会解答。
本网站名称:创码者资源网
本站永久网址: http://www.cmzym.top/
本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
本站为非盈利网站,一切付费内容(包括但不限于会员充值,资源付费),均为用户自愿赞助,且所有资金均用于网站维护
本站资源均收录于互联网,所以不能保证每个细节都符合你的要求,也可能存在未知的BUG与瑕疵,因虚拟资源可复制特性,所以不接受任何理由的退款兑现,请阅 读本站声明和相关条款后再进行支付下载
本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 :1326632303@qq.com 进行删除处理。
本本站采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议进行许可
暂无评论内容