响应式广告位

PTCMS小说采集规则教程(原创)

PTCMS小说采集规则教程(原创)-创码者资源网
PTCMS小说采集规则教程(原创)
此内容为付费阅读,请付费后查看
R币88
立即赞助
您当前未登录!建议登陆后购买,可保存购买订单
本站资源均为网络收集整理而来,仅供学习和研究使用。赞助不支持退款,谢谢合作
客服QQ:1326632303
付费阅读
已售 630
准备

运行环境:CentOS7+Nginx 1.19+PHP7.3+MySQL AliSQL

程序源码:PTCMS_V4.3.0(Build 20200910)

注:本教程只讲解采集规则,程序源码以及如何安装请“百度一下”。

 

官方帮助文档https://www.ptcms.com/doc/index.html

常用正则表达:

‘[内容]’ => ‘(.*?)’,就是我们需要获取的东西

‘[数字]’ => ‘\d*’,这是纯数字

‘[空白]’ => ‘\s*’,这是用在换行的地方,包括换行、空格、\r \n

‘[任意]’ => ‘.*?’,这就是任意字符

‘[参数]’ => ‘[^\>\<]*?’,这是html代码中的参数 如alt=”标题” 这样的

‘[属性]’ => ‘[^\>\<\'”]*?’,这是html代码中参数的属性 对于上述例子中的alt=”标题” ,可以代替标题

注:如果想要获取内容就需要在正则表达示外加括号(英文状态下的),比如(.*?) 、(\d*),括号同时只能存在一个

[subnovelid] == 分类ID

[novelid] == 小说ID

[chapterid] == 章节ID

[页码] //[page] 表示多页页码
[内容] //等同于 .+? 匹配之间的任何字符
[数字] // 等同于 \d+ 匹配0-9数字组合
常用正则,以下的自己百度下
.+? //最小匹配 . 除了换行符之外的任意字符,+ 重复一次或一次以上
//? 懒惰模式
\d+ // \d 表示匹配的是数字,+ 表示重复一次或者多次
//* 表示重复零次或者多次
\w+ //[\w]+和\w+没有区别,都是匹配数字和字母下划线的多个字符;
//[\w+]表示匹配数字、字母、下划线和加号本身字符;
\s //\s是指空白,包括空格、换行、tab缩进等所有的空白,而\S刚好相反
\r\n //\n是换行。\r是回车。
[ ]
表示数组而非排列,即不按固定次序位置排列;
在[]内的字符可以任意次序出现。
[ABC]+
可以匹配”AAABBBCCC,BBBAAACCC,BACCBACAACBAC,…”,不是一定按固定A…B…C…的次序排列。
[\w./-+]+
是匹配\w [0-9a-zA-Z_] 或 . 或 / 或 – 或 + 字符;
在[./-+]内均表示字符本身;
在[]+外表示{1,}至少1次或多次;
在[.]内点,不是任意字符的意思,就是匹配点.字符本身,点.可以不需要加反斜杠.。
在[]内特殊字符,表示匹配特殊字符本身,不需要加反斜杠,
在[]外特殊字符,表示匹配特殊字符本身,必须要加反斜杠。
( )用于捕获匹配的字符串,比如:a(.?)b捕获a和b之间的任何字符(除了换行符外)
而且()还用于括起正则表达式中的小组,比如:^(a|b).$匹配以a或b开头的任何字符串
另外,(?:pattern)是一个非捕获匹配,就是匹配但不捕获字符串
(?<=pattern)逆序肯定环视,表示所在位置左侧能够匹配pattern
(?<!pattern)逆序否定环视,表示所在位置左侧不能匹配pattern
(?=pattern)顺序肯定环视,表示所在位置右侧能够匹配pattern
(?!pattern)顺序否定环视,表示所在位置右侧不能匹配pattern
这些都和()是不同的概念,不要混淆
[]用于定义匹配的字符集或字符范围,比如:[a-z]匹配一个英文小写字母范围从a到z
{}用于定义匹配的次数,比如:a{1,}匹配a至少一次
————————————————

以https://www.txtbook.org/shuku/0_all_0_0_0_0_2_0_1.html为例讲解

一、添加站点

PTCMS小说采集规则教程(原创)PTCMS小说采集规则教程(原创)

 

二、采集规则详细步骤

1、添加规则(规则管理–>添加);

2、规则名称根据实际情况填写;

3、所属站点选择上面添加的;其它默认就可以。

PTCMS小说采集规则教程(原创)

5、更新列表规则

通过分析得出如下规则

 

PTCMS小说采集规则教程(原创)

 

6、小说名称

PTCMS小说采集规则教程(原创)

根据“唯一”原则找到

分析这段代码获取我需要的数据,写规则;

方法一:

方法二:

这两种方法的区别在于方法需要替换掉《》,我用了方法二。

PTCMS小说采集规则教程(原创)

 

7、小说书号

分析代码

规则

\d* 表示纯数字,(\d*)表达我们要获取这里数字。

 

8、信息页地址

PTCMS小说采集规则教程(原创)

根据URL分析,是https://www.txtbook.org/book/+书号。

在官方教程文档中有相应的参数,

[subnovelid] == 分类ID

[novelid] == 小说ID

[chapterid] == 章节ID

PTCMS小说采集规则教程(原创)

 

8、小说名称、小说作者、小说封面、小说分类、小说简介、小说进度

这些规则都很好找不再多写,直接看下面图片。主要说一下小说进度,也是这次为什么用这个网站作为案例讲解的原因。

在源代码查到不到连载,通过小说图片左上角的“连载中”小图标找到代码

再找一本完结的小说对比一下

然后我们获取1、2再进行规则替换

PTCMS小说采集规则教程(原创)PTCMS小说采集规则教程(原创)

 

9、通过上面学习之后,章节以及内容就很容易写了。

PTCMS小说采集规则教程(原创)PTCMS小说采集规则教程(原创)

© 版权声明
THE END
喜欢就支持一下吧
点赞15赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容

付费阅读
R币88
本站资源均为网络收集整理而来,仅供学习和研究使用。赞助不支持退款,谢谢合作
客服QQ:1326632303
立即赞助
您当前未登录!建议登陆后购买,可保存购买订单
已售 630