PHPCMS 使用心得与技巧,以及小BUG的纠正

2019-02-15 15:37:46王振洲



文件:/search/index.php
$page = max(intval($page), 1);
$page = $page>100 ? 100 : $page; (增加了这行代码)
文件:/search/include/search.class.php
$this->total = cache_count("SELECT COUNT(*) AS `count` FROM `$this->table` WHERE $where");
$this->total = $this->total>1000 ? 1000 : $this->total; (增加了这行代码)


采集模块

该如何去设置采集规则就不多说了,官方有详细介绍:http://www.phpcms.cn/2009/0522/220.html

需要采集的话使用GBK版本的PHPCMS

试过用UTF-8版本的去采集,结果不论怎么调,采回来的中文都是乱码,好郁闷。没有深入研究,转投GBK。

修改采集图片和压缩文件时的保存路径

文件:/spider/include/get_remotefiles.func.php
函数:do_saveremotefiles
修改函数中以下两个变量;以下是我修改后的结果,保存路径为“uploadfile/年/月/日/”:


$filepath = PHPCMS_PATH . $uploaddir . '/' . date('Y/m/d') . '/';
$uploaddir = PHPCMS_ROOT . '/' . $uploaddir . '/' . date('Y/m/d') . '/';

采集内容时无法远程保存图片

src 前的空格导致了图片在采集内容时采集不了,只有在发布时才能采集得到。
文件:/spider/include/get_remotefiles.func.php
函数:get_remotefileurls
以下分别是修改前和修改后的代码,注意src前的空格,只要把空格去掉就OK了。


if (!preg_match_all("/<(?:a|img).+?(href| src)=(["|']?)([^ "'>]+.($ext))2/i", $string, $matches))
if (!preg_match_all("/<(?:a|img).+?(href|src)=(["|']?)([^ "'>]+.($ext))2/i", $string, $matches))

远程保存非内容中的图片和文件

采集模块默认只会保存“内容”标签中的图片和文件,而其它标签中不论出现多少次img或a都不会被采集。如果你需要把图片和文件分别保存到其它字段,这个修改貌似挺有用的。
文件:/spider/admin/mainspider.inc.php
行数:372行
以下是修改结果:


$v = get_remotefiles($v, 'gif|jpg|jpeg|bmp|png|rar|zip', $dourl, $basehref, true);

抓取不到页面时采集状态改为未采集

如果被采集网站不稳定,有时会出现抓取不到采集页面的情况,而此时采集状态还是会被标记为已采集。所以只要小小修改一下,我们会方便很多。
文件:/spider/admin/mainspider.inc.php
行数:664行
以下是修改结果,添加了“&& (trim($body)!=''”这一句:


if (($body!=$LANG['title_or_content_null']) && (trim($body)!=''))