欢迎您访问我爱IT技术网,今天小编为你分享的电脑教程是建站经验系列之:【优化DEDECMS采集程序 支持部分采集只需要两步】,下面是详细的分享!
优化DEDECMS采集程序 支持部分采集只需要两步
DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。
DEDE采集程序原理
DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处——不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php
要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:
(1)第118行 $this->m_html='';背后加入$this->dataLimit=0;

(2)第 285行$this->m_html .=fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。

使用方法:
$remoteURL=‘http://www.***.com/info/fabu/’;
$dh=new DedeHttpDown();
$dh->OpenUrl($remoteURL);
$dh->dataLimit=1024;
$remoteHTML=$dh->GetHtml();

我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit=1024;(你想采集的字节大小)即可。 通过这样的方法,我们可以更节约服务器资源。
以上所分享的是关于优化DEDECMS采集程序 支持部分采集只需要两步,下面是编辑为你推荐的有价值的用户互动:
相关问题:关于dedecms采集的问题!
答:您好,跟版网很高兴为您解 采集里面在当前的采集规则下有一个:监控采集模式(检测当前或所有节点是否有新内容) ,选这个然后开始采集,有新内容就能够采集到,然后导出即可。导出时候记得勾选:排除重复标题 >>详细
相关问题:dedecms采集规则问题
答:不知道你是采集哪个网站,具体的采集规则不一样,不过你自己配置一下也很快的,八爪鱼采集器是通用的网页采集器,所以采集美~女图片也行的。要是自己嫌麻烦直接到群里,大把热心高手天天在群里免费给人做采集规则呢。 >>详细
相关问题:成功对于每个人其实都只需要两步。一步开始,一步...
答:失败乃是成功之母,胜利是因为一直坚持,傻B一样的坚持才有牛B一样的结果。 >>详细
- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
