首页 > 范文大全

帝国CMS采集教程(下)：采集过滤与替换技巧

时间：2023年09月24日

来源：林舒晴林芥

编辑：本站小编

收藏本文

下载本文

下面小编给大家整理帝国CMS采集教程(下)：采集过滤与替换技巧，本文共6篇，希望大家喜欢！本文原稿由网友“林舒晴林芥”提供。

篇1：帝国CMS采集教程(下)：采集过滤与替换技巧

前两讲我们分别介绍了帝国cms采集基本流程和帝国cms如何采集内容分页，最后这一讲主要介绍帝国cms采集过滤与替换，还有些技巧，

一、过滤

1、帝国cms采集过滤分为两种：

(1)“整体页面过滤正则”：

(2)“过滤广告正则”：

我们有些疑惑，这两种过滤到底有什么区别?“整体页面过滤正则”是过滤整个网页的html代码，

“过滤广告正则”是过滤文章内容，仅对文章内容([!--newstext--])起作用。

2、过滤实例：

过滤实例(1)：

我们采集后发现信息内容底部多了行代码：“

& bnsp;

篇2：CMS教程：第一财经财经动向采集规则

{dede:comments}

{!-- 采集列表获取规则 --}

{/dede:comments}

{dede:list source='single' sourcetype='list'

varstart='' varend=''}

{dede:url value='www.china-cbn.com/news/NewsList.aspx?NewsListType=1&NewsChannelId=000002'}

{/dede:url}

{dede:need}s/n/000002/{/dede:need}

{dede:cannot}{/dede:cannot}

{/dede:list}

{dede:comments}

{!-- 网页内容获取规则 --}

{/dede:comments}

{dede:art sptype='full'}

{dede:sppage}{/dede:sppage}

{dede:note field='title' value='[var:内容]'

isunit='' isdown=''}

{dede:match}< font class=“NewsTitle”>[var:内容]< /font>{/dede:match}

{/dede:note}

{dede:note field='pubdate' value='[var:内容]'

isunit='' isdown=''}

{dede:match}日期：[var:内容] http{/dede:match}

{/dede:note}

{dede:note field='body' value='[var:内容]' isunit='1' isdown=''}

{dede:match}< td style=“font-size:14px;padding:5”>[var:内容]< /td>{/dede:match}

{dede:trim}第一财经{/dede:trim}

{/dede:note}

{/dede:art}

篇3：站长感悟之CMS与采集

一个网站的生命力在于她的内容，记得在刚刚上网的时候，如果一个网站可以坚持不懈的更新、更新、再更新，那么他一定会被用户认可，那个...

一个网站的生命力在于她的内容。记得在刚刚上网的时候，如果一个网站可以坚持不懈的更新、更新、再更新，那么他一定会被用户认可，那个时候，我们习惯把一个不错的网站的地址抄在小本子上，然后时不时的向自己的朋友推荐一下，朋友也会非常重视的将网址认真的记下，回家细细的品味。

也许是这种慢节奏根本就没有办法适应网络的发展。有一天，网络中出现了许多网址导航站点，这时的网虫们突然发现，原来网络中除了朋友推荐的网站之外，还有更多的精彩的网站在这里都可以找到，更叫人兴奋的是，除了各种各样的分类，一些常用的网站也可以轻点鼠标即可到达。从此，网站的域名变的不像从前那么重要了。仿佛又是一夜之间，css+div又成为了网络中的新起之秀，对于保守固执的站长来说，甚至感觉来的太突然，突然到有些不知所措。细细了解之后，才发现，原来css+div根本就是为了迎合搜索引擎而生，同样的页面，css+div更适合于搜索引擎的检索，当然，其网站内容也会更容易的被搜索引擎收录。就这样，站长们又不得不开始一场全新的学习旅程。

至此，我才明白，现在的网络，已经是搜索引擎为王的时代了。搜索引擎改变了很多网络用户的上网习惯，除了每天固定的几个网站之外，任何的问题，第一时间就会想到google或是百度，而一般情况下，不管是合理的还是不合理的答案，一般搜索引擎都可以在第一页内呈现给用户。当然，众多的中小网站的站长此时考虑的，是如何通过搜索引擎这个强大的推送平台，把自己的网站送到用户面前，获取那个珍贵的一次点击。搜索引擎的广告位对于中小网站的站长来说，绝对是可望不可及的，而且在每个站长的心中，只有免费推广的首页，才具有黄金般的价值。

鉴于众多中小站长的热切期盼，CMS诞生了。CMS中文叫做网站内容管理系统，对于技术力量尚缺的长站来说，CMS无疑成为了站长们的得力助手。从此，建立一个门户级的网站，不需要花时间来应付枯燥的程序代码，不需要频繁的数据调试，只需要换换图片，改改文字，一个漂亮的网站就会展现在你的面前，

而此时要做的，就是给网站起个名字，还有如何把用户需要的内容展示给网站的用户。现在是CMS横行的时代，各式各样的版本，各种各样的针对人群，收费的，免费的，出名的，还未出名的，林林总总的功能与特色，让无数的站长为之倾心。各种的CMS侧重点有所不同，有专长文章的，有专长下载的，有专长展示的，也有专长综合功能的，总之，无论有什么需求，都可以找到合适的CMS来解决。最重要的一点，很多的CMS都是针对搜索引擎进行过优化的，所以对于站长来说，又增添了一份魅力。无论进行到什么样的时候，网站，终究是做出来叫人看的，所以网站的内容，一直是网站的根本，哪怕是到了搜索引擎的时代，搜索引擎也会不段的调整自己来学着如何适应人们的搜索习惯，当然，这是一个漫长的过程。

正是因为搜索引擎还在不断的学习过程之中，也正是这种从机械到准智能的转变过程，出现了一种独特的网站现象：垃圾网站。垃圾网站其实就是象垃圾一样被人们认识没有任何存在价价值的网站，当然，是除了其站长之外。垃圾网站的目的就是通过作弊的手段或是非正常的方式，来迎合搜索引擎，叫“准智能”的搜索引擎误认为，这个网站是一个“内容丰富”的网站，之后在用户的查询中，将其推送给用户。而垃圾网站对于用户来说，可以说是一个不择不扣的“美丽错误”，虽然自己搜索的关键字是列在网站其中，但是该网站却对用户没有一点点的用处，因为垃圾网站根本就不是为用户浏览准备的。垃圾网站的“美丽错误”很容易被用户认识搜索引擎的技术不行，所以对于搜索引擎来说，如果网站被定义为垃圾网站，则表示从该搜索引擎的搜索结果中不有出现网站中的内容，留在搜索结果中的，只有一页首页而已，至此，垃圾网站的使命也意味着到此结束。垃圾网站的产生，往往伴随着另外一个关键词：“采集”。采集是指一些网站(或是CMS)的内容发布，通过一些信息采集程序或是插件，来替代原本应该通过人工的方式编写发布内容的方式。通过内容采集所建立的站点，一般来说，可以在很短时间内建立一个拥有庞大内容数据的网站。

内容的采集过程主要是通过用程序批量的分析特定网页的特定部分，对相关部分进行提取，再进行发布。因为采集程序是按照设定好的规则进行采集，所以每一个网站网页的采集都需要单独的采集规则，而采集规则对于相比CMS的操作来说，还是有一定技巧性，所以要掌握采集程序也并非手到擒来的事情。不管是CMS也好，内容采集也罢，目的都是把一些繁琐的技术工作交给程序来做。但是对于一个网站来说，毕竟还是需要有一个好的创意与一位坚持不懈的站长。CMS作为一个支持平台，采集作为一个辅助手段，一个创意，一份坚持，相信未来的互联网中，将会留有你的一席之地。

篇4：帝国CMS7.0新增采集规则导入与导出

今日帝国官方继续发布了帝国CMS7.0新版的部分功能介绍：新增采集规则导出与导入功能，支持所有系统模型，下面就来看看吧！

帝国CMS7.0新增采集规则导入与导出功能(导出为*.cj文件)，方便转移采集规则与方便用户分享规则，且支持所有系统模型，采集导入与导出可自动识别不同系统模型的字段进行导入与导出操作。

自帝国CMS7.0新版功能预告发布至今，我们已经了解到：

帝国CMS7.0采用了更强劲的架构，性能提升30%；

支持无限附件分表，管理与选择附件速度更快；

支持无限评论主表分表，容量更大，效率更高；

专题大更新，功能更强大，制作专题更方便；

新增采集规则导出与导入功能，支持所有系统模型；

篇5：帝国CMS内容页调用上与下方法

这篇文章主要为大家介绍了帝国CMS内容页调用上一篇与下一篇方法,除了帝国自带的上一页与下一页标签之外,本文实例分析了采用动态调用及灵动标签SQL调用等方法来实现上一页与下一页的功能,是非常实用的技巧,需要的朋友可以参考下

代码如下:

动态调用上一篇链接代码如下:

动态调用下一篇链接

二、灵动标签和SQl语句调用

上一篇链接:

代码如下:

[e:loop={“select id,classid,newspath,filename,groupid,titleurl from [!db.pre!]ecms_”.$class_r[$navinfor[classid]][‘tbname‘].“ where id<”.$navinfor[id].“ and classid=”.$navinfor[classid].“ and checked=1 order by id desc limit 1”,1,24,0}]

$titleurl=sys_ReturnBqTitleLink($bqr);

echo $titleurl;

[/e:loop]

下一篇链接:(把小于号改成大于号)

代码如下:

[e:loop={“select id,classid,newspath,filename,groupid,titleurl from [!db.pre!]ecms_”.$class_r[$navinfor[classid]][‘tbname‘].“ where id>”.$navinfor[id].“ and classid=”.$navinfor[classid].“ and checked=1 order by id desc limit 1”,1,24,0}]

$titleurl=sys_ReturnBqTitleLink($bqr);

echo $titleurl;

[/e:loop]

三、运用灵动标签调用,比较简洁的方式(感谢落木萧萧)

代码如下:

[e:loop={‘selfinfo‘,1,0,0,‘id<‘.$navinfor[id].‘‘,‘id desc‘}]

echo $bqsr[titleurl];

$pre=‘true‘;

?>“>上一篇:

[/e:loop]

if(emptyempty($pre)){

echo ”上一篇:很抱歉没有了“;

}

[e:loop={‘selfinfo‘,1,0,0,‘id>‘.$navinfor[id].‘‘,‘id asc‘}]

echo $bqsr[titleurl];

$next=‘true‘;

?>”>下一篇:

[/e:loop]

if(emptyempty($next)){

echo “下一篇:很抱歉没有了”;

}

四、控制上一篇下一篇标题字数(截取30个字符为例)

运用:

代码如下:

[e:loop={‘selfinfo‘,1,0,0,‘id<‘.$navinfor[id].‘‘,‘id desc‘}]

echo $bqsr[titleurl];

$pre=‘true‘;

?>“>上一篇:

[/e:loop]

if(emptyempty($pre)){

echo ”上一篇:很抱歉没有了“;

}

[e:loop={‘selfinfo‘,1,0,0,‘id>‘.$navinfor[id].‘‘,‘id asc‘}]

echo $bqsr[titleurl];

$next=‘true‘;

?>”>下一篇:

[/e:loop]

if(emptyempty($next)){

echo “下一篇:很抱歉没有了”;

}

希望本文所述对大家的帝国CMS建站有所帮助，

篇6：交通信息采集与融合技术在寒冷地区冬季交通环境下的研究与应用

交通信息采集与融合技术在寒冷地区冬季交通环境下的研究与应用

我国东北、西北、华北地区气候四季分明,冬季漫长且多降雪,路面湿滑易结冰,道路摩擦系数低,路口通行能力差,事故多发.在全国ITS协调指导小组的领导下,经过公安、交通、信息产业等部门共同努力,我们已形成针对北方寒冷地区治理冬季冰雪路面交通的.综合信息采集与处理模式.

作者：张森翁育峰作者单位：公安部交通管理科学研究所刊名：中国交通信息产业英文刊名：TRANSPORTATION INFORMATION INDUSTRY 年，卷(期)：2009 “”(2) 分类号：U4 关键词：

帝国CMS采集教程(下)：采集过滤与替换技巧.doc

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档