<?php
function csdn(){//$uid采集文章的分类
$url="http://www.csdn.net";
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL,$url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 5);
curl_setopt($ch,CURLOPT_ENCODING ,'utf8');
$content = curl_exec($ch);
preg_match_all("/http\:\/\/\w*\.csdn\.net\/a\/\d*\/\d*\.html/",$content,$match);
$weburl=$match[0];
$weburl=array_unique($weburl);
$j=0;
foreach($weburl as $i=>$vo){
curl_setopt ($ch, CURLOPT_URL,$vo);
$content = curl_exec($ch);
preg_match_all("/\<h1\>(.*)\<\/h1\>|\<div\s*class\=\"blkCont.*([\s\S]*)\<div\s*class\=\"page\".*\>/",$content,$match);
if(!empty ( $match[2][1])){
$list[$j]['content']=$match[2][1];
$list[$j]['title']=$match[1][0];
$j++;
}
}
print_r($list);
}
?>
很容易看出
$list就是收集到的新闻,形式是一个二维数组
如果要把他保存到你的数据库,我就不解释了...
其中注意判断是否与你数据库的文章重复
可以通过md5加密标题然后与你数据库的文章标题md5加密后比对,若真.,则表示你数据库有同样的文章
注意这里希望大家复制不要手工复制,请view
plain查看源代码方法复制.....
因为表面的代码跟实际代码貌似有出入
如果你是thinkphp的话....那就跟我的一样了...下面贴出更方便的代码直接添加数据库,包括重复数据判断:
<?php
function csdn($uid){//$uid采集文章的分类
$url="http://www.csdn.net";
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL,$url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 5);
curl_setopt($ch,CURLOPT_ENCODING ,'utf8');
$content = curl_exec($ch);
preg_match_all("/http\:\/\/\w*\.csdn\.net\/a\/\d*\/\d*\.html/",$content,$match);
$weburl=$match[0];
$weburl=array_unique($weburl);
$j=0;
foreach($weburl as $i=>$vo){
curl_setopt ($ch, CURLOPT_URL,$vo);
$content = curl_exec($ch);
preg_match_all("/\<h1\>(.*)\<\/h1\>|\<div\s*class\=\"blkCont.*([\s\S]*)\<div\s*class\=\"page\".*\>/",$content,$match);
if(!empty($match[2][1])){
$list[$j]['content']=$match[2][1];
$list[$j]['title']=$match[1][0];
$j++;
}
}
$db=M('news');
$news=$db->where("uid=".$uid)->select();
$flag=true;
foreach($list as $i=>$vo){
foreach($news as $j=>$value){
if(md5($value['title'])==md5($vo['title'])){
$flag=false;
break;
}
}
if($flag){
$vo['uid']=$uid;
$vo['date']=date('Y-j-m H:i:s');
$vo['author']=Session::get("admin");
$vo['iscommand']=1;
$rs=$db->add($vo);
}
$flag=true;
}
}
?>
分享到:
相关推荐
百度知道自定义分类采集版是采用php进行开发的百度知道问答采集网站源码。 软件特点: 1、可自定义采集分类 2、免人工录入信息,全自动系统采集 3、支持缓存 减少服务器资源。 (本程序需要安装伪静态插件...
战刀API淘客自动采集系统是一个以php+MySQL进行开放的淘宝客网站程序。程序说明:1.老Y文章系统更改为php战刀API淘宝客系统。2.本程序就是基于"淘宝客基础API"开发出来的产品 。3.现在淘宝客API 重新开放申请 商品全...
蓝天采集器是一款免费的数据采集发布软件,可部署在云端服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登陆实时发布数据,软件实现定时定量全自动采集发布,无需人工干预!是大数据、云时代网站...
壁纸采集自 360壁纸库、必应首页的每日图片以及金山词霸开放平台。 可以直接上传到服务器使用,要修改标题或者其他的话直接在index.php文件下就该就行了。 环境的话最好使用php5.6,我测试的时候环境就行php5.6,...
疯子页面采集器是一款网页抓取工具,是用于网站信息采集,网站信息抓取,包括图片、文字等信息采集...买本程序送php采集器源码 //----------------------------------------------------------------------------------
本书展示一个完整网站的设计和实现过程,详细地介绍动态网页设计和制作的技术和相关理论,全书共分为8章,主要内容包括:动态网站设计概述、动态网站编程环境、网站主页设计与PHP基础、网站计数器设计与PHP文件访问...
用php来获取指定网页内容的实现代码,一般采集程序经常用的一些代码,这里只是一个简单的基础。更详细的资料可以参考php 采集成品,可以使用的源码,这样才能学会更多的东西。
2.团购网站管理:进行团购网站增、册、改、排序、颜色,并可设置站点采集规则,采集网站团购商品。 3.团购网站会员管理:进行团购网站会员增、册、改操作,设置会员对应的团购网站。 4.提交网站审核:审核提交的团购...
2.修复采集https站点,转码阅读失败的问题 3.PC版信息页 新增滚动显示 小说简介以及站点列表 4.PC版信息页 新增 同作者的作品栏 5.PC版信息页 新增 全部章节目录 折叠展示的功能 6.WAP版修复 部分系统环境下 ...
php建站源码,美观大方带采集功能,可解压学习一下也可直接建站 1.环境要求:php7 支持伪静态 2.将源码上传到网站根目录 3.http://你的域名/install 安装 后台地址:http://你的域名/admin 账号密码:admin admin ...
背景 最近广大同学对行业上刷GitHub Star操作很是好奇,博主特此分享核心技术,以此解惑。 原理 ...
神箭手云采集WeCenter框架插件,云端在线智能爬虫/采集器,基于分布式云计算平台,帮助需要从网页获取信息的客户快速轻松地获取大量规范化数据。操作简单,无需专业知识。降低数据获取成本,提高效率。任务完全...
4.添加缓存功能,采集不到不缓存 5.自定义二级目录功能 6.自定义模板(模板分离,自己可编写模板) 7.网站后台管理功能 8.伪静态规则在后台设置完成后自动生成 9.全站伪原创(更加有利于搜索引擎收录,可以...
php /** * @name 采集书.php * @date Sun Mar 01 22:48:02 CST 2009 * @copyright 马永占(MyZ) * @author 马永占(MyZ) * @link http://blog.csdn.net/mayongzhan/ */ //header(‘Content-Type:text/html;charset=utf...
1.采用php采集技术自动获取,可获取天猫店铺内容. 2.将天猫店铺内的商品自动转换为加上淘宝客PID,得以获得佣金. 3.去除页面头部,尾部,使得更加逼真. 4.可设置内容替换(授权功能). 5.四种采集方式自动切换,兼容99%...
4、支持两种采集方式,适用于绝大部分服务器! 二、云播搜 磁力搜索 安装 将本程序下载解压后上传至服务器后,修改 config.php 的配置文件即可!暂无后台管理。 首次使用或更改配置后,如存在 index.cache....
本程序这是一个小偷程序,数据来自 video.soso.com ,比较稳定,界面美观,采用PHP编写,上传到空间就可以使用了,建议使用Linux主机效果更佳,由于搜搜屏蔽了一些关键字,所以该程序也会屏蔽相应的关键字,不过已...
http://wiki.opencv.org.cn/index.php/使用DirectShow采集图像 matlab 标定工具 http://www.vision.caltech.edu/bouguetj/calib_doc/ 邹神的基于MFC的双目标定工具 https://github.com/yuhuazou/StereoVision 参考...