Linux-定时任务-自动登录-爬虫技术
2017-01-19 15:51:18
Linux-定时任务-自动登录-爬虫技术
- 远程访问linux服务器: SSH
ssh -l login_name -p port 10.10.10.1 然后按要求输入你的password, 进入后和访问自己的电脑终端一样了;
- 设定定时任务crontab -e 进入vim编写脚本
众所周知的linux系统的crontab定时任务十分优秀, 但是对于菜鸟来说很多定时的功能比如mail, wget, 执行php都用不到, 而我最想用的不过是定时访问一个网址而已, 因为一切工作都在那个网址里做了; 这源于我更习惯将更多的功能放在php里,定时只需要访问一个网页足以;查了许久最终发现两个好用的,一个适用于远程执行url,一个适合本地执行;
- 当我们需要定时去调用某个本机的或者是远程的web程序时,可以这样设置crontab
0 5 * * * /usr/bin/curl http://www.wangxianfeng.com
此处 ”0 5 * * * ” 表示每天早上的5点钟定时访问上面的url 链接,将其加入到你的 crontab 替代文件中.
- 当我们需要定时执行某个系统内的php脚本程序时,可以这样设置crontab
* 19 * * * /usr/local/php/bin/php /var/www/test.php
此处表示调用php(因为是安装在"/usr/local/php/bin"这个目录下),每天的下午7点执行web目录下test.
(mac里的终端表示: 使用curl和php的时候可以不用加路径!!!)
下面附上定时任务的参数:
crontab -e : 执行文字编辑器来设定时程表,内定的文字编辑器是 VI,如果你想用别的文字编辑器,则请先设定 VISUAL 环境变数来指定使用哪个文字编辑器.(进入后按i进入insert状态,编写后esc退出i状态,:w,:q分别表示保存和退出VI。)
crontab -r : 删除目前的时程表
crontab -l : 列出目前的时程表
crontab file [-u user]-用指定的文件替代目前的crontab。
时程表的格式如下 :
f1 f2 f3 f4 f5 program
其中 f1 是表示分钟,f2 表示小时,f3 表示一个月份中的第几日,f4 表示月份,f5 表示一个星期中的第几天。program 表示要执行的程序。
当 f1 为 * 时表示每分钟都要执行 program,f2 为 * 时表示每小时都要执行程序
当 f1 为 a-b 时表示从第 a 分钟到第 b 分钟这段时间内要执行,f2 为 a-b 时表示从第 a 到第 b 小时都要执行
当 f1 为 */n 时表示每 n 分钟个时间间隔执行一次,f2 为 */n 表示每 n 小时个时间间隔执行一次
当 f1 为 a, b, c,… 时表示第 a, b, c,… 分钟要执行,f2 为 a, b, c,… 时表示第 a, b, c…个小时要执行,
使用者也可以将所有的设定先存放在档案 file 中,用 crontab file 的方式来设定时程表, 一般多用这种方式设置.
其他示例:
#每两个小时
0 */2 * * * date
#晚上11点到早上8点之间每两个小时,早上8点
0 23-7/2,8 * * * date
#每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点
0 11 4 * mon-wed date
#1月份日早上4点
0 4 1 jan * date
- curl函数:用户访问网页,自动登录,抓去数据等环节
比如爬虫代码如下:其中from_url是目标网页,usecookie用于存储cookie
$usecookie = "cookie.txt"; //用来保持cookie
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $from_url);
curl_setopt($ch, CURLOPT_COOKIEFILE, $usecookie);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result = curl_exec($ch);
curl_close($ch);
include_once('simple_html_dom.php');//这个文件可以分析网页结构
$html = str_get_html($result);//得到具有结构的html
$html->find('table.front-table tr td.table-label-text');
如果提示说没有curl_init函数,将php.ini中;extension=php_curl.dll的;去掉。
(未完待续…)
这里是一个完整的带验证码的自动登陆加爬虫分析的实例:自动登陆+验证码+爬虫分析
发表评论: