位置: IT常识 - 正文

Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET

编辑:rootadmin
Linux下socket实现网页抓取 - Unicorn - 博客频道 - CSDN.NET Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编 Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编程 2007-10-06 21:33 951人阅读 评论(0) 收藏 举报

推荐整理分享Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

主要用来和WinSock进行下比较:

--WinSock--

需要初始化:

if( (Ret = WSAStartup(MAKEWORD(1,1), &wsaData) ) != 0 )

{

printf("WSAStartup failed with error %d/n", Ret);

return FALSE;

}

头文件:

--WinSock--

#include <winsock2.h> //header

#pragma comment (lib, "ws2_32.lib") //lib

--Linux--

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

各个头文件的作用还需要进一步研究

gethostbyname(host)://从主机名返回地址

这个都是一样的,返回一个struct hostent *的指针。

地址结构:

--WinSock--

SOCKADDR_IN

--Linux--

sockaddr_in

实际上是一样的都是

struct sockaddr_in{

shortsin_family;

unsigned short sin_port;

struct in_addr sin_addr;

charsin_zero[8];

};

(

这个结构是sockaddr的等价结构

struct sockaddr

{

unsigned short sa_family; // address family, AF_XXX

char sa_data[14]; //14 bytes of protocol address

};

)

其中IP地址结构struct in_addr定义如下:

struct in_addr {

union {

struct{

unsigned char s_b1,

s_b2,

s_b3,

s_b4;

} S_un_b;

struct {

unsigned short s_w1,

s_w2;

} S_un_w;

unsigned long S_addr;

} S_un;

};

Socket:

--WinSock--

返回句柄SOCKET,就是socket描述符

--Linux--

比较直接返回int型socket描述符

函数接口都一样

函数例子:

socket (AF_INET, SOCK_STREAM, 0); //TCP

connect(sock, (const sockaddr * )&tcpaddr, sizeof(tcpaddr)); //返回值有不同

--WinSock--

If no error occurs, connect returns zero. Otherwise, it returns SOCKET_ERROR, and a specific error code can be retrieved by calling

WSAGetLastError.

--Linux--

错误返回-1

send(sock_description, message, strlen(message), 0); //返回值不同

--WinSock--

If no error occurs, send returns the total number of bytes sent, which can be less than the number indicated by len. Otherwise, a value of

SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

recv(sock_description, buffer, sizeof(buffer), 0);//返回值不同

--WinSock--

If no error occurs, recv returns the number of bytes received. If the connection has been gracefully closed, the return value is zero. Otherwise, a

value of SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

结束:

--WinSock--

closesocket(sock);

Linux下socket实现网页抓取  Unicorn  博客频道  CSDN.NET

if( WSACleanup() == SOCKET_ERROR )

{

printf("WSACleanup failed with error %d /n", WSAGetLastError() );

}

--Linux--

close(sock);

下面是一个Linux下socket一个HTTP协议GET方法的应用:

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

char*host = "www.hao123.com";

intport = 80;

int main(void)

{

char buffer[512];

int isock;

struct sockaddr_in pin;

struct hostent * remoteHost;

char message[512];

int done = 0;

int chars = 0;

int l = 0;

if( (remoteHost = gethostbyname(host)) == 0 )

{

printf("Error resolving host/n");

exit(1);

}

bzero(message,sizeof(message));

bzero(&pin,sizeof(pin));

pin.sin_family = AF_INET;

pin.sin_port = htons(port);

pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;

if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)

{

printf("Error opening socket!/n");

exit(1);

}

sprintf(message, "GET / HTTP/1.1/r/n");

strcat(message, "Host:www.hao123.com/r/n");

strcat(message, "Accept: */*/r/n");

strcat(message, "User-Agent: Mozilla/4.0(compatible)/r/n");

strcat(message, "connection:Keep-Alive/r/n");

strcat(message, "/r/n/r/n");

printf("%s",message);

if( connect(isock, (void *)&pin, sizeof(pin)) == -1 )

{

printf("Error connecting to socket/n");

exit(1);

}

if( send(isock, message, strlen(message), 0) == -1)

{

printf("Error in send/n");

exit(1);

}

while(done == 0)

{

l = recv(isock, buffer, 1, 0);

if( l < 0 )

done = 1;

switch(*buffer)

{

case '/r':

break;

case '/n':

if(chars == 0)

done = 1;

chars = 0;

break;

default:

chars++;

break;

}

printf("%c",*buffer);

}

do

{

l = recv(isock, buffer, sizeof(buffer) - 1, 0);

if( l < 0 )

break;

*(buffer + l) = 0;

fputs(buffer, stdout);

}while( l > 0 );

close(isock);

return 0;

}

本文链接地址:https://www.jiuchutong.com/zhishi/304077.html 转载请保留说明!

上一篇:帝国cms附表如何分表(帝国cms使用手册)

下一篇:帝国cms怎么多条件搜索(帝国cms界面)

  • 抖音上怎么设置不让别人下载自己的作品(抖音上怎么设置定位地址)

    抖音上怎么设置不让别人下载自己的作品(抖音上怎么设置定位地址)

  • 优先级最低的运算符(优先级最低的运算符为哪一个)

    优先级最低的运算符(优先级最低的运算符为哪一个)

  • 抖音拉黑对方评论是否能看到(抖音拉黑对方评论还在怎么办)

    抖音拉黑对方评论是否能看到(抖音拉黑对方评论还在怎么办)

  • 中英文切换是哪个键(中英文切换是哪个键win7)

    中英文切换是哪个键(中英文切换是哪个键win7)

  • qq拒收对方消息对方会显示什么(qq拒收对方消息设置)

    qq拒收对方消息对方会显示什么(qq拒收对方消息设置)

  • 华为nova5pro录屏在哪(华为nova5pro录屏没有声音)

    华为nova5pro录屏在哪(华为nova5pro录屏没有声音)

  • 移动智能组网是什么意思(移动的智能组网怎么收费)

    移动智能组网是什么意思(移动的智能组网怎么收费)

  • 微信更换实名怎么查账单(微信更换实名怎么更换?)

    微信更换实名怎么查账单(微信更换实名怎么更换?)

  • 金立手机开机一直优化应用怎么办(金立手机开机一直卡在logo界面)

    金立手机开机一直优化应用怎么办(金立手机开机一直卡在logo界面)

  • 赛扬e3300相当于i几(赛扬e3300配什么显卡)

    赛扬e3300相当于i几(赛扬e3300配什么显卡)

  • 火山为什么要实名认证(火山活动为什么会导致全球变暖)

    火山为什么要实名认证(火山活动为什么会导致全球变暖)

  • wps缓存文件在哪(wps文件缓存是什么意思)

    wps缓存文件在哪(wps文件缓存是什么意思)

  • hdr10电视是什么意思(hdr10电视什么意思)

    hdr10电视是什么意思(hdr10电视什么意思)

  • word的缺省扩展名(word2010缺省扩展名)

    word的缺省扩展名(word2010缺省扩展名)

  • 绿钻可以下载永久听吗(绿钻可以下载到u盘吗)

    绿钻可以下载永久听吗(绿钻可以下载到u盘吗)

  • 安卓怎么看卸载软件记录(安卓怎么看已经卸载的app)

    安卓怎么看卸载软件记录(安卓怎么看已经卸载的app)

  • 手机网络出现hd什么意思(手机网络出现h+是什么意思)

    手机网络出现hd什么意思(手机网络出现h+是什么意思)

  • oppor17r15x区别(oppor17和oppor15x哪个好)

    oppor17r15x区别(oppor17和oppor15x哪个好)

  • Linux系统下pv命令的一些使用技巧小结(linux -pv)

    Linux系统下pv命令的一些使用技巧小结(linux -pv)

  • 鸿蒙系统小艺怎么改声音?鸿蒙系统小艺更改声音教程(鸿蒙系统小艺怎么改声音)

    鸿蒙系统小艺怎么改声音?鸿蒙系统小艺更改声音教程(鸿蒙系统小艺怎么改声音)

  • IDEA实现前端页面登录,注册、增、删、改、查操作-完整版(idea前端快捷键)

    IDEA实现前端页面登录,注册、增、删、改、查操作-完整版(idea前端快捷键)

  • 编程主要学什么(编程主要学什么东西)

    编程主要学什么(编程主要学什么东西)

  • 转让金融商品需要缴纳增值税吗
  • 个税由公司承担的账务处理
  • 旅游公司的账务框架
  • 办理税务登记需要法人身份证原件吗
  • 补发工资怎么补发
  • 服务行业成本费用问题与对策
  • 劳务分包预缴税怎么算
  • 医院外聘专家费用由科室承担吗
  • 个税的滞纳金怎么算
  • 单位的收入是刷卡怎么做账
  • 收发差错率
  • 公司法人信息变更是先去税务局还是先去银行
  • 如何区分劳务报酬
  • 汽车修理费入账
  • 开票资料填写
  • 土地增值税按什么面积征收
  • 金税盘不交年费可以正常使用吗
  • 暂估销售收入怎么做分录
  • 民间非营利组织会计制度及操作实务
  • 经营范围外的业务可以开发票吗
  • 发票可以开工程款吗
  • 文件夹属性没有安全
  • win7系统我的电脑图标不见了
  • 装了win8以后不能上网
  • 怎么修改boot启动项
  • PHP:stream_socket_get_name()的用法_Stream函数
  • 小规模纳税人开票限额是多少
  • 研发费用支出税前扣除比例
  • 工程项目科目如何设置
  • 提取公益金会计科目
  • vue引用svg矢量图
  • MySQL高级查询
  • 游戏ai模式是什么意思
  • 中国版ChatGPT即将来袭-国内版ChatGPT入口
  • 使用jquery的好处
  • 装卸费属于什么大类
  • 跨年的增值税专票怎么开
  • 股票印花税和佣金是一样的吗
  • 出差发生的旅游事件
  • 印花税会计处理办法
  • 金税四期 税友
  • 弃置费用怎么处理
  • 计提的费用收到发票时候怎么做账
  • 预收账款和应收账款的转换
  • 主营业务收入的计算公式
  • 公户转到老板私户要多久
  • 包材库存
  • 银行退回转账
  • 企业接受供应单位提供劳务而发生的应付账款
  • 企业主营业务收入分录
  • 小规模纳税人租赁发票税率是多少
  • 叉车累计折旧如何结转
  • 收据 和发票
  • 领用包装物的会计处理
  • 资本公积可以随便增加吗
  • 会计凭证装订时间法律规定
  • 坏账准备计入营业外支出什么明细
  • 出口货物没有进项发票用什么平台申报
  • 什么是递延所得税?
  • linux安装和配置
  • mysql 数据库
  • mysql修改密码错误
  • win10图片修改
  • win8磁盘占用率高怎么处理
  • wfxctl32.exe - wfxctl32是什么进程
  • win7旗舰版开机
  • windows更新过程中
  • win xp系统安装
  • win7系统无法进入登录界面
  • linux usb audio
  • Win10 Mobile build 10586.242提前上手体验
  • messenger api
  • linux脚本自启
  • vscode 远程调试jni
  • unity 3d完全自学教程
  • unity 3d教程
  • 全面解析少女时代关系
  • 悬浮工具栏
  • 建筑业小规模纳税人工程结算增值税
  • 辽宁朝阳丧葬费标准2022
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设