当前位置:文档之家› Linux网络协议栈笔记

Linux网络协议栈笔记

转】Linux内核网络协议栈笔记1:协议栈分层/层次结构大家都知道TCP/IP协议栈现在是世界上最流行的网络协议栈,恐怕它的普及的最重要的原因就是其清晰的层次结构以及清晰定义的原语和接口。

不仅使得上层应用开发者可以无需关心下层架构或者内部机制,从而相对透明的操作网络。

这个明显的层次结构也可以在Linux内核的网络协议栈中观察到。

主要的参考文献是:Linux网络栈剖析(中文版)/Anatomy of Linux networking stack(英文原版)by Tim Jones.以及:Linux内核2.4.x的网络接口结构另外一些参考资料可以从这个页面找到:/elibrary/linux/network/(纽约州立大学石溪分校的页面)Linux内核网络协议栈采用了如下的层次结构:内核中的五层分别是(从上到下):系统调用接口(详见Jones的另一篇文章:使用Linux系统调用的内核命令)协议无关接口(BSD socket层)网络协议(或者简称网络层。

这是一个协议的集合,从链路层到传输层的协议都包括在内。

不同的协议在/net文件夹下除core以外的子目录下,例如基于IP 的协议簇都在/net/ipv4目录下,以太网协议在/net/ethernet目录下)驱动无关接口(又称通用设备层--generic device layer/驱动接口层/设备操作层--device handling layer。

属于网络协议栈最核心的部分,文件位于内核/net/core文件夹下,所以又叫网络核心层。

其中包括了核心的数据结构skbuff 文件中的sk_buff/dev.c文件中net_device,这些数据结构将在下篇文章中介绍)设备驱动程序(在/driver/net文件夹内)不像OSI或者TCP/IP协议栈,事实上并没有一个命名标准,因此在这里,这些层次的名称并不是通用的,但是其语义是清晰的,而且在大多数其他的文章里只是个别字上的差别。

分层详细介绍可以参考Jones的文章。

我们这里所说的初始化过程指的是从硬件加电启动,到可以从网络接收或发送数据包之前的过程。

在Linux系统中,网卡拥有双重身份:struct pci_dev和struct net_device。

pci_dev对象代表通用硬件的性质,是作为一个标准的PCI的设备插入了PCI的卡槽,由驱动程序进行管理;另一方面,net_device对象代表网络传输的性质,与内核的网络协议栈交互,进行数据传输。

因此我们也必须通过两个方面来进行初始化,但是后者是我们的重点。

而且我们并不关心内核与硬件的交互细节,例如寄存器读写与I/O映射等。

内核在初始化时,也会初始化一些与网络相关的数据结构;而且对应我们前面的日志所提及的内核网络协议栈层次结构(点这里),内核也需要一定的初始化工作来建立这种层次结构。

笔者认为初始化最重要的就是重要数据结构(通常用粗体标注)。

因此也希望读者能够记住重要的数据结构的作用。

下面我们将分层,自底向上的分析整个初始化过程:(一)驱动程序层本文中以一个realtek 8139系列网卡作为例子,因为其驱动只有一个c文件(/drivers/net/8139too.c),比较容易分析。

读者也可以参考e1000网卡的另一篇文章(点这里)。

内核版本基于2.6.11。

驱动程序加载/注册主要包括以下的步骤:(a)将设备驱动程序(pci_driver)添加到内核驱动程序链表中;(b)调用每个驱动中的probe函数(其中重要一步就是初始化net_device对象)。

下面进行详细分解。

通常,在Linux中使用insmod命令加载一个驱动程序模块,例如8139too.o目标文件。

加载之后,Linux会默认执行模块中的module_init(rtl8139_init_module)宏函数,其中的参数rtl8139_init_module是一个函数指针,指向在具体的驱动程序8139too.o中声明的rtl8139_init_module函数。

这个函数定义如下:static int __init rtl8139_init_module (void){ return pci_module_init (&rtl8139_pci_driver); }pci_module_init是一个宏定义,实际上就等于pci_register_driver函数。

(在2.6.30内核版本中,直接变成了return pci_register_driver(&rtl8139_pci_driver) )。

pci_register_driver函数的注释说明了它的作用:register a new pci driver.Adds the driver structure to the list of registered drivers。

也就是把如下的这样一个驱动程序(pci_driver类型)挂到系统的驱动程序链表中:static struct pci_driver rtl8139_pci_driver = {.name = DRV_NAME,.id_table = rtl8139_pci_tbl,.probe = rtl8139_init_one,.remove = __devexit_p(rtl8139_remove_one),#ifdef CONFIG_PM.suspend = rtl8139_suspend,.resume = rtl8139_resume,#endif /* CONFIG_PM */};这一步我们应该这样理解(熟悉面向对象编程的读者):所有的pci_driver应该提供一致的接口(比如remove卸载/suspend挂起);但是这些接口的每个具体实现是不同的(pci声卡和pci显卡的挂起应该是不同的),所以采用了这样的函数指针结构。

这个pci_driver结构其中最重要的就是probe函数指针,指向rtl8139_init_one,具体后面会解释。

但是pci_register_driver并不仅仅完成了注册驱动这个任务,它内部调用了driver_register函数(/drivers/base/driver.c中):int driver_register(struct device_driver * drv){INIT_LIST_HEAD(&drv->devices);init_MUTEX_LOCKED(&drv->unload_sem);return bus_add_driver(drv);}前两个就是实现了添加到链表的功能,bus_add_driver才是主要的函数(/drivers/base/bus.c中),内部又调用了driver_attach函数,这个函数的主体是一个list_for_each循环,对链表中的每一个成员调用driver_probe_device函数(哈哈,出现了probe!),这个函数就调用了drv->probe(dev)(drv就是pci_driver类型的对象)!这样也就调用了驱动程序中的probe函数指针,也就是调用了rtl8139_init_one函数。

函数rtl8139_init_one的主要作用就是给net_device对象分配空间(分配空间由函数rtl8139_init_board完成)并初始化。

分配空间主要是内存空间。

分配的资源包括I/O端口,内存映射(操作系统基本概念,请自行google)的地址范围以及IRQ中断号等。

而初始化主要是设置net_device对象中的各个成员变量及成员函数,其中比较重要的是hard_start_xmit(通过硬件发送数据)/poll (轮询)/open(启动)等函数(粗体标注),代码如下:static int __devinit rtl8139_init_one (struct pci_dev *pdev, const str uct pci_device_id *ent){struct net_device *dev = NULL;rtl8139_init_board (pdev, &dev);/* The Rtl8139-specific entries in the device structure. */dev->open = rtl8139_open;dev->hard_start_xmit = rtl8139_start_xmit;dev->poll = rtl8139_poll;dev->stop = rtl8139_close;dev->do_ioctl = netdev_ioctl;}整个的调用链如下:pci_register_driver ==> driver_register ==> bus_add_driver ==> driver_attach ==> driver_probe_device ==> drv->probe ==> rtl8139_init_one(生成net_device)。

一个简单的net_device生命周期示意图如下(左边为初始化,右边为卸载):这个net_device数据结构的生成,标志着网络硬件和驱动程序层初始化完毕。

也意味着,网络协议栈与硬件之间的纽带已经建立起来。

(二)设备无关层/网络协议层/协议无关接口socket层Linux内核在启动后所执行的一些内核函数如下图所示:系统初始化的过程中会调用do_basic_setup函数进行一些初始化操作。

其中2.6.11内核中就直接包括了driver_init()驱动程序初始化,以及sock_init 函数初始化socket层。

然后do_initcalls()函数调用一组前缀为__init类型(这个宏就表示为需要在系统初始化时执行)的函数。

与网络相关的以__init宏标记的函数有:net_dev_init初始化设备无关层;inet_init初始化网络协议层。

(fs_initcall和module_init这两个宏也具有类似的作用。

由于这一阶段处于系统初始化,宏定义比较多,欲详细了解各种宏的使用的读者请参阅参考文献《Understanding Linux Network Internals》Part II Chapter 7)我们下面详细介绍一下这三个初始化函数都进行了哪些工作。

(a)net_dev_init(在文件/net/core/dev.c中):设备操作层static int __init net_dev_init(void){if (dev_proc_init())if (netdev_sysfs_init())INIT_LIST_HEAD(&ptype_all);for (i = 0; i < 16; i++)INIT_LIST_HEAD(&ptype_base[i]);for (i = 0; i < ARRAY_SIZE(dev_name_head); i++)INIT_HLIST_HEAD(&dev_name_head[i]);for (i = 0; i < ARRAY_SIZE(dev_index_head); i++)INIT_HLIST_HEAD(&dev_index_head[i]);//Initialise the packet receive queues.for (i = 0; i < NR_CPUS; i++) {struct softnet_data *queue;queue = &per_cpu(softnet_data, i);skb_queue_head_init(&queue->input_pkt_queue);queue->throttle = 0;queue->cng_level = 0;queue->avg_blog = 10; /* arbitrary non-zero */queue->completion_queue = NULL;INIT_LIST_HEAD(&queue->poll_list);set_bit(__LINK_STATE_START, &queue->backlog_dev.state);queue->backlog_dev.weight = weight_p;queue->backlog_dev.poll = process_backlog;atomic_set(&queue->backlog_dev.refcnt, 1);}open_softirq(NET_TX_SOFTIRQ, net_tx_action, NULL);open_softirq(NET_RX_SOFTIRQ, net_rx_action, NULL);}这个函数所做的具体工作主要包括:初始化softnet_data这个数据结构(每个CPU都有一个这样的队列,表示要交给此CPU处理的数据包);注册网络相关软中断(参见我关于软中断的文章,点这里)。

相关主题