作者:刘昊昱
博客:http://blog.csdn.net/liuhaoyutz
编译环境:Ubuntu 10.10
内核版本:2.6.32-38-generic-pae
LDD3源码路径:examples/sbull
一、块设备驱动基本操作
我们从init函数开始分析,sbull的init函数内容如下:
403static int __init sbull_init(void)
404{
405 int i;
406 /*
407 * Get registered.
408 */
409 sbull_major = register_blkdev(sbull_major, "sbull");
410 if (sbull_major <= 0) {
411 printk(KERN_WARNING "sbull: unable to get major number\n");
412 return -EBUSY;
413 }
414 /*
415 * Allocate the device array, and initialize each one.
416 */
417 Devices = kmalloc(ndevices*sizeof (struct sbull_dev), GFP_KERNEL);
418 if (Devices == NULL)
419 goto out_unregister;
420 for (i = 0; i < ndevices; i++)
421 setup_device(Devices + i, i);
422
423 return 0;
424
425 out_unregister:
426 unregister_blkdev(sbull_major, "sbd");
427 return -ENOMEM;
428}
409行,调用register_blkdev(sbull_major,”sbull”)函数,向kernel注册该驱动程序对应的block设备,register_blkdev函数的第一个参数指定设备对应的主设备号,如果第一个参数传递的值为0,kerenl将自动分配一个主设备号并通过register_blkdev函数的返回值返回。sbull_major的定义如下:
28static int sbull_major = 0;
29module_param(sbull_major, int, 0);
可见,sbull_major的默认值为0,用户可以通过参数指定其他值。
register_blkdev函数的第二个参数指定设备名,将出现在/proc/devices/目录下。
417行,调用kmalloc为设备分配内存空间。sbull使用struct sbull_dev代表一个设备,共有ndevices个设备。struct sbull_dev定义如下:
66/*
67 *The internal representation of our device.
68*/
69struct sbull_dev {
70 int size; /* Device size in sectors */
71 u8 *data; /*The data array */
72 short users; /*How many users */
73 short media_change; /*Flag a media change? */
74 spinlock_t lock; /*For mutual exclusion */
75 struct request_queue *queue; /*The device request queue */
76 struct gendisk *gd; /*The gendisk structure */
77 struct timer_list timer; /*For simulated media changes */
78};
ndevices变量定义如下:
34static int ndevices = 4;
35module_param(ndevices, int, 0);
可见,ndevices默认为4,用户可以通过参数指定其他值。
用kmalloc分配的内存空间保存在Devices变量中,它也是一个struct sbull_dev变量:
80static struct sbull_dev *Devices = NULL;
420-421行,循环调用setup_device函数,对每个sbull设备进行初始化。setup_device函数定义如下:
324/*
325 * Set up our internal device.
326 */
327static void setup_device(structsbull_dev *dev, int which)
328{
329 /*
330 * Get some memory.
331 */
332 memset (dev, 0, sizeof (struct sbull_dev));
333 dev->size = nsectors*hardsect_size;
334 dev->data = vmalloc(dev->size);
335 if (dev->data == NULL) {
336 printk (KERN_NOTICE "vmalloc failure.\n");
337 return;
338 }
339 spin_lock_init(&dev->lock);
340
341 /*
342 * The timer which "invalidates" the device.
343 */
344 init_timer(&dev->timer);
345 dev->timer.data = (unsigned long) dev;
346 dev->timer.function = sbull_invalidate;
347
348 /*
349 * The I/O queue, depending on whether we are using our own
350 * make_request function or not.
351 */
352 switch (request_mode) {
353 case RM_NOQUEUE:
354 dev->queue = blk_alloc_queue(GFP_KERNEL);
355 if (dev->queue == NULL)
356 goto out_vfree;
357 blk_queue_make_request(dev->queue, sbull_make_request);
358 break;
359
360 case RM_FULL:
361 dev->queue = blk_init_queue(sbull_full_request, &dev->lock);
362 if (dev->queue == NULL)
363 goto out_vfree;
364 break;
365
366 default:
367 printk(KERN_NOTICE "Bad request mode %d, using simple\n",request_mode);
368 /* fall into.. */
369
370 case RM_SIMPLE:
371 dev->queue = blk_init_queue(sbull_request, &dev->lock);
372 if (dev->queue == NULL)
373 goto out_vfree;
374 break;
375 }
376 blk_queue_hardsect_size(dev->queue, hardsect_size);
377 dev->queue->queuedata = dev;
378 /*
379 * And the gendisk structure.
380 */
381 dev->gd = alloc_disk(SBULL_MINORS);
382 if (! dev->gd) {
383 printk (KERN_NOTICE "alloc_disk failure\n");
384 goto out_vfree;
385 }
386 dev->gd->major = sbull_major;
387 dev->gd->first_minor = which*SBULL_MINORS;
388 dev->gd->fops = &sbull_ops;
389 dev->gd->queue = dev->queue;
390 dev->gd->private_data = dev;
391 snprintf (dev->gd->disk_name, 32, "sbull%c", which +'a');
392 set_capacity(dev->gd, nsectors*(hardsect_size/KERNEL_SECTOR_SIZE));
393 add_disk(dev->gd);
394 return;
395
396 out_vfree:
397 if (dev->data)
398 vfree(dev->data);
399}
332行,将sbull_dev空间清零。
333行,dev->size是设备以sector为单位的大小,nsectors是设备有多少个sector,hardsect是设备对应的每个sector的大小。nsectors和hardsect_size变量定义如下:
30static int hardsect_size = 512;
31module_param(hardsect_size, int, 0);
32static int nsectors = 1024; /* How bigthe drive is */
33module_param(nsectors, int, 0);
可见,nsectors默认值为1024,hardsect_size默认值为512,它们可以通过参数指定其他值。
334行,为dev->data分配dev->size的内存空间。
339行,初始化dev->lock,它是一个spin_lock。
341-346行,初始化定时器dev->timer,定时器函数为sbull_invalidate。sbull_dev被假设是可插拨设备,当最后一个用户关闭设备时(即在sbull_release函数中),dev->timer被设置为30秒后触发定时器中断,如果没有用户在30秒内打开设备,设备上的内容将被清空,并将dev->media_change标志位设置为1,通知内核设备已经被拨出。sbull_invalidate函数定义如下:
261/*
262 * The "invalidate" function runsout of the device timer; it sets
263 * a flag to simulate the removal of themedia.
264 */
265void sbull_invalidate(unsigned longldev)
266{
267 struct sbull_dev *dev = (struct sbull_dev *) ldev;
268
269 spin_lock(&dev->lock);
270 if (dev->users || !dev->data)
271 printk (KERN_WARNING "sbull: timer sanity check failed\n");
272 else
273 dev->media_change = 1;
274 spin_unlock(&dev->lock);
275}
273行,dev->media_change设置为1,表示设备被拨出。
回到setup_device函数:
348-375行,初始化请求队列,这里分为三种情况,一是使用自己的make_request,二是完整的request,三是简单的request。
376行,调用blk_queue_hardsect_size函数通知kernel sbull_dev支持的sector大小。
381行,调用alloc_disk函数创建一个struct gendisk对象,赋值给dev->gd。struct gendisk代表一个单独的磁盘设备,实际上,一个磁盘分区也是用structgendisk表示,但是驱动开发者不用关心这些细节。alloc_disk函数用于创建并初始化一个gendisk对象,其参数表示该磁盘对象使用的次设备号的个数。
386-390行,对dev->gd的各个成员进行初始化。我们需要注意的是dev->gd->fops被赋值为sbull_ops。struct gendisk的fops成员变量是struct block_device_operations指针变量,它是对该块设备进行操作的函数集合。sbull_ops定义如下:
311/*
312 * The device operations structure.
313 */
314static struct block_device_operationssbull_ops = {
315 .owner = THIS_MODULE,
316 .open = sbull_open,
317 .release = sbull_release,
318 .media_changed =sbull_media_changed,
319 .revalidate_disk = sbull_revalidate,
320 .ioctl = sbull_ioctl
321};
我们后面会依次分析sbull_ops的成员函数。
392行,调用set_capacity函数,记录设备大小,以sector为单位。
393行,调用add_disk(dev->gd)向kernel注册dev->gd。该函数执行后,设备就“活”了,其操作函数随时可能被调用。
至此,setup_device函数我们就分析完了。同时,sbull_init函数也就分析完了。
前面我们提到过struct gendisk代表一个磁盘设备,而gendisk.fops成员则是对该磁盘进行操作的函数集合。在sbull驱动中,gendisk.fops被设置为sbull_ops,下面我们就来分析一下sbull_ops中的成员函数。
sbull_ops.open被设置为sbull_open,当sbull块设备被打开时,该函数被调用,其定义如下:
206static int sbull_open(struct inode*inode, struct file *filp)
207{
208 struct sbull_dev *dev = inode->i_bdev->bd_disk->private_data;
209
210 del_timer_sync(&dev->timer);
211 filp->private_data = dev;
212 spin_lock(&dev->lock);
213 if (! dev->users)
214 check_disk_change(inode->i_bdev);
215 dev->users++;
216 spin_unlock(&dev->lock);
217 return 0;
218}
为了模拟可插拨设备,sbull驱动程序必须知道什么时候最后一个用户关闭设备。为此,sbull驱动程序需要维护一个用户计数,在open和release函数中,对这个用户计数进行增减操作。
块设备的open操作与字符设备的open操作看起来非常像,它们都是以相应的inode和file结构体指针为参数,当一个inode指向一个块设备时,inode.i_bdev->bd_disk指向对应的gendisk结构体。
208行,通过gendisk.private_data得到sbull_dev指针。
210行,删除定时器。
213-214行,如果dev->users为0,则调用kernel提供的函数check_disk_change,检查设备状态是否发生变化。
215行,用户数加1。
sbull_ops.release被设置为sbull_release,该函数定义如下:
220static int sbull_release(struct inode*inode, struct file *filp)
221{
222 struct sbull_dev *dev = inode->i_bdev->bd_disk->private_data;
223
224 spin_lock(&dev->lock);
225 dev->users--;
226
227 if (!dev->users) {
228 dev->timer.expires = jiffies + INVALIDATE_DELAY;
229 add_timer(&dev->timer);
230 }
231 spin_unlock(&dev->lock);
232
233 return 0;
234}
sbull_release函数与sbull_open函数的作用正好相反,当一个用户关闭sbull设备时,sbull_release函数被调用,它用于减少用户计数,如果用户计数为0,则启动定时器。
225行,用户计数减1。
227-230行,如果用户计数为0,则启动去时器,并设置定时器在INVALIDATE_DELAY即30秒钟后触发。
struct block_device_operations的成员函数media_changed和revalidate_disk是为可插拨设备准备的,如果我们的驱动程序对应的设备是不可插拨的设备,则可以忽略这两个函数。因为我们的sbull设备要模拟一个可插拨设备,所以我们实现了这两个函数:sbull_ops.media_changed对应sbull_media_changed函数,sbull_ops.revalidate_disk对应sbull_revalidate函数。
先来看sbull_media_changed,该函数定义如下:
236/*
237 * Look for a (simulated) media change.
238 */
239int sbull_media_changed(struct gendisk*gd)
240{
241 struct sbull_dev *dev = gd->private_data;
242
243 return dev->media_change;
244}
media_changed函数用来探测可插拨设备是否已经发生变化,如果是,该函数返回一个非0值,如果没有变化,返回0。sbull_media_changed函数返回dev->media_change标志。前面我们分析了定时器处理函数sbull_invalidate,在该函数中,如果sbull设备被最后一个用户关闭30秒钟后没有被再打开,则将dev->media_change设置为1,表示设备被拨出。
sbull_revalidate函数定义如下:
246/*
247 * Revalidate. WE DO NOT TAKE THE LOCK HERE, for fear ofdeadlocking
248 * with open. That needs to be reevaluated.
249 */
250int sbull_revalidate(struct gendisk *gd)
251{
252 struct sbull_dev *dev = gd->private_data;
253
254 if (dev->media_change) {
255 dev->media_change = 0;
256 memset (dev->data, 0, dev->size);
257 }
258 return 0;
259}
revalidate函数在可插拨设备发生变化时会被kernel调用,它的作用是用来为驱动新插入的设备(如果有的话)做任何需要的准备工作。调用完revalidate函数后,kernel会尝试读取设备分区表,并重新启动设备。
在sbull_revalidate函数中,我们只是将dev->media_change设置为0,并清空dev->data的内容,以此来模拟插入了一个空白磁盘。
下面我们来看sbull_ops. sbull_ioctl函数,该函数定义如下:
277/*
278 * The ioctl() implementation
279 */
280
281int sbull_ioctl (struct inode *inode,struct file *filp,
282 unsigned int cmd, unsignedlong arg)
283{
284 long size;
285 struct hd_geometry geo;
286 struct sbull_dev *dev = filp->private_data;
287
288 switch(cmd) {
289 case HDIO_GETGEO:
290 /*
291 * Get geometry: since we are a virtual device, we have to make
292 * up something plausible. So weclaim 16 sectors, four heads,
293 * and calculate the corresponding number of cylinders. We set the
294 * start of data at sector four.
295 */
296 size = dev->size*(hardsect_size/KERNEL_SECTOR_SIZE);
297 geo.cylinders = (size & ~0x3f) >> 6;
298 geo.heads = 4;
299 geo.sectors = 16;
300 geo.start = 4;
301 if (copy_to_user((void __user *) arg, &geo, sizeof(geo)))
302 return -EFAULT;
303 return 0;
304 }
305
306 return -ENOTTY; /* unknowncommand */
307}
块设备驱动程序可以提供ioctl方法执行对设备的控制,在ioctl命令到达块设备驱动程序之前,kernel的块设备子系统可能已经处理了大部分ioctl命令。所以,块设备驱动程序不需要实现太多的ioctl命令处理。
sbull_ioctl只实现了一个ioctl命令处理,用于返回设备geometry。
二、request处理
块设备驱动的性能在很大程度上能决定整个系统的性能,因此,Linux kernel在实现块设备子系统时,始终考虑到性能的因素,它尽最大可能让块设备驱动程序不必关心操作块设备的细节,这使得更快速的I/O操作成为可能,同时,块设备子系统也不必为块设备驱动程序导出大量复杂的API接口。
对一个块设备驱动程序来说,最重要函数就是它的request函数,该函数是执行“真正的”工作的地方,或者说至少是“真正的”工作开始执行的地方。块设备驱动的request函数具有如下格式:
void request(request_queue_t *queue);
当kernel认为需要驱动程序执行read、write或其它针对块设备的操作时,request函数就会被调用。request函数不必完成所有的请求操作,而是启动对请求操作的处理,保证该请求最终被驱动程序完成。
每个设备都有一个请求队列(request queue),request函数在request queue被创建的时候就和该request queue关联在一起。例如,在sbull驱动中,创建request queue的语句如下(在setup_device函数中):
371 dev->queue = blk_init_queue(sbull_request, &dev->lock);
blk_init_queue函数用于创建和初始化requestqueue,sbull_request就是对应的request函数。dev->lock是调用request函数前必须获得的自旋锁。
下面我们来看sbull驱动程序是怎么处理request的。
在setup_device函数中,sbull驱动程序提供了几种不同的处理request的函数,最简单的也是默认的request处理函数是sbull_request函数。该函数定义如下:
101/*
102 * The simple form of the requestfunction.
103 */
104static voidsbull_request(request_queue_t *q)
105{
106 struct request *req;
107
108 while ((req = elv_next_request(q)) != NULL) {
109 struct sbull_dev *dev = req->rq_disk->private_data;
110 if (! blk_fs_request(req)) {
111 printk (KERN_NOTICE "Skipnon-fs request\n");
112 end_request(req, 0);
113 continue;
114 }
115 // printk (KERN_NOTICE"Req dev %d dir %ld sec %ld, nr %d f %lx\n",
116 // dev - Devices, rq_data_dir(req),
117 // req->sector,req->current_nr_sectors,
118 // req->flags);
119 sbull_transfer(dev, req->sector, req->current_nr_sectors,
120 req->buffer,rq_data_dir(req));
121 end_request(req, 1);
122 }
123}
106行,定义一个struct request指针变量req,struct request结构体我们后面会详细分析,这里我们只需要知道它代表一个block I/O request。
108行,调用elv_next_request函数从request队列中取得第一个未处理的request。注意elv_next_request函数并没有将该request从request队列中删除,如果没有对它执行相应操作,两次调用elv_next_request函数将返回同一个request。
110-114行,调用blk_fs_request函数判断当前request是不是执行真正读写操作的request,如果不是,调用end_request函数表示完成对该request的处理,注意这112行调用end_request时,第二个参数传递的是0,表示我们没有成功完成该request。
119行,如果request是执行读写操作的request,调用sbull_transfer函数执行读写操作。后面我们再分析sbull_transfer函数。
121行,完成request要求的读写操作后,调用end_request,第二个参数传递1,表示该request成功完成。
sbull_transfer函数定义如下:
82/*
83 *Handle an I/O request.
84*/
85static void sbull_transfer(struct sbull_dev*dev, unsigned long sector,
86 unsigned long nsect, char *buffer, int write)
87{
88 unsigned long offset = sector*KERNEL_SECTOR_SIZE;
89 unsigned long nbytes = nsect*KERNEL_SECTOR_SIZE;
90
91 if((offset + nbytes) > dev->size) {
92 printk (KERN_NOTICE "Beyond-end write (%ld %ld)\n", offset,nbytes);
93 return;
94 }
95 if(write)
96 memcpy(dev->data + offset, buffer, nbytes);
97 else
98 memcpy(buffer, dev->data + offset, nbytes);
99}
该函数的第一个参数代表sbull_dev设备,第二个参数指定读写操作从哪个sector开始,第三个参数指定读写操作涉及到多少个sector,第四个参数指定读/写缓冲区,第五个参数指定是执行读还是写操作。
88行,计算读/写操作的起始位置。
89行,计算读/写操作的字节数。
91-94行,判断读/写操作是否越界。
95-98行,调用memcpy函数执行读/写操作。
setup_device函数的第361行:
361 dev->queue = blk_init_queue(sbull_full_request, &dev->lock);
可以看出,完整版本的request处理函数是sbull_full_request,该函数定义如下:
163/*
164 * Smarter request function that"handles clustering".
165 */
166static voidsbull_full_request(request_queue_t *q)
167{
168 struct request *req;
169 int sectors_xferred;
170 struct sbull_dev *dev = q->queuedata;
171
172 while ((req = elv_next_request(q)) != NULL) {
173 if (! blk_fs_request(req)) {
174 printk (KERN_NOTICE "Skipnon-fs request\n");
175 end_request(req, 0);
176 continue;
177 }
178 sectors_xferred = sbull_xfer_request(dev, req);
179 if (! end_that_request_first(req, 1, sectors_xferred)) {
180 blkdev_dequeue_request(req);
181 end_that_request_last(req);
182 }
183 }
184}
172行,调用elv_next_request函数从request队列中取得第一个未处理的request。
173-177行,调用blk_fs_request函数判断当前request是不是执行真正读写操作的request,如果不是,调用end_request函数表示完成对该request的处理,注意175行调用end_request时,第二个参数传递的是0,表示我们没有成功完成该request。
178行,调用sbull_xfer_request(dev,req)函数,该函数处理整个request,执行真正的I/O操作,该函数定义如下:
146/*
147 * Transfer a full request.
148 */
149static int sbull_xfer_request(structsbull_dev *dev, struct request *req)
150{
151 struct bio *bio;
152 int nsect = 0;
153
154 rq_for_each_bio(bio, req) {
155 sbull_xfer_bio(dev, bio);
156 nsect += bio->bi_size/KERNEL_SECTOR_SIZE;
157 }
158 return nsect;
159}
154-157行,rq_for_each_bio是一个宏,用于遍历request包含的所有bio结构。对于每个bio结构,155行调用sbull_xfer_bio (dev,bio),该函数处理单个bio结构,其定义如下:
126/*
127 * Transfer a single BIO.
128 */
129static int sbull_xfer_bio(structsbull_dev *dev, struct bio *bio)
130{
131 int i;
132 struct bio_vec *bvec;
133 sector_t sector = bio->bi_sector;
134
135 /* Do each segment independently. */
136 bio_for_each_segment(bvec, bio, i) {
137 char *buffer =__bio_kmap_atomic(bio, i, KM_USER0);
138 sbull_transfer(dev, sector, bio_cur_sectors(bio),
139 buffer, bio_data_dir(bio) ==WRITE);
140 sector += bio_cur_sectors(bio);
141 __bio_kunmap_atomic(bio, KM_USER0);
142 }
143 return 0; /* Always "succeed" */
144}
136行,调用bio_for_each_segment宏,遍历bio的bi_io_vec数组的每个成员(即一个bio_vec结构)。bio_for_each_segment宏会将当前的bio_vce赋值给第一个参数bvec,将当前segment号赋值给第三个参数i。
137行,调用__bio_kmap_atomic将bio_vec数据的虚拟地址转换为物理地址,保存在buffer指针变量中。
138-139行,调用sbull_transfer函数,该函数我们在前面分析sbull_request函数时已经分析过。sbull_transfer函数定义如下:
82/*
83 *Handle an I/O request.
84*/
85static void sbull_transfer(struct sbull_dev*dev, unsigned long sector,
86 unsigned long nsect, char *buffer, int write)
87{
88 unsigned long offset = sector*KERNEL_SECTOR_SIZE;
89 unsigned long nbytes = nsect*KERNEL_SECTOR_SIZE;
90
91 if((offset + nbytes) > dev->size) {
92 printk (KERN_NOTICE "Beyond-end write (%ld %ld)\n", offset,nbytes);
93 return;
94 }
95 if(write)
96 memcpy(dev->data + offset, buffer, nbytes);
97 else
98 memcpy(buffer, dev->data + offset, nbytes);
99}
该函数的第一个参数代表sbull_dev设备,第二个参数指定读写操作从哪个sector开始,第三个参数指定读写操作涉及到多少个sector,第四个参数指定读/写缓冲区,第五个参数指定是执行读还是写操作。
88行,计算读/写操作的起始位置。
89行,计算读/写操作的字节数。
91-94行,判断读/写操作是否越界。
95-98行,调用memcpy函数执行读/写操作。
回到sbull_xfer_bio函数:
140行,更新sector值。
141行,取消地址映射。
至此,sbull_xfer_bio函数我们就分析完了。
回到sbull_xfer_request函数:
156行,更新nsect值,记录传输的sector数。
158行,返回传输的sector个数。
回到sbull_full_request函数:
179行,处理完request后,调用end_that_request_first函数通过block子系统该request处理完毕。end_that_request_first函数的返回值表明该request的所有sector都被传输完成与否,返回0表明该request所有的sector都被传输完成,request处理结束。
180行,如果request的所有sector都被传输完成,request处理结束,则调用blkdev_dequeue_request(req)函数将request从request队列中删除。
181行,调用end_that_request_last(req)函数,该函数通知等待该request结束的进程,并回收request结构。