盘点一下不到100行的给力代码

2023年2月9日 155次阅读来源: 算法小白

只需10行Python代码，我们就能实现计算机视觉中目标检测。

from imageai.Detection import ObjectDetection
import os

execution_path = os.getcwd()

detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))

for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
复制代码

没错，用这寥寥10行代码，就能实现目前AI产品中应用广泛的目标检测技术。

看完了代码，下面容我们聊聊目标检测背后的技术背景，并解读这10行Python代码的由来和实现原理。

目标检测简介

人工智能的一个重要领域就是计算机视觉，它是指计算机及软件系统识别和理解图像与视频的科学。计算机视觉包含很多细分方向，比如图像识别、目标检测、图像生成和图像超分辨率等。其中目标检测由于用途广泛，在计算机视觉领域的意义最为深远。

目标检测是指计算机和软件系统能够定位出图像/画面中的物体，并识别出它们。目标检测技术已经广泛应用于人脸检测、车辆检测、人流量统计、网络图像、安防系统和无人车等领域。和其它计算机视觉技术一样，目标检测未来会进一步成为人工智能的重要组成部分，有着广阔的发展前景。

不过，在软件应用和系统中使用现代目标检测方法以及根据这些方法创建应用，并非简单直接。早期的目标检测实现主要是应用一些经典算法，比如OpenCV中支持的算法。然而这些算法的表现并不稳定，在不同情况下差异巨大。

2012年深度学习技术的突破性进展，催生了一大批高度精准的目标检测算法，比如R-CNN，Fast-RCNN，Faster-RCNN，RetinaNet和既快又准的SSD及YOLO。使用这些基于深度学习的方法和算法，需要理解大量的数学和深度学习框架。现在全世界有数以百万计的开发者在借助目标检测技术创造新产品新项目，但由于理解和使用较为复杂困难，仍有很多人不得要领。

为了解决这个困扰开发者们的问题，计算机视觉专家Moses Olafenwa带领团队推出了Python库ImageAI，能让开发人员只需寥寥数行代码就能很容易的将最先进的计算机视觉技术应用到自己的项目和产品中。

我们开头所示的10行代码实现，就是要用到ImageAI。

如何借助ImageAI轻松实现目标检测

使用ImageAI执行目标检测，你只需以下4步：

1.在电脑上安装Python

2.安装ImageAI及其环境依赖

3.下载目标检测模块文件

4.运行示例代码，就是我们展示的那10行

下面我们一步步详细讲解。

1）从Python官网下载和安装Python 3

python.org/

2）通过pip安装如下环境依赖

1.Tensorflow

pip install tensorflow
复制代码

2.Numpy

pip install numpy
复制代码

3.SciPy

pip install scipy
复制代码

4.OpenCV

pip install opencv-python
复制代码

5.Pillow

pip install pillow
复制代码

6.Matplotlib

pip install matplotlib
复制代码

7.H5py

pip install h5py
复制代码

8.Keras

pip install keras
复制代码

9.ImageAI

pip install
复制代码

github.com

3）通过该链接下载RetinaNet 模型文件用于目标检测。

到了这里我们已经安装好了所有依赖，就可以准备写自己的首个目标检测代码了。创建一个Python文件，为其命名（比如FirstDetection.py），然后将如下代码写到文件中，再把RetinaNet模型文件以及你想检测的图像拷贝到包含该Python文件的文件夹里。

FirstDetection.py

from imageai.Detection import ObjectDetection
import os

execution_path = os.getcwd()

detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))

for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
复制代码

然后运行代码，等待控制台打印结果。等控制台打印出结果后，就可以打开FirstDetection.py所在的文件夹，你就会发现有新的图像保存在了里面。比如下面两张示例图像，以及执行目标检测后保存的两张新图像。

目标检测之前：

《盘点一下不到100行的给力代码》
目标检测之后：

我们可以看到图像上显示了检测出的物体名称及概率。

解读10行代码

下面我们解释一下这10行代码的工作原理。

from imageai.Detection import ObjectDetection
import os

execution_path = os.getcwd()
复制代码

在上面3行代码中，我们在第一行导入了ImageAI目标检测类，在第二行导入Python os类，在第三行定义了一个变量，获取通往我们的Python文件、RetinaNet模型文件和图像所在文件夹的路径。

detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))
复制代码

在上面5行代码中，我们在第一行定义我们的目标检测类，在第二行设定RetinaNet的模型类型，在第三行将模型路径设置为RetinaNet模型的路径，在第四行将模型加载到目标检测类中，然后我们在第五行调用检测函数，并在输入和输出图像路径中进行解析。

for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
复制代码

在上面两行代码中，我们迭代了第一行中detector.detectObjectFromImage函数返回的所有结果，然后打印出第二行中模型对图像上每个物体的检测结果（名称和概率）。

ImageAI支持很多强大的目标检测自定义功能，其中一项就是能够提取在图像上检测到的每个物体的图像。只需将附加参数extract_detected_objects=True解析为detectObjectsFromImage函数，如下所示，目标检测类就会为图像物体创建一个文件夹，提取每张图像，将它们保存在新创建的文件夹中，并返回一个包含通过每张图像的路径的额外数组。

detections, extracted_images = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"), extract_detected_objects=True)
复制代码

我们用前面的第一张图像作为例子，可以得到图像中检测到的各个物体的单独图像：

《盘点一下不到100行的给力代码》