PASCAL Visual Object Classes Challenge 2007(VOC 2007)数据集预处理_voc2007 trainval 提取图片-程序员宅基地

技术标签: 数据集  python  机器学习  VOC 2007  classification  multi-label  

VOC 2007[1] 是一个多标签数据集,有 20 类。这里为 multi-label classification 任务做预处理,包括:

  • 将图片移到同一个目录(方便读取);
  • 数据划分(本身就已经分好 train/val 和 test 两部分);
  • 处理标签。

Prepare

[1] 有下载链,train/val 450M,test 430M。下下来就是 VOCtrainval_06-Nov-2007.tarVOCtest_06-Nov-2007.tar 两个文件。以 test set 的文件为例,解压之后在 VOCtest_06-Nov-2007/VOCdevkit/VOC2007/ 下可以见到:

  • Annotations/:各样本对应的 .xml 标注文件,可以从中提取 label 信息,解析可参考 [5]。其中 <object> 标签下的 <difficult> 子标签与下一条的 0 tag 有对应关系,见 [2];
  • ImageSets/:只用到其中 Main/ 目录,里面是按类组织的 .txt 文件,标注每幅 image 样本是否包含此类物体,有 1/0/-1 三种标记(解释见 [2]):1 是含有,-1 是不含,0 表示 difficult。
  • JPEGImages/:图片;
  • SegmentationClass/:其它任务的,用不到;
  • SegmentationObject/:其它任务的,用不到;

ID, Label

JPEGImages/ 下的图片是用 ID 命名的,可以从此获取样本 ID;而在 ImageSets/Main/ 中,又有 test.txttrain.txtval.txttrainval.txt 这 4 个 ID 划分文件。经验证,以两种方式获得的 ID 划分是一致的,且 train/val 与 test 无重合。
处理 label 时,参照 [4],将 0 当成 -1,即只有 1 表示正例,0/-1 都表示负例,结果与 [3] 里每类正例数统计是对得上的。 获取 label 又有两中方式:通过 Annotations/ 中的 .xml 文件,或通过 ImageSets/Main/(除了刚才的 ID 划分文件之外的).txt 文件。经验证,将 .txt 中的 0 当成 -1 处理与忽略 .xml 中 <difficult> 为 1 的效果相同。

Code

  • update 2020.12.5:label 改为用 scipy.io.savemat 存,加压缩参数,见 [7]。
  • notes 2020.7.22:ML-GCN[6] 会把 ID、label 写进两个 csv 文件:classification_trainval.csvclassification_test.csv,后续读数据也是按这两个 csv 文件来。经验证,所得 label 信息与本文处理的结果一致
  • update 2020.7.5:由于 ML-GCN 对 0 标签的处理是当成 1 而不是上述的 -1,所以改变处理标签的做法:保留 -1/0/1 原貌,读入后再按需处理 0 的问题。
import os
from os.path import join
from xml.dom import minidom
import numpy as np
import scipy.io as sio


# http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html
# http://host.robots.ox.ac.uk/pascal/VOC/voc2007/htmldoc/voc.html#SECTION00090000000000000000


P = "E:/iTom/dataset/VOC2007"  # 下载目录
ALL_IMAGE_P = join(P, "images")  # 所有 image 复制一份到此目录下

# train/val 解压目录
TRAIN_P = join(P, "VOCtrainval_06-Nov-2007/VOCdevkit/VOC2007")
TRAIN_IMAGE_P = join(TRAIN_P, "JPEGImages")
TRAIN_LABEL_P = join(TRAIN_P, "ImageSets/Main")
TRAIN_ANNO_P = join(TRAIN_P, "Annotations")

# test 解压目录
TEST_P = join(P, "VOCtest_06-Nov-2007/VOCdevkit/VOC2007")
TEST_IMAGE_P = join(TEST_P, "JPEGImages")
TEST_LABEL_P = join(TEST_P, "ImageSets/Main")
TEST_ANNO_P = join(TEST_P, "Annotations")

# ID 划分文件
SPLIT_TRAIN = join(TRAIN_LABEL_P, "train.txt")
SPLIT_VAL = join(TRAIN_LABEL_P, "val.txt")
SPLIT_TRAIN_VAL = join(TRAIN_LABEL_P, "trainval.txt")
SPLIT_TEST = join(TEST_LABEL_P, "test.txt")


"""处理 ID 划分"""

# print("--- 第一种方式:从 JPEGImages/ 目录提取 ID ---")
file_key = lambda s: int(s.split('.')[0])


# def get_id_list(path):
#     id_list = os.listdir(path)
#     id_list = list(map(file_key, id_list))
#     print("#files:", len(id_list))
#     id_set = set(id_list)
#     print("#unique:", len(id_set))
#     return id_list


# print("- train -")
# train_img_id = get_id_list(TRAIN_IMAGE_P)  # 5011
# print("- test -")
# test_img_id = get_id_list(TEST_IMAGE_P)  # 4952

# print("- 验证 train/val 与 test 无重复 ID -")
# train_img_id_set = set(train_img_id)
# test_img_id_set = set(test_img_id)
# # no intersection in id of train/val & test
# print("#common in train & test:", len(train_img_id_set.intersection(test_img_id_set)))  # 0


print("--- 第二种方式:从 ID 划分文件提取 ID ---")


def get_id_list_from_file(_file):
    id_list = []
    with open(_file, "r") as f:
        for line in f:
            id_list.append(int(line))
    print("#id:", len(id_list))
    id_set = set(id_list)
    print("#unique id:", len(id_set))
    return id_list


print("- train -")
id_train = get_id_list_from_file(SPLIT_TRAIN)  # 2501
print("- val -")
id_val = get_id_list_from_file(SPLIT_VAL)  # 2510
print("- train-val -")
id_train_val = get_id_list_from_file(SPLIT_TRAIN_VAL)  # 5011
print("- test -")
id_test = get_id_list_from_file(SPLIT_TEST)  # 4952

# print("- 验证 train/val 与 test 无重复 ID -")
# train_val_id_set = set(id_train_val)
# test_id_set = set(id_test)
# # train/val 和 test 无重复 ID
# print("#common in train & test:", len(train_val_id_set.intersection(test_id_set)))  # 0
# print("- 验证两种方法获取的 ID 划分一致 -")
# print("#common in train:", len(train_img_id_set.intersection(train_val_id_set)))  # 5011
# print("#common in test:", len(test_img_id_set.intersection(test_id_set)))  # 4952

# print("- check id complete -")
id_all = id_train_val + id_test
print("#id:", len(id_all), ", max id:", max(id_all), ", min id:", min(id_all))
n_id = max(id_all)
# for i in range(1, n_id + 1):
#     if i not in id_all:
#         print("id absent:", i)
# print("complete check done")


print("- save indices -")
id_train = np.array(id_train) - 1
id_val = np.array(id_val) - 1
id_train_val = np.array(id_train_val) - 1
id_test = np.array(id_test) - 1
print("id train-val:", id_train_val.max(), id_train_val.min())
print("id test:", id_test.max(), id_test.min())

np.save(join(P, "idx_train.npy"), id_train)
np.save(join(P, "idx_val.npy"), id_val)
np.save(join(P, "idx_train_val.npy"), id_train_val)
np.save(join(P, "idx_test.npy"), id_test)


"""将全部 image 移到同一个目录"""
# since all IDs are distinct
# we can move all image into one dir

if not os.path.exists(ALL_IMAGE_P):
    os.makedirs(ALL_IMAGE_P)


def copy_image(path):
    img_ls = os.listdir(path)
    for i, f in enumerate(img_ls):
        # os.system("cp {} {}".format(join(path, f), ALL_IMAGE_P))  # linux
        os.system("copy {} {}".format(join(path, f), ALL_IMAGE_P))  # windows
        if i % 100 == 0:
            print(i)


copy_image(TRAIN_IMAGE_P)
copy_image(TEST_IMAGE_P)


"""处理 label"""
# 2 method for processing label
# both treat 0 tag as -1
# http://host.robots.ox.ac.uk/pascal/VOC/voc2007/htmldoc/voc.html#SECTION00031000000000000000

test_ls = os.listdir(TEST_LABEL_P)
test_ls = [f for f in test_ls if "_test" in f]
N_CLASS = len(test_ls)
print("#class:", N_CLASS)
# map id: name -> num
test_ls = [f.split("_test")[0] for f in test_ls]  # 保留类名
id_map = {
    name: num for num, name in enumerate(test_ls)}  # 类名 -> 类 ID
print(id_map)


print("--- 第一种方式:从 ImageSets/Main/ 提取 label ---")
L_label = np.zeros((n_id, N_CLASS))


def proc_label(path, suffix):
    """process by class
    path: {TRAIN_LABEL_P, TEST_LABEL_P}
    suffix: {"_trainval", "_test"}
    """
    file_ls = os.listdir(path)
    for _f in file_ls:
        if suffix not in _f:
            continue
        class_name = _f.split(suffix)[0]
        assert class_name in id_map
        c = id_map[class_name]
        pos_cnt = 0
        with open(join(path, _f), "r") as f:
            for line in f:  # format: ID  1/0/-1
                line = line.split()
                # if int(line[1]) > 0:  # 只把 1 当正例
                lb = int(line[1])
                if 0 != lb:  # 保留 -1/0/1
                    sid = int(line[0]) - 1  # 0-base
                    L_label[sid][c] = lb
                    if 1 == lb:
                    	pos_cnt += 1
        print("#{}: {}".format(class_name, pos_cnt))


print("- train-val label -")
proc_label(TRAIN_LABEL_P, "_trainval")
print("- test label -")
proc_label(TEST_LABEL_P, "_test")
sum_label = L_label.sum(0)
print("label statistics:", sum_label)
L_label = L_label.astype(np.uint8)
# np.save(join(P, "labels.l.npy"), L_label)
sio.savemat(join(P, "labels.l.mat"), {
    "labels": L_label}, do_compression=True)

print("--- 第二种方式:从 Annotations/ 提取 label ---")
# https://github.com/HCPLab-SYSU/SSGRL/blob/master/datasets/voc07dataset.py
L_anno = np.zeros((n_id, N_CLASS)) - 1  # 先设为 -1


def proc_annotation(path):
    """process by sample
    path: {TRAIN_ANNO_P, TEST_ANNO_P}
    """
    pos_cnt = {
    k: 0 for k in id_map.keys()}
    file_ls = os.listdir(path)
    for _f in file_ls:
        sid = file_key(_f) - 1
        DOMTree = minidom.parse(join(path, _f))
        root = DOMTree.documentElement
        objects = root.getElementsByTagName('object')
        for obj in objects:
            lb = 1
            if '1' == obj.getElementsByTagName('difficult')[0].firstChild.data:  # 保留 difficult
                # continue  # 忽略 difficult
                lb = 0
            class_name = obj.getElementsByTagName('name')[0].firstChild.data.lower()
            assert class_name in id_map
            c = id_map[class_name]
            # if 0 == L_anno[sid][c]:
            if 1 != L_anno[sid][c]:  # 保留 -1/0/1
                L_anno[sid][c] = lb
                if 1 == lb:
                	pos_cnt[class_name] += 1
    print("pos count:", pos_cnt)


print("- train-val annotation -")
proc_annotation(TRAIN_ANNO_P)
print("- test annotation -")
proc_annotation(TEST_ANNO_P)
sum_label = L_anno.sum(0)
print("label statistics:", sum_label)
L_anno = L_anno.astype(np.uint8)
# np.save(join(P, "labels.a.npy"), L_anno)
sio.savemat(join(P, "labels.a.mat"), {
    "labels": L_anno}, do_compression=True)

print("#diff:", (L_label != L_anno).astype(np.int8).sum())  # 0

Cloud Drive

链接:https://pan.baidu.com/s/1Mh_nX-y-ijvZEmy3lzTaNw,提取码:oq10
VOC 2007 baidu pan

References

  1. The PASCAL Visual Object Classes Challenge 2007
  2. 8.1.2 Classification Task Image Sets
  3. 2.1 Classification/Detection Image Sets
  4. SSGRL/datasets/voc07dataset.py
  5. 数据集:Pascal VOC 2007数据集分析
  6. ML-GCN/voc.py
  7. 压缩二进制numpy数据
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/HackerTom/article/details/106744252

智能推荐

selenuim自动化爬取汽车在线谷米爱车网车辆GPS数据爬虫-程序员宅基地

文章浏览阅读534次。#为了实时获取车辆信息,以及为了后面进行行使轨迹绘图,写了一个基于selelnium的爬虫爬取了车辆gps数据。#在这里发现selenium可以很好的实现网页解析和处理js处理#导包import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriver..._车载gps大数据库爬虫

java聊天室(实训项目)_java模拟聊天室私聊-程序员宅基地

文章浏览阅读2.3k次,点赞5次,收藏41次。这里是我们实训的一个关于java聊天室的项目,有需要的同学可以看看,私聊功能未完善。话不多说,直接上代码。服务器:package ChatRoom;import java.awt.Color;import java.awt.Component;import java.awt.EventQueue;import javax.swing.JFrame;import javax.swing.JSplitPane;import javax.swing.JPanel;import j.._java模拟聊天室私聊

Jmeter分部式部署(windows)_jmeter分部署window-程序员宅基地

文章浏览阅读830次,点赞3次,收藏8次。Jmeter分布式部署_jmeter分部署window

python 学习笔记 metaclass详解_modelmetaclass-程序员宅基地

文章浏览阅读2.2k次,点赞3次,收藏2次。python 元类 metaclass:metaclass 控制类的行为。当我们创建类的时候我们就可以通过这个类来创建对象实例,当然同样的,如果我们想要创建类,那么就必须根据这个metaclass来创建类,也就是说,我们需要先定义metaclass才能过创建类。1:Python中类本省就是对象,类之所以为类,就是因为类这个对象本身拥有创建对象的能力。于是我们可以对类进行1:将它赋值给一_modelmetaclass

ubuntu平台下实现C/C++开发环境(IDE)_ubuntu c++ ide-程序员宅基地

文章浏览阅读8.4k次,点赞2次,收藏4次。Linux 下搭建C/C++ 开发环境Linux 除了默认装了gcc 和文本编辑器外,没有可供利用的IDE ,当然这比windows 已经好多了,至少有个gcc ,学习在linux 下的编程,一般的高手都推荐就用以上这两个工具,在用个make,gdb 什么的就好了。但对于初学者,尤其是在windows 下用惯了VC,VB之类的IDE 的同志们来说,仅仅用命令行的方式,是在是有点打击热情,尤其是gdb ,几乎是把断点,程序之类的要全记在脑子里,出了错也不好改,找就找很长时间_ubuntu c++ ide

STM32F0xx移植EasyFlash_sfud sfud_flash_device_table-程序员宅基地

文章浏览阅读1.4k次。MCU: STM32F072FLASH: W25Q128库:HALSPI: SPI模式IDE: STM32CubeIDE 1.1.0裸机移植EasyFlash基于FAL(FLASH抽象层) ,FAL基于SFUD(Serial Flash Universal Driver) 串行 Flash 通用驱动库配置调试串口和SPI:移植SFUD:修改移植文件:/sfud/inc/sfud_cfg.h/sfud/port/sfud_port.c另外修改几个涉及到包_sfud sfud_flash_device_table

随便推点

php怎么做一个音乐播放器,音乐播放器的制作实例(html5)-程序员宅基地

文章浏览阅读428次。相关技能HTML5+CSS3(实现页面布局和动态效果)Iconfont(使用矢量图标库添加播放器相关图标)LESS (动态CSS编写)jQuery(快速编写js脚本)gulp+webpack(自动化构建工具,实现LESS,CSS,JS等编译和压缩代码)实现的功能播放暂停(点击切换播放状态)下一曲(切换下一首)随机播放(当前歌曲播放完自动播放下一曲)单曲循环(点击随机播放图标可切换成单曲循环)音量调..._qq音乐动态播放怎么弄php

鸿蒙应用开发 | 进度条(ProgressBar,Slider)的功能和用法_进度条的分割线-程序员宅基地

文章浏览阅读1.8k次。导语:大家好,我是你们的朋友 朋哥。上一篇原创文章 时间选择器,设置了时间选择控件。今天来说说进度条,鸿蒙中进度条分为两种 ProgressBar ,Slider 。提前说一下 鸿蒙进度条可是比Android强大多了。下面我们开始今天的文章,还是老规矩,通过如下几点来说:1,简介2,用到的属性3,实战简介ProgressBar , Slider用于显示内容或操作的进度。可以通过进度条查看一些功能操作的进度。使用场景:项目开发中 通过 设置数值改变进度条的样式..._进度条的分割线

深度学习语音分离|抽取必读论文、数据集、代码工具整理分享_深度学习 语言习惯提取-程序员宅基地

文章浏览阅读399次。语音分离(Speech Separation)这个问题来自于“鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。根据干扰的不同,语音分离任务可以分为三类:1、当干扰为噪声信号时,可以称为“语音增强”(Speech Enhancement)2、当干扰为其他说话人时,可以称为“多说话人分离”(Speaker Separation)3、当干扰为目标说话人自己声音的反射波时,可以称为“解混响..._深度学习 语言习惯提取

矩阵的特征值问题——幂法与反幂法-程序员宅基地

文章浏览阅读1.6k次。  最近一段时间写的程序需要解矩阵的特征值与特征向量,本来以为不是特别复杂的问题,由于问题规模比较大(矩阵大约需要15000*15000那么大,甚至更大)而且要计算的尽量快而变得异常复杂。当然用matlab是相当容易的,但要求使用C或者C++的程序......  我尝试了几种不同的方法,已经把自己搞的快糊涂了,在这里分几次总结一下:  最初的想法的使用幂法和反幂法来解,这也是因为对这样的方..._反幂法 雅可比 对比

通过adb shell进入安卓shell后如何退出?_如何从adb shell里面出来-程序员宅基地

文章浏览阅读1.4w次,点赞9次,收藏11次。通过adb shell进入安卓shell后如何退出?Ctrl+C无法退出shell;直接输入exit即可_如何从adb shell里面出来

./HelloWorld line 1: syntax error: "(" unexpected问题解决_./kconf/conf: 1: syntax error: "(" unexpected-程序员宅基地

文章浏览阅读1w次。在pc机上编译的程序,linux下执行时出现了这个错误:#./HelloWorld./HelloWorld line 1: syntax error: "(" unexpected这个错误是由于编译程序所使用的编译器是gcc,使用gcc编译的程序可以在pc机上运行而不能在开发板上运行;而要想程序在开发半上运行就需要使用编译器arm-linux-gcc进行编译