我们一直在努力

万力论文怎么样(万力与佳通轮胎怎么样)

笔者最近认识的朋友万力博士(主页:https://www.cs.nyu.edu/~wanli/ ),2009到2015年在纽约大学攻读博士,研究方向神经网络在视觉方面的应用,目前在Google语音组工作。在”机器.算法.人”群里面做了一次精彩分享,这次是他博士研究学习到的东西。题目是Joint Training of Neural Network and Structured Model. 给大家做个总结,确实专业术语比较艰深,不明觉厉的同学收藏吧。

万力论文怎么样(万力与佳通轮胎怎么样)插图

万力论文怎么样(万力与佳通轮胎怎么样)插图1

什么是computer vision和vision难在什么地方。博士后期主要是就是做检测:也就是给一个图片。我们要给出什么物体出现在图中,并且给出一个框框来框出物体。这个主要的难度就在于,不知道什么物体(object of interst) 出现(也可以什么物体都没有),和它们都在哪里。
举个栗子来说,在1000-class classification 里面,你随便猜测一个标签。猜到的几率是1e-3。但是你在检测,你随便画一个框框,然后说这个是某个物体,你猜对的几率是<1e-6

万力论文怎么样(万力与佳通轮胎怎么样)插图2

我认为的理想的模型是一个混合模型:就是神经网络模型+带结构化的模型
这样的话人类知识就可以放进神经网络。这个混合模型的训练套路也是很简单: 1)初始化神经网络 2) 用神经网络的feature来训练后面的模型 3)把后面结构话的模型变为神经网络的layer 4)混合到一起训练

万力论文怎么样(万力与佳通轮胎怎么样)插图3

第一个模型就是lda +nn的模型用来做分类

万力论文怎么样(万力与佳通轮胎怎么样)插图4

这个模型就是把图模型(graphical model)的输入接上神经网络(nn)的输出。这样graphical model就直接用nn的feature而不是raw feature.

万力论文怎么样(万力与佳通轮胎怎么样)插图5

这个就是一个混合模型的例子: (a) input-> nn (b) nn-> graphical model 
(c)是把graphical model转化成nn的layer然后接到下面的,构成一个大的网络

万力论文怎么样(万力与佳通轮胎怎么样)插图6

这个就是定义一些特殊的nn layer使得inference的时候能够估计那个上面的graphical model inference process

万力论文怎么样(万力与佳通轮胎怎么样)插图7

一个简单的例子: 
一个2维数据,然后是4个label, 5个latent class。
左一图: 注意两个框框在最左边的图是一个类。 我们要用mixture gaussian 来discriminate 这4个类。
中间图: 上nn 的pre-train然后用nn的feature来train mixture gaussian的时候,我们看到了好多error。
右边的图: end-to-end training 的时候。mixture gaussian可以很好的“分开” ( p(y|x) 而不是p(x) ), 5个latent clusters 。 你看nn就可以把data transform 到上面想要的形状。

万力论文怎么样(万力与佳通轮胎怎么样)插图8

real image scene classification 结果

万力论文怎么样(万力与佳通轮胎怎么样)插图9

万力论文怎么样(万力与佳通轮胎怎么样)插图10

NYU pascal2011 detection winner 的模型。我是和一个纽约大学的博士后做的,叫: Leo Zhu (朱珑),还有一个叫陈远浩。现在LEO是《依图》公司的老板。他2012年底回国创业了。现在做的很棒的 :)

万力论文怎么样(万力与佳通轮胎怎么样)插图11

就是pascal detection model: 
用一个 树 来解释一个物体: root -> 3x3 part , part -> 2x2 subpart. 然后这些part, sub-part 可以在 inference 的时候自由移动。这个就是机器视觉 里面的标准DPM的扩展。

万力论文怎么样(万力与佳通轮胎怎么样)插图12

我们先用普通的机器视觉feature: HoG, SIFT, LBP 等等。然后我们上svm 不同的feature 用不同的kernel. (这个都是标准做法)

万力论文怎么样(万力与佳通轮胎怎么样)插图13

检测后处理:
在检测里面,每一个框框都对应的一个model score。然后我们一个物体只留一个框。也就是说左图的紫色框框要被拿掉,如果蓝色框框model response大于紫色的。

万力论文怎么样(万力与佳通轮胎怎么样)插图14

Iterative NMS就是说把nms 过程推广成k-means的算法。包括了算中点,和算assignment。这个算法在pascal 2011的时候提高了2-3个点。非常有效。

万力论文怎么样(万力与佳通轮胎怎么样)插图15

所以我们总结下pascal 2011 NYU (detection winner)算法:
1 image feature: sift+hog+lbp
2 hierarchical part-based model
3 improved NMS

万力论文怎么样(万力与佳通轮胎怎么样)插图16

然后我们开始拓展这个算法:
1. 先把feature 换成convent
2. 然后把part-based model 和convent连起来
于是就有了我们slide 27: end-to-end integration of convent, dpm, 和nms

万力论文怎么样(万力与佳通轮胎怎么样)插图17

典型的convnet结构做classification: (conv, pool, non-linear) * k + fully connect layer + softmax

万力论文怎么样(万力与佳通轮胎怎么样)插图18

dpm的例子,一个物体用root+part表示,在inference 的时候part可以随便基于root动。但是传统的DPM只能用hog。

万力论文怎么样(万力与佳通轮胎怎么样)插图19

把两个模型的长处连起来了: convnet: power feature, dpm: represent object part explicitly 
如果要连接,我们要解决如下问题:
1. convnet的output怎么去连dpm
2. dpm怎么写成nn 的layer.如何定义fprop/bprop/update

万力论文怎么样(万力与佳通轮胎怎么样)插图20

我们的系统: 
1. 建立image pyramid,就是把原来的图片按比例缩小,得到一堆图片
2. 每一张resized image都进convent
3. convnet feature进dpm
4. nms 基于dpm output,就是response pyramid.

万力论文怎么样(万力与佳通轮胎怎么样)插图21

反过来,基于response pyramid grad (后面会讲怎么从fprop和label算),然后反过来推grad。dpm layers -> convent 。然后update gradient

万力论文怎么样(万力与佳通轮胎怎么样)插图22

一张图知道了,然后大的想法也是和开始提出的一样:
1 pre-train nn, dpm
2 2. convent dpm -> neural network layers
3 define loss function based on nms
4 perform end-to-end training

万力论文怎么样(万力与佳通轮胎怎么样)插图23

convnet结构,同样的网络可以进不同大小的image,然后root, part的filter都是基于shared。

万力论文怎么样(万力与佳通轮胎怎么样)插图24

Def Layer 描述part deformation from root
其中每一个part有一个default location (i,j)在inference 的时候可以move (dx, dy)。花费的代价是cost(dx,dy,w)其中这个参数也是可以学的。

万力论文怎么样(万力与佳通轮胎怎么样)插图25

tree representation of AND-OR model,描述mixture model of obj with root and part.
比如,一个“人”的模型是可以包括1)人的全身2)人的半身,那么就是or node做的
然后每一个人的模型都是一个root+ 很多的可以def的part。这个就是and node
其中and, or, def我们都可以定义fprop/bprop/update那么就是写成了神经网络的layer

万力论文怎么样(万力与佳通轮胎怎么样)插图26

 loss function, 对于一个人包括绿色框,蓝色框和红色。这个情况下蓝色才是对的。但是红色和绿色的框不是negative example因为在有些情况下(这有半身的人)。红色和绿色可以是positive exmaple。对于传统的detection算法就是完全不用绿色和红的的框。

万力论文怎么样(万力与佳通轮胎怎么样)插图27

万力论文怎么样(万力与佳通轮胎怎么样)插图28

这里就是要注意对每一个image slice 做fprop然后一起算gradient,然后bprop。然后一个网络对每一个image slice都要做fprop/bprop。所以最后的gradient就是所有gradient 之和g_i

万力论文怎么样(万力与佳通轮胎怎么样)插图29

可以看出几个优势: 
1.convnet feature > HoG
2. root+part model > root model
3. NMS loss function 比传统的loss好 (第2个column是没有做convnet update的结果)
4. end-to-end的效果最好 NMS loss+FT就是end-to-end training. (第3个column)

万力论文怎么样(万力与佳通轮胎怎么样)插图30

万力论文怎么样(万力与佳通轮胎怎么样)插图31

其中蓝色是true label。绿色是root filter, 黄色是part filter position

万力论文怎么样(万力与佳通轮胎怎么样)插图32

万力论文怎么样(万力与佳通轮胎怎么样)插图33

总结:
hybrid model = nn+ structured model
Training 1) pre-trian both 2) convert structured model into nn layers 3) perform end-to-end training
然后这个想法被应用在image classifciation = nn + lda, object detection = nn + dpm + nms上了。

万力论文怎么样(万力与佳通轮胎怎么样)插图34

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xiaokang360@qq.com举报,一经查实,本站将立刻删除。
文章名称:《万力论文怎么样(万力与佳通轮胎怎么样)》
分享到: 更多 (0)

长征人论文网 更专业 更方便

联系我们联系我们