Image processing20190521 10377 1nftw5

Deep Learning and Image Recognition

By jasonky
  • Convolutional Neural Network (CNN)

    Convolutional Neural Network (CNN)
    Backpropagation Applied to Handwritten Zip Code Recognition
    Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel
    卷積類神經網路發明人Y. LeCun
    CNN Paper
  • Face Detection

    Face Detection
    Viola Paul and Michael Jones,
    此篇論文描述一種機器學習的方法用在人臉辨識(只能辨識出臉,不能辨識出是誰的臉)。
    論文三大突破:
    1. 整合式圖片(Integral image),把圖片拆成很多部分運算分析。
    2.AdaBoost learning algorithm,在一大張影像中找關鍵視覺特徵進行運算分析。
    3.複雜的分類器"cascade",可以快速排除影像背景。 Face Detection
  • SIFT&Object Recognition

    SIFT&Object Recognition
    David G. Lowe,
    Scale Invariant Feature Transform (SIFT) 尺度不變特徵變換下進行物件辨識。 Distinctive Image Features from Scale-Invariant Keypoints
  • Histogram of Gradients

    Histogram of Gradients
    Dalal Navneet and Bill Triggs,
    用長條狀去拼出一個人的影像,進而進行偵測。
    Histogram of Gradients
  • Spatial Pyramid Matching

    Spatial Pyramid Matching
    使用sub-region的概念,將一張圖分成多個區塊運算分析。 Spatial Pyramid Matching
  • PASCAL Visual Object Challenge

    PASCAL Visual Object Challenge
    從2006年舉辦到2012年,
    影像資料庫有20個類別,每個類別約有1000張圖片,
    有飛機、火車、人等類別。
    Website
  • Deformable part model Detection

    Deformable part model Detection
    Pedro Felzenszwalb, David McAllester and Deva Ramanan,
    將一張圖片中的物體,分成很多個小部分進行辨識。就算是這小部分有變形還是能夠辨識。
    Deformable part model Detection
  • ImageNet debuted at 2009 IEEE Conference on Computer Vision and Pattern Recognition

    ImageNet debuted at 2009 IEEE Conference on Computer Vision and Pattern Recognition
    ImageNet 首次以論文亮相
    Jia Deng ; Wei Dong ; Richard Socher ; Li-Jia Li ; Kai Li 李凱; Li Fei-Fei 李飛飛 ImageNet Paper
  • Lin CVPR

    Lin CVPR
    Yuanqing Lin, Fengjun Lv,
    Lin CVPR
  • AlexNet

    AlexNet
    2012 ImageNet-ILSVRC影像辨識大賽中,Alex Krizhevky使用上百萬張的影像與上兆的神經連結進行深度學習創造出AlexNet,這是在ILSVRC中第一次使用深度學習進行影像辨識。
    Alexnet層數不多僅有八層,架構相當類似Yann LeCun用於識別手寫數字的LeNet,但是Alexnet首度使用了下列幾項影響Deep learning深遠的技術,且沿用至今:
    1. 使用ReLu取代了Sogmoid及Tanh。
    2. 使用Dropout技術。
    3. 使用Image augmentation技術。
    4. Pooling採用max pooling(取max值)。
    5. 使用兩片GTX 580 GPU,針對1,500萬張相片、22,000種類別,運行一個星期訓練完成。 AlexNet Paper
  • ZFnet

    ZFnet
    ZFnet來自New York University的Matthew Zeiler及Rob Fergus,架構是由Alexnet修改而來,差異在於:
    1. 不同於Alexnet第一層捲積使用11×11的filter,ZFnet改用較小的7×7 filter以保留更多的原始圖片資訊輸入。
    2. 隨著層數加深,應用更多數量的filters。
    3. ZFnet亦使用Relu作為activate 但Loss function則使用cross-entropy loss。
    4. ZFnet提供一種稱為Deconvolutional Network的可視化技術,可反向倒過來將特徵應對到像素,以協助瞭解Deep learning黑箱中的運作。
    5. Alexnet是使用了Augmentation技術加上驚人的ImageNet total 1,500萬張圖片訓練出來,而ZFnet則僅使用ImageNet的130萬張圖片,在一片GTX580 GPU上訓練12天完成,其準確率便已大幅超過AlexNet。
    ZFnet Paper
  • GoogLeNet

    GoogLeNet
    2014年Google提出的GoogLeNet,注意它是由Goog加上LeNet的縮寫而成(為了向LeNet表示敬意)。雖然GoogLeNet的層數相當多,但是其運算效率卻相當好,使用的超參數數量硬是比起Alexnet少了12倍,準確率卻反而更高。
    1. GoogLeNet的創新之處在於大量使用了下圖所謂的「Inception」,它是一種network in network的架構,針對輸入資料同時併行不同filter尺寸的卷積處理和max pooling,最後再進行級聯,這讓系統在同一層便能取得不同level的特徵。據統計,採用Inception比起未採用的網路快了2~3倍。
    2. 透過network in network的方式讓網路層數更深。
    3. 加上ReLu activate function,讓模型增加更多的非線性化。
    4. 以GAP(Global Average Pooling)取代了傳統的FC(Full Connected layer),可提昇model的效率並減少資源使用。 GoogLeNet
  • ResNet

    ResNet
    全名是Residual Neural Network,由微軟研究院所開發,中文為殘差網路。它的特點是神經網路可以是跳躍方式略過下一層而直達下下層執行。
    Resnet架構的提出主要是為了解決當神經網絡的深度持續增加時所出現的Degradation問題,亦即準確率隨著深度增加後,到了某個深度後會達到飽和無法提昇,若再持續增加深度反而會導致準確率下降,其原因不在over-fitting,而是增加training layers反而帶來的training errors 。
    此外,透過Residual block,梯度值可以直接跳回到前幾層的layer有效的減低了消失的問題,所以構建層次更深效率更好的網路model對於ResNet不再是難事,例如2015年初露頭角的ResNet其深度是152層,足足是GoogLeNet 22層的七倍,但Top-5 error rate卻大幅降低了47%。(ResNet-50, ResNet-101, and ResNet-152等名稱,後方的數字是代表其層數。)
    ResNet Paper
  • GBD-Net

    GBD-Net
    2016的ILSVRC競賽是由中國的CUImage(商湯科技和港中文)提出的GBD-Net拿下,事實上,該年度ILSVRC其餘類型的所有競賽也都是由中國隊伍所囊括。GBD-Net是基於ResNet-269進行擴充修改,雖然貴為2016的狀元,但由於僅僅較前一年的ResNet提昇了2.2%,且也無值得稱頌的創新概念與亮點,因此GBD-Net無法如同歷屆其它model一樣成為經典之作。
    GBD-Net
  • SeNet

    SeNet
    2017年的ILSVRC競賽是由新加坡國立大學與奇虎360 合作的SeNet以2.3% top-5 error rate取得冠軍,錯誤率較前兩年的ResNet減少了36%。
    SeNet全稱是Squeeze-and-Excitation Networks,它會依據loss function的學習來調整不同屬性的特徵權重,讓有效的feature map權重加大,無效或效果小的feature map權重變小,使得模型訓練達到更好的結果。這些動作SeNet稱為「feature re-calibration」,包含了Squeeze → Excitation→ Scaling 這三個程序。
    如果您看到SE開頭的深度網路名稱,例如SE-ResNet或SE-Inception,便知道那是ResNet或GoogLeNet與SeNet整合的models。 SeNet Paper
  • ImageNet ILSVRC Historical Achievements

    ImageNet ILSVRC Historical Achievements
    ILSVR(ImageNet Large Scale Visual Recognition Competition)是由ImageNet所舉辦的年度大規模視覺識別挑戰賽,自2010年開辦以來,全球各知名AI企業莫不以取得此項比賽最高名次為殊榮,以宣告其圖像辨識技術已達登峰之境。剛開始是由ML及SVM等技術逐鹿,然而就在2012,深度學習之父Hinto的高徒Alex Krizhevsky首次採用深度學習架構參與此競賽,並以極大的差距擊敗了使用Support Vector Machine技術Xerox Research Centre Europe隊伍,自始以後,揭開了Deep learning吸引全球關注嶄露頭角的布幔。
    直至2017年最後一屆ILSVR,影像辨識"詞"的技術已經達到超越人類水準,下一步則是要讓機器說出一個句子。