C語言中文網 目錄
TensorFlow
1 TensorFlow是什么
2 TensorFlow安裝和下載
3 第一個TensorFlow程序
4 TensorFlow程序結構
5 TensorFlow常量、變量和占位符
6 TensorFlow矩陣基本操作
7 TensorFlow TensorBoard數據流圖可視化
8 TensorFlow代碼自動升級為1.0版本
9 TensorFlow XLA
10 TensorFlow指定CPU和GPU設備
11 TensorFlow與深度學習
12 TensorFlow常用Python擴展包
13 回歸算法有哪些
14 TensorFlow損失函數
15 TensorFlow優化器
16 TensorFlow csv文件讀取數據
17 TensorFlow實現簡單線性回歸
18 TensorFlow實現多元線性回歸
19 TensorFlow邏輯回歸處理MNIST數據集
20 感知機與神經網絡
21 TensorFlow常用激活函數(6種)
22 TensorFlow實現單層感知機
23 TensorFlow實現反向傳播算法
24 TensorFlow多層感知機實現MINIST分類
25 TensorFlow多層感知機函數逼近
26 TensorFlow超參數
27 TensorFlow Keras
28 CNN卷積神經網絡
29 三維卷積神經網絡預測MNIST數字
30 卷積神經網絡分類圖片
31 遷移學習
32 DeepDream網絡
33 TensorFlow實現文本情感分析
34 VGG網絡濾波器
35 VGGNet、ResNet、Inception和Xception
36 預建深度學習提取特征及實現
37 TensorFlow實現InceptionV3
38 TensorFlow WaveNet聲音合成
39 TensorFlow視頻分類(6種方法)
40 RNN循環神經網絡
41 神經機器翻譯(seq2seq RNN)
42 注意力機制(基于seq2seq RNN)
43 RNN訓練模型并生成文本
44 RNN循環神經網絡實現預測比特幣價格
45 主成分分析法(PCA)
46 k均值聚類算法
47 SOM自組織映射法
48 受限玻爾茲曼機訓練
49 推薦系統的實現(基于RBM)
50 基于DBN實現情緒檢測
51 自編碼器
52 標準自編碼器
53 稀疏自編碼器
54 去燥自編碼器
55 卷積自編碼器
56 堆疊自編碼器
57 強化學習
58 OpenAI Gym安裝和使用
59 全連接神經網絡實現玩Pac-Man游戲
60 Q learning實現Cart-Pole平衡游戲
61 DQN算法(深度Q網絡)
62 David Silver策略梯度算法
63 深度學習在移動端的應用
64 Android移動端部署TensorFlow mobile
65 iPhone移動端部署TensorFlow mobile
66 移動端優化TensorFlow代碼
67 GAN生成式對抗網絡
68 GAN生成式對抗網絡虛構MNIST圖像
69 DCGAN虛構MNIST圖像
70 DCGAN虛構名人面孔和其他數據集
71 VAE變分自編碼器
72 CapsNet膠囊網絡
73 TensorFlow分布式
74 TensorFlow GPU的安裝和使用
75 TensorFlow分布式
76 TensorFlow分布式訓練MNIST分類器
77 TensorFlow Serving運行Docker容器
78 TensorFlow分布式在谷歌云平臺運行
79 TensorFlow分布式在谷歌CloudML運行
80 TensorFlow分布式在Microsoft Azure上運行
81 TensorFlow分布式在Amazon AWS上運行
首頁 > TensorFlow 閱讀:109

什么是強化學習算法

2016 年 3 月,谷歌公司 DeepMind 團隊的 AlphaGo 以 4 比 1 戰勝第 18 屆世界圍棋冠軍李世石,這是一場具有歷史意義的比賽。


圖 1 圍棋落子位置種類

讓電腦學會下圍棋是一件十分困難的事情,它有如圖 1 所示這么多種可能的落子位置。在圍棋中獲勝不可能只靠簡單的蠻力,它需要技巧、創造力,以及類似職業棋手的直覺。

通過融合深度強化學習網絡和最先進的樹搜索算法,AlphaGo 實現了這一創舉。本章將介紹強化學習以及強化學習的算法案例。

第一個問題就是什么是強化學習,它與前幾章介紹的監督學習和無監督學習有什么區別?

喂養過寵物的人都知道,想要訓練寵物,最有效的方法就是當它做得好的時候獎勵它,做得不好的時候懲罰它。強化學習就是一種類似的學習算法。神經網絡算法采取一系列動作(a),它將會引起一系列與環境有關的狀態(s)變化...它就可以得到獎勵或者懲罰。

以一只狗為例,狗是這里的主體,狗主動采取動作,那么對應地做出反應,比如扔給它一塊骨頭作為獎賞。


圖 2

注意,我們的大腦也有一組位于前腦底部的皮層下核,稱為基礎神經節。根據神經系統科學中的論述,基礎神經節負責動作的選擇,也就是說,它負責給出在任一給定時應該從幾種可執行動作中選擇執行哪一個動作。

算法的目的是最大化獎勵和減少懲罰,在這個決策過程中存在眾多困難,其中最重要的就是如何最大化未來回報,也就是未來信度分配問題。算法會根據某些策略(π)決定它的動作,同時,也會根據與環境的交互來學習該策略(π)。

策略學習算法很多,后續我們將對其中幾種進行研究,不同的策略學習算法都會通過試錯的過程來學習得到最優策略(π*),這其中必須要與環境進行交互。在這里選用提供了眾多不同環境的 OpenAI Gym 作為交互的環境。

從本節開始,將介紹強化學習的基本概念,并且假設你已經熟知馬爾可夫決策過程、折扣因子以及價值函數(狀態值和動作值)。

這里定義一次迭代為游戲的一次運行,比如數獨游戲的一次運行。通常,強化學習算法都需要多次迭代,來學習能夠得到最大化獎勵的最優策略。

通過強化學習可以讓智能體在沒有游戲先驗知識的基礎上學會打游戲,甚至在游戲中戰勝人類。

精美而實用的網站,提供C語言C++STLLinuxShellJavaGo語言等教程,以及socketGCCviSwing設計模式JSP等專題。

Copyright ?2011-2018 biancheng.net, 陜ICP備15000209號

底部Logo