強化機器學習-基礎介紹 - beplay赞助,beplay网站登录

你可能見過機器人做一些平凡的工作，比如打掃房間或給人們倒啤酒。然而，這些操作通常是由人遠程控製的。這些機器人在身體上能夠按照給予它們的一組指令做事，但它們缺乏自己決定和做事的基本智能。嵌入智能是一個軟件挑戰，而強化學習作為機器學習的一個子領域，為發展智能機器人提供了一個有前途的方向。
強化學習關注的是智能體如何使用反饋來評估其行動，並在給定的環境中計劃未來的行動，以使結果最大化。在強化學習中，代理被授權決定如何執行任務，這使得它不同於其他任務機器學習智能體盲目地遵循給定的一組指令的模型。這台機器是自動工作的，而不是根據一組預先寫好的命令。因此，強化學習指的是那些算法，它們基於自身行為的反饋來工作，並決定如何完成複雜的任務。
這些算法在做出正確決定時得到獎勵，在做出錯誤決定時受到懲罰。在有利的條件下，他們可以做出超人的表現。這是一個關於強化學習的綜合教程以及一個案例研究。

加強學習的重要性

我們需要技術援助來簡化生活、提高生產力和做出更好的商業決策。為了實現這一目標，我們需要智能機器。雖然為簡單的任務編寫程序很容易，但我們需要一種方法來構建執行複雜任務的機器。要實現這一目標，就要創造出能夠自主學習的機器。強化學習就是這樣。

強化學習基礎

強化機器學習的基礎包括:

Input，一個初始狀態，模型從它開始一個操作
輸出——對於一個給定的問題可能有很多可能的解決方案，這意味著可能有很多輸出
深度強化學習的訓練是基於輸入的，用戶可以根據輸出決定對模型進行獎勵或懲罰。該模型基於最大獎勵來決定最佳解決方案。
該模型考慮獎勵和懲罰，並通過它們繼續學習。

強化學習:類型

強化有兩種不同的類型:積極的和消極的

正強化

當一個給定的事件具有積極的影響時，例如行為頻率和強度的增加，強化被認為是積極的。
正強化有以下優點:

它提供了最大可能的性能
它能維持很長一段時間的變化

正強化也有一個缺點——如果強化太多，它可能會導致過載，削弱結果。

負強化

當一個動作由於消極條件而停止或回避時，強化被認為是消極的。

深度強化學習

深度強化學習使用一個訓練集來學習，然後將其應用於一組新的數據。它與強化學習有點不同，強化學習是一個動態的學習過程，通過對其行為的持續反饋，並相應地調整未來的行動，以獲得最大的獎勵。
應用領域

遊戲
機器人
電子商務
自動駕駛汽車
工業自動化
股價預測
新聞
設計培訓係統
像穀歌這樣的網絡搜索引擎
照片標簽應用
垃圾郵件檢測應用程序
天氣預報應用

強化學習中的定義

強化學習中有幾個概念和定義。主要原因如下:
代理: Agent是采取行動的人。例如，超級馬裏奧在電子遊戲中是一個代理。
行動(A):它是任何智能體能夠做出的所有可能動作的集合。它是不言自明的，代理可以從一組可能的操作中進行選擇。
折現係數為了與延遲滿足作鬥爭，我們需要讓眼前的回報大於未來的回報。折扣因子用於此，從而在代理中應用短期滿足。
環境正如這個詞所暗示的，“環境”是行為主體所經過的環境。環境將代理的動作和當前狀態視為輸入，並為處於下一個狀態的代理授予獎勵，這就是輸出。
狀態:這是指代理自身所處的當前情況——例如特定的位置或動作。狀態將代理與其他相關事物聯係起來，如障礙、獎勵、敵人和工具。
獎勵:這表示對代理所采取的行動所給出的反饋。反饋是對代理行為的評估，並決定它是成功還是失敗。
政策:這表示代理決定下一步行動的策略。每個策略都是基於當前狀態采取的。它的目標是做那些能帶來最高獎勵的行動。
價值:表示期望長期回報到當前狀態，與短期回報相對。
q值或行動值:它與價值的概念非常相似，除了它也考慮當前的行為。q值是將狀態和行動映射到獎勵的值。軌跡:這表示在一個序列中排列的幾個狀態以及可能影響這些狀態的行為。
從上麵給出的反饋循環中，一個智能體根據它所處的環境做某種動作，這就構成了狀態。智能體的動作和環境被考慮，然後生成一個反饋，它決定該動作是成功還是失敗。在不同的情況下，目標可能是不同的。

電子遊戲的目標可能是以最高分數完成遊戲。因此，在遊戲中獲得的每一分都會影響代理的後續行動。
現實世界中的目標可能是在兩點之間移動，例如，從A點到B點。機器人向B點移動的每一個小單位都可以算作點。

強化機器學習的利弊

優點

它有助於解決傳統技術無法解決的非常複雜的問題
它會帶來很難實現的長期結果。
這個模型的工作原理類似於人類的學習模式，因此，在每一個動作中都表現出完美。
該模型能夠從錯誤中學習並糾正它們。所以重複同樣錯誤的可能性很小。
它從經驗中學習，因此不需要數據集來指導它的行動。
它為情境-行動關係的智能檢查提供了範圍，並在給定的上下文中創造了理想的行為，從而導致最大的表現。

缺點

過多的強化可能會導致過載，從而削弱結果。
強化學習更適合解決複雜問題，而不是簡單問題。
它需要大量的數據並涉及大量的計算。
維護成本高

強化學習麵臨的挑戰

如前所述，強化學習使用反饋方法來采取最佳的可能行動。這使得它適合於為許多複雜的問題尋找解決方案，並且在許多領域都有應用。但它也麵臨著許多挑戰。主要的一個挑戰是創建模擬環境，這在很大程度上取決於所選擇的任務。在國際象棋或圍棋遊戲中，模型必須執行超人的任務，環境很簡單。然而，當你考慮到一個現實生活中的應用程序，比如設計一個自動駕駛汽車模型，你需要一個高度逼真的模擬器時，這就有點複雜了。這是至關重要的，因為你要在街上開車。該模型必須能夠計算出如何以及何時刹車，以及如何避免碰撞。在虛擬世界中，這可能不是問題，但當你需要進入現實世界時，它就變成了一個難以破解的問題。當您將模型從安全的訓練環境轉移到現實世界時，事情就變得棘手了。
另一個挑戰在於調整和擴展控製代理的神經網絡。這很複雜，因為與網絡交流的唯一方式是通過獎勵和懲罰。與此相關的主要挑戰是，這可能會導致災難性的遺忘，換句話說，這可能會導致一些舊知識在獲得新知識的同時被抹去。
另一個挑戰是，有時代理會按原樣執行任務，這意味著模型無法實現最佳輸出。例如，該模型使跳躍者像袋鼠一樣跳躍，而不是引導代理做我們期望代理做的事情——比如走路。
最後但並非最不重要的是，可能會出現一個問題，即代理隻是優化獎勵，但並不打算執行任務。開放AI視頻就是一個例子。在這個視頻中，代理學會了在沒有完成比賽的情況下獲得獎勵。
毫無疑問，強化機器學習具有改變世界的巨大潛力。這項尖端技術的最大優勢在於，它能夠像人類一樣，通過反複試驗自我學習。它會犯錯誤，改正錯誤，從中吸取教訓，避免以後再犯同樣的錯誤。它可以與其他機器學習技術相結合，以獲得更好的性能。難怪它被用於許多現實世界的應用，如機器人，遊戲等等。這是將創造性和創新結合起來完成一項任務的最佳方式。強化學習無疑有潛力在未來的發展中成為一項革命性的技術人工智能。