Định nghĩa Reward Path là gì?
Reward Path là Phần thưởng Đường dẫn. Đây là nghĩa tiếng Việt của thuật ngữ Reward Path - một thuật ngữ thuộc nhóm Technology Terms - Công nghệ thông tin.
Độ phổ biến(Factor rating): 5/10
Trong học tăng cường, một con đường thưởng là một con đường mà một đại lý mất để có được phần thưởng tích lũy. Thuật ngữ này là không thực sự được sử dụng rất nhiều vào riêng của mình trong học máy, nhưng các khái niệm về phần thưởng là trung tâm của nhiều thuật toán máy học và Markov mô hình quá trình ra quyết định.
Xem thêm: Thuật ngữ công nghệ A-Z
Giải thích ý nghĩa
Một quá trình quyết định Markov chạy một đại lý thông qua một chuỗi các tiểu bang và phân tích kết quả. Q-học hay các hoạt động tăng cường học tập chạy mô hình liên tục, tìm kiếm phần thưởng và thích nghi với mô hình thích hợp. Vì vậy, bạn có thể nói rằng con đường thưởng là con đường mà tạo ra những phần thưởng nhất.
What is the Reward Path? - Definition
In reinforcement learning, a reward path is a path that an agent takes in order to obtain cumulative rewards. This terminology isn't really used very much on its own in machine learning, but the concept of reward is central to many machine learning algorithms and Markov decision process models.
Understanding the Reward Path
A Markov decision process runs an agent through a sequence of states and analyzes the result. Q-learning or reinforcement learning practices run the model continually, looking for rewards and adapting the model appropriately. So you could say that the reward path is the path that generates the most reward.
Thuật ngữ liên quan
- Reinforcement Learning (RL)
- Deep Learning
- Deep Reinforcement Learning (Deep RL)
- Machine Learning
- Q-learning
- Markov Decision Process (MDP)
- Partially Observable Markov Decision Process (POMDP)
- Artificial Intelligence (AI)
- Data Science
- Computer Science
Source: Reward Path là gì? Technology Dictionary - Filegi - Techtopedia - Techterm