Intelligent Agents: Technology and Applications

Intelligent Agents: Technology and Applications Multi-agent Learning IST 597B Spring 200 3 John Yen

Learning Objectives ,[object Object],[object Object],[object Object]

Multi-Agent Learning ,[object Object],[object Object],[object Object]

Examples ,[object Object],[object Object],[object Object],[object Object]

Examples ,[object Object],[object Object]

Predator/Pray (Pursuit) Domain ,[object Object],[object Object],[object Object],[object Object]

Predator/Pray (Pursuit) Domain

Taxonomy of MAS ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

1. Homogenous, Non-Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

1. Homogenous, Non-Communicating Agents ,[object Object],[object Object]

1. Homogenous, Non-Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

1: Reactive vs. Deliberative Agents ,[object Object],[object Object]

2: Local vs. Global Perspective ,[object Object],[object Object],[object Object]

3: Modeling of Other Agents ,[object Object],[object Object],[object Object],[object Object]

4: How to Affect Others ,[object Object],[object Object],[object Object],[object Object],[object Object]

4: How to Affect Others ,[object Object],[object Object],[object Object],[object Object]

5: Further Learning Opportunities ,[object Object],[object Object]

2. Heterogeneous, Non-Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

2. Heterogeneous, Non-Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object]

1: Benevolence vs. Competitiveness ,[object Object],[object Object],[object Object]

1: Benevolence vs. Competitiveness ,[object Object]

1: Benevolence vs. Competitiveness

1: Benevolence vs. Competitiveness ,[object Object],[object Object],[object Object],[object Object]

1: Benevolence vs. Competitiveness ,[object Object],[object Object]

2: Fixed vs. Learning Agents ,[object Object],[object Object],[object Object]

2: Fixed vs. Learning Agents ,[object Object],[object Object]

3: Modeling of other agents ,[object Object],[object Object],[object Object],[object Object]

4: Resource Management ,[object Object],[object Object],[object Object],[object Object]

5: Social Conventions ,[object Object],[object Object],[object Object]

3. Homogenous, Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

4. Heterogeneous, Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object]

4. Heterogeneous, Communicating Agents ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

1: Understanding Each Other ,[object Object],[object Object],[object Object],[object Object],[object Object]

2: Planning Communication Acts ,[object Object],[object Object],[object Object]

3: Negotiation ,[object Object],[object Object],[object Object]

3: Negotiation ,[object Object],[object Object]

4: Commitment/Decommitment ,[object Object],[object Object],[object Object],[object Object],[object Object]

Q Learning ,[object Object],[object Object],[object Object],[object Object]

The Q value R: Reward P xy : The probability of reaching state y from x by taking action action alpha. Gamma: Discount factor (between 0 and 1). V*(y): The expected total discounted return starting in y following the policy *. Policy: a sequence of actions.

The Expected Total Discount Return V for a state is the maximal Q value among all actions that can be taken at the state (following the rest of the policy).

Learning Rule for Q value Alpha: learning rate

and for all and Do Forever: the current state that maximizes over all Carry out action in the world. Let the short term reward be , and the new state be For each state-action pair do ,[object Object],1. 2. (a) (b) (c) (d) (e) (f) (g) (h)

Probability for the agent to select action a i based on Q values T: “temperature” parameter to determine the randomness of decisions.

Towards Collaborative and Adversarial Learning A Case Study in Robotic Soccer Peter Stone & Manuela Veloso

Introduction ,[object Object],[object Object],[object Object],[object Object],[object Object]

Parameters ,[object Object],[object Object],[object Object],[object Object]

Fixed Ball Motion ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Varying Ball Speed ,[object Object]

Varying Ball’s Trajectory ,[object Object],[object Object]

Moving the Goal ,[object Object],[object Object]

Cooperative Learning ,[object Object],[object Object],[object Object]

References ,[object Object],[object Object],[object Object]

Intelligent Agents: Technology and Applications

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (9)

Similar to Intelligent Agents: Technology and Applications

Similar to Intelligent Agents: Technology and Applications (20)

More from butest

More from butest (20)

Intelligent Agents: Technology and Applications