Sequential Decision Making in Normative Environments
Fecha
2012
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Rey Juan Carlos
Resumen
Normative multiagent systems are a vibrant field of research that has received much
attention in recent years. In particular, a broad variety of norm-aware agent models
and architectures have been developed, aimed at implementing the normative reasoning
of agents with different levels of autonomy and in different types of environments.
However, approaches that allow autonomous agents to generate complex plans in dynamic
and non-deterministic normative environments are rare, as they are notoriously
difficult to set-up and hard to evaluate in a quantitative manner.
This thesis introduces the Normative Markov Decision Processes (NMDPs), an extension
of the Markov Decision Processes (MDPs) for modelling norm-aware rational
agents acting in normative stochastic environments, as well as two utilitarian models
of normative reasoning, pertaining to self-interested and norm-compliant agents.
While the self-interested agents prioritize the maximization of utilities over the compliance
with norms, the norm-compliant agents prioritize the norm-abiding behaviour
over the utility maximization.
Combining MDPs with normative agent models revealed a significant synergistic
potential. On the one hand, norms help shaping the behaviour of rational normative
agents with an MDP-based world model, fostering coordination in a multiagent setting,
and achieving computational leverage by pruning the search space for the agents¿
policy construction. On the other hand, MDPs are a principled way for norm-aware
agents to model the uncertainty in their environment, and to provide effective general
algorithms to determine rational action plans in such a setting. This, in turn, makes
it possible to perform quantitative analyses both at agent and at system level.
To validate the approach, several experiments were performed in a simulated motion
environment, measuring the performance of different populations of agents in
relation to specific controlled settings. Furthermore, by means of a case study in the
domain of aerospace aftermarkets, the capability of the NMDP approach to model
relevant properties of a real-world scenario and to reason about contracts within such
a setting has been demonstrated. Los sistemas multiagentes normativos son un vibrante campo de investigación que ha
recibido bastante atención en los recientes años. En particular, una amplia variedad
de modelos normativos de agente fueron desarrollados con la intención de implementar
razonamientos normativos en agentes con diferentes niveles de autonomía en diferentes
tipos de entorno. Todavía, propuestas que permitan que agentes autónomos generen
planos complejos en entornos dinámicos y no deterministas son raras, una vez que
ellos son notablemente difíciles de estructurar y evaluar en términos cuantitativos.
La presente tesis introduce los Normative Markov Decision Processes (NMDPs),
una extensión de los Markov Decision Processes (MDPs) para modelar agentes racionales
normativos operando en entornos estocásticos regulados por normas, bien como
dos modelos de raciocinio normativo utilitario, perteneciendo a agentes egoístas (selfinterested)
y agentes que siempre cumplen las normas (norm-compliant). Mientras
los agentes self-interested priorizan el incremento de la utilidad, los agentes normcompliant
priorizan el comportamiento normativo.
La combinación de MDPs con modelos normativos de agente ha revelado un significante
potencial sinérgico entre esas dos áreas de investigación. Por un lado, las
normas nos permiten moldear el comportamiento de los agentes racionales basados
en MDPs, impulsar la cooperación en un ámbito multiagente, y acotar el espacio
de búsqueda en la construcción de los planes con la intención de reducir el tiempo
necesario para computar un plan óptimo. Por otro lado, los MDPs facilitan la representación
de conocimiento incierto y el desarrollo de algoritmos generales efectivos
para determinar planos de acción en entornos no deterministas. Eso, en contrapartida,
hace posible las evaluaciones cuantitativas, tanto de los agentes como del sistema.
Para validar nuestra abordaje, hemos realizado varios experimentos en un entorno
de movilidad simulado, en el cual hemos medido el desempeño de diferentes poblaciones
de agentes en relación a determinados parámetros controlados. Además, por
medio de un estudio de caso en un dominio de mercados secundarios aeroespaciales,
hemos demostrado la aptitud de los NMDPs para modelar propiedades relevantes de
un escenario del mundo real y razonar sobre contratos.
Descripción
Tesis Doctoral leída en la Universidad Rey Juan Carlos de Madrid en 2012. Director de la Tesis: Sascha Ossowski