Cliquez ici pour vous connecter avec
ou
Mot de passe oublié?
Apprendre encore plus
29 décembre 2020
par le laboratoire de recherche de l’armée
Les opérations multi-domaines, le futur concept opérationnel de l’armée, nécessitent des agents autonomes dotés de composants d’apprentissage pour opérer aux côtés du combattant. Les recherches de la nouvelle armée réduisent l’imprévisibilité des politiques actuelles d’apprentissage par renforcement de la formation afin qu’elles soient plus applicables dans la pratique aux systèmes physiques, en particulier aux robots terrestres.
Ces composants d’apprentissage permettront aux agents autonomes de raisonner et de s’adapter aux conditions changeantes du champ de bataille, a déclaré le chercheur de l’armée, le Dr Alec Koppel de l’US Commandement du développement des capacités de combat de l’armée, maintenant connu sous le nom de DEVCOM, Laboratoire de recherche de l’armée
Le mécanisme d’adaptation et de replanification sous-jacent consiste en un renforcement des politiques fondées sur l’apprentissage Il est essentiel de rendre ces politiques réalisables de manière efficace pour faire du concept opérationnel du MDO une réalité, a-t-il déclaré.
Selon Koppel, les méthodes de gradient de politique dans l’apprentissage par renforcement sont la base d’algorithmes évolutifs pour les espaces continus, mais les techniques existantes ne peuvent pas intégrer des objectifs de prise de décision plus larges tels que la sensibilité au risque, les contraintes de sécurité, l’exploration et la divergence par rapport à
La conception de comportements autonomes lorsque la relation entre la dynamique et les objectifs est complexe peut être abordée avec l’apprentissage par renforcement, qui a récemment attiré l’attention pour résoudre des tâches auparavant insolubles telles que les jeux de stratégie comme le go, les échecs et les jeux vidéo tels que Atari et Starcraft II, Koppel m’a dit
La pratique dominante, malheureusement, exige une complexité d’échantillons astronomiques, comme des milliers d’années de jeu simulé, a-t-il déclaré. Cet exemple de complexité rend de nombreux mécanismes d’entraînement courants inapplicables aux paramètres de manque de données requis par le contexte MDO pour le véhicule de combat de nouvelle génération, ou NGCV.
“Pour faciliter l’apprentissage par renforcement pour MDO et NGCV, les mécanismes de formation doivent améliorer l’efficacité et la fiabilité des échantillons dans des espaces continus”, a déclaré Koppel “Grâce à la généralisation des programmes de recherche de politiques existants aux services publics généraux, nous franchissons un pas vers l’élimination des barrières d’efficacité existantes des échantillons de pratiques dominantes en matière d’apprentissage par renforcement.”
Koppel et son équipe de recherche ont développé de nouveaux schémas de recherche de politiques pour les services publics généraux, dont la complexité de l’échantillon est également établie Ils ont observé que les schémas de recherche de politiques qui en résultent réduisent la volatilité de l’accumulation de récompenses, permettent une exploration efficace de domaines inconnus et un mécanisme pour intégrer l’expérience antérieure.
“Cette recherche contribue à une augmentation du théorème classique du gradient de politique dans l’apprentissage par renforcement”, a déclaré Koppel “Il présente de nouveaux schémas de recherche de politiques pour les services publics généraux, dont la complexité de l’échantillon est également établie Ces innovations ont un impact sur l’US Armée de terre grâce à leur activation d’objectifs d’apprentissage par renforcement au-delà du rendement cumulatif standard, tels que la sensibilité au risque, les contraintes de sécurité, l’exploration et la divergence par rapport à un”
“Réduire la volatilité de l’accumulation de récompenses, s’assurer que l’on explore un domaine inconnu de manière efficace, ou intégrer l’expérience antérieure, tous contribuent à briser les barrières d’efficacité des échantillons existants de la pratique courante dans l’apprentissage par renforcement en réduisant la quantité d’échantillonnage aléatoire nécessaire afin d’achever l’optimisation des politiques “, a déclaré Koppel
L’avenir de cette recherche est très prometteur et Koppel a consacré ses efforts à rendre ses découvertes applicables à une technologie innovante pour les soldats sur le champ de bataille.
“Je suis optimiste que les robots autonomes équipés d’un apprentissage par renforcement seront en mesure d’aider le combattant dans l’exploration, la reconnaissance et l’évaluation des risques sur le futur champ de bataille”, a déclaré Koppel «Que cette vision se concrétise est essentielle à ce qui motive les problèmes de recherche auxquels je consacre mes efforts”
La prochaine étape de cette recherche consiste à intégrer les objectifs de prise de décision plus larges activés par les utilitaires généraux dans l’apprentissage par renforcement dans des paramètres multi-agents et à étudier comment les paramètres interactifs entre les agents d’apprentissage par renforcement donnent lieu à un raisonnement synergique et antagoniste entre les équipes.
Selon Koppel, la technologie issue de cette recherche sera capable de raisonner sous incertitude dans des scénarios d’équipe
Merci d’avoir pris le temps d’envoyer votre opinion aux éditeurs de Science X
Soyez assuré que nos rédacteurs surveillent de près chaque commentaire envoyé et prendront les mesures appropriées Vos opinions sont importantes pour nous
Nous ne garantissons pas les réponses individuelles en raison du volume de correspondance extrêmement élevé
Votre adresse e-mail est utilisée uniquement pour indiquer au destinataire qui a envoyé l’e-mail Ni votre adresse ni l’adresse du destinataire ne seront utilisées à d’autres fins Les informations que vous entrez apparaîtront dans votre e-mail et ne seront conservées par Tech Xplore sous aucune forme
Ce site utilise des cookies pour faciliter la navigation, analyser votre utilisation de nos services et fournir du contenu provenant de tiers
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique de confidentialité
et conditions d’utilisation
Research, United States Army Research Laboratory, Robot
Actualités – États-Unis – La recherche de l’armée conduit à un modèle d’entraînement plus efficace pour les robots
Titre associé :
– La La recherche militaire mène à un modèle d’entraînement plus efficace pour les robots
Source: https://techxplore.com/news/2020-12-army-effective-robots.html