Cliquez ici pour vous connecter avec

ou

Mot de passe oublié?

Apprendre encore plus

29 décembre 2020

par le laboratoire de recherche de l’armée

Les opérations multi-domaines, le futur concept opérationnel de l’armée, nécessitent des agents autonomes dotés de composants d’apprentissage pour opérer aux côtés du combattant. Les recherches de la nouvelle armée réduisent l’imprévisibilité des politiques actuelles d’apprentissage par renforcement de la formation afin qu’elles soient plus applicables dans la pratique aux systèmes physiques, en particulier aux robots terrestres.

Ces composants d’apprentissage permettront aux agents autonomes de raisonner et de s’adapter aux conditions changeantes du champ de bataille, a déclaré le chercheur de l’armée, le Dr Alec Koppel de l’US Commandement du développement des capacités de combat de l’armée, maintenant connu sous le nom de DEVCOM, Laboratoire de recherche de l’armée

Le mécanisme d’adaptation et de replanification sous-jacent consiste en un renforcement des politiques fondées sur l’apprentissage Il est essentiel de rendre ces politiques réalisables de manière efficace pour faire du concept opérationnel du MDO une réalité, a-t-il déclaré.

Selon Koppel, les méthodes de gradient de politique dans l’apprentissage par renforcement sont la base d’algorithmes évolutifs pour les espaces continus, mais les techniques existantes ne peuvent pas intégrer des objectifs de prise de décision plus larges tels que la sensibilité au risque, les contraintes de sécurité, l’exploration et la divergence par rapport à

La conception de comportements autonomes lorsque la relation entre la dynamique et les objectifs est complexe peut être abordée avec l’apprentissage par renforcement, qui a récemment attiré l’attention pour résoudre des tâches auparavant insolubles telles que les jeux de stratégie comme le go, les échecs et les jeux vidéo tels que Atari et Starcraft II, Koppel m’a dit

La pratique dominante, malheureusement, exige une complexité d’échantillons astronomiques, comme des milliers d’années de jeu simulé, a-t-il déclaré. Cet exemple de complexité rend de nombreux mécanismes d’entraînement courants inapplicables aux paramètres de manque de données requis par le contexte MDO pour le véhicule de combat de nouvelle génération, ou NGCV.

“Pour faciliter l’apprentissage par renforcement pour MDO et NGCV, les mécanismes de formation doivent améliorer l’efficacité et la fiabilité des échantillons dans des espaces continus”, a déclaré Koppel “Grâce à la généralisation des programmes de recherche de politiques existants aux services publics généraux, nous franchissons un pas vers l’élimination des barrières d’efficacité existantes des échantillons de pratiques dominantes en matière d’apprentissage par renforcement.”

Koppel et son équipe de recherche ont développé de nouveaux schémas de recherche de politiques pour les services publics généraux, dont la complexité de l’échantillon est également établie Ils ont observé que les schémas de recherche de politiques qui en résultent réduisent la volatilité de l’accumulation de récompenses, permettent une exploration efficace de domaines inconnus et un mécanisme pour intégrer l’expérience antérieure.

“Cette recherche contribue à une augmentation du théorème classique du gradient de politique dans l’apprentissage par renforcement”, a déclaré Koppel “Il présente de nouveaux schémas de recherche de politiques pour les services publics généraux, dont la complexité de l’échantillon est également établie Ces innovations ont un impact sur l’US Armée de terre grâce à leur activation d’objectifs d’apprentissage par renforcement au-delà du rendement cumulatif standard, tels que la sensibilité au risque, les contraintes de sécurité, l’exploration et la divergence par rapport à un”

“Réduire la volatilité de l’accumulation de récompenses, s’assurer que l’on explore un domaine inconnu de manière efficace, ou intégrer l’expérience antérieure, tous contribuent à briser les barrières d’efficacité des échantillons existants de la pratique courante dans l’apprentissage par renforcement en réduisant la quantité d’échantillonnage aléatoire nécessaire afin d’achever l’optimisation des politiques “, a déclaré Koppel

L’avenir de cette recherche est très prometteur et Koppel a consacré ses efforts à rendre ses découvertes applicables à une technologie innovante pour les soldats sur le champ de bataille.

“Je suis optimiste que les robots autonomes équipés d’un apprentissage par renforcement seront en mesure d’aider le combattant dans l’exploration, la reconnaissance et l’évaluation des risques sur le futur champ de bataille”, a déclaré Koppel «Que cette vision se concrétise est essentielle à ce qui motive les problèmes de recherche auxquels je consacre mes efforts”

La prochaine étape de cette recherche consiste à intégrer les objectifs de prise de décision plus larges activés par les utilitaires généraux dans l’apprentissage par renforcement dans des paramètres multi-agents et à étudier comment les paramètres interactifs entre les agents d’apprentissage par renforcement donnent lieu à un raisonnement synergique et antagoniste entre les équipes.

Selon Koppel, la technologie issue de cette recherche sera capable de raisonner sous incertitude dans des scénarios d’équipe

Merci d’avoir pris le temps d’envoyer votre opinion aux éditeurs de Science X

Soyez assuré que nos rédacteurs surveillent de près chaque commentaire envoyé et prendront les mesures appropriées Vos opinions sont importantes pour nous

Nous ne garantissons pas les réponses individuelles en raison du volume de correspondance extrêmement élevé

Votre adresse e-mail est utilisée uniquement pour indiquer au destinataire qui a envoyé l’e-mail Ni votre adresse ni l’adresse du destinataire ne seront utilisées à d’autres fins Les informations que vous entrez apparaîtront dans votre e-mail et ne seront conservées par Tech Xplore sous aucune forme

Ce site utilise des cookies pour faciliter la navigation, analyser votre utilisation de nos services et fournir du contenu provenant de tiers
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique de confidentialité
et conditions d’utilisation

Research, United States Army Research Laboratory, Robot

Actualités – États-Unis – La recherche de l’armée conduit à un modèle d’entraînement plus efficace pour les robots
Titre associé :
– La La recherche militaire mène à un modèle d’entraînement plus efficace pour les robots

Source: https://techxplore.com/news/2020-12-army-effective-robots.html

En s’appuyant sur ses expertises dans les domaines du digital, des technologies et des process , CSS Engineering vous accompagne dans vos chantiers de transformation les plus ambitieux et vous aide à faire émerger de nouvelles idées, de nouvelles offres, de nouveaux modes de collaboration, de nouvelles manières de produire et de vendre.

CSS Engineering s’implique dans les projets de chaque client comme si c’était les siens. Nous croyons qu’une société de conseil devrait être plus que d’un conseiller. Nous nous mettons à la place de nos clients, pour aligner nos incitations à leurs objectifs, et collaborer pour débloquer le plein potentiel de leur entreprise. Cela établit des relations profondes et agréables.

Nos services:

  1. Création des sites web professionnels
  2. Hébergement web haute performance et illimité
  3. Vente et installation des caméras de vidéo surveillance
  4. Vente et installation des système de sécurité et d’alarme
  5. E-Marketing

Toutes nos réalisations ici https://www.css-engineering.com/en/works/