Dans la longue histoire du développement technologique humain, l'automatisation a toujours été la principale force motrice, aidant les humains à se libérer d'environnements de travail complexes, dangereux et fastidieux. De l'irrigation par roue hydraulique au début de l'ère agricole aux moteurs à vapeur de l'ère industrielle, les humains ont constamment recherché des technologies d'automatisation plus avancées pour se libérer d'un travail ardu.
Avec l'avènement de l'ère de l'information, les logiciels sont utilisés comme outil de traitement de l'information. , Les fondements du stockage et de la communication sont devenus une partie indissociable de la production et de la vie humaines, ce qui a conduit à la formation de la technologie d'automatisation des processus robotiques (RPA). Il coordonne plusieurs logiciels dans un flux de travail solidifié (Workflow) via des règles compilées manuellement et interagit avec les logiciels pour obtenir une exécution efficace en simulant l'interaction humaine.
Dans ce graphique, nous comparons l'automatisation des processus robotiques (RPA) avec l'automatisation des processus d'agent (APA)
RPA (Robotic Process Automation) utilise des robots logiciels ou « BOT » pour simuler et effectuer des tâches répétitives et régulières. pour libérer des ressources humaines et améliorer l’efficacité du travail. Le champ d’application du RPA est très large. De nombreuses entreprises (notamment les banques, les compagnies d'assurance, les industries manufacturières, de vente au détail et autres) utilisent généralement des robots RPA pour automatiser les tâches routinières et fastidieuses, telles que la saisie, l'extraction et le traitement des données. En automatisant les tâches, la RPA peut réduire considérablement les taux d'erreur et être capable d'effectuer des tâches 24 heures sur 24, 7 jours sur 7, améliorant ainsi la fiabilité et la réactivité de l'entreprise.
Selon des études de marché, le marché de la RPA connaît une croissance rapide et connaît un grand succès. Gartner prévoit que les revenus du marché mondial de la RPA atteindront 3,3 milliards de dollars d'ici 2023, avec un taux de croissance de 17,5 %. Cela montre que les entreprises ont une demande et une reconnaissance très élevées pour la RPA
Cependant, la RPA ne peut remplacer que le travail humain simple et mécanique, et certains processus complexes reposent encore sur du travail manuel :
Figure 2 Comparaison de l'efficacité et de l'intelligence entre la RPA et l'APA
Heureusement, l'émergence récente de la technologie des agents à grand modèle de langage (Large Language Model based Agents, LLM-based Agents) dans le domaine de L'IA peut donner La technologie d'automatisation crée de nouvelles possibilités. Est-il possible d'introduire la flexibilité de la technologie Agent dans le domaine de la RPA pour réduire davantage la participation humaine ?
Les recherches de l’équipe explorent le nouveau paradigme d’automatisation « Agentic Process Automation » (APA) à l’ère des grands agents modèles. Par rapport à la RPA traditionnelle, dans le paradigme APA, l'agent peut compléter de manière autonome la construction du flux de travail en fonction des besoins humains. En même temps, il peut identifier les parties des besoins humains qui nécessitent une prise de décision dynamique, les orchestrer automatiquement dans le flux de travail. et exécuter le flux de travail lorsque le flux de travail est exécuté. Cette partie prend activement en charge l'exécution du flux de travail pour terminer les décisions complexes correspondantes.
Afin d'explorer la possibilité de l'APA, ce travail de recherche a mis en œuvre un agent automatisé ProAgent, qui peut recevoir des instructions humaines et créer des flux de travail en générant du code. DataAgent et ControlAgent sont également introduits dans le flux de travail pour mettre en œuvre un traitement de données et une logique complexes. contrôle. Les recherches de ProAgent démontrent la faisabilité de l'APA à l'ère des agents à grande échelle et révèlent également de nouvelles possibilités pour la technologie d'automatisation à l'ère du LLM.
Dans RPA, un workflow est une structure graphique composée d'une série d'appels d'outils : les nœuds représentent les appels d'outils atomiques (tels que Gmail, Twitter, Google Sheets) et les bords représentent la séquence logique d'exécution ( rejoindre, brancher, boucle). Un flux de travail contient généralement toutes les connaissances préalables sur une tâche ou un type de tâche, y compris les chemins de résolution de problèmes et la logique de gestion des exceptions. Par conséquent, l'écriture de workflows fixes est souvent très stable, approfondie et efficace
Figure 3 Exemple de langage de description de flux de travail d'agent
Dans ProAgent, puisque LLM lui-même est pré-entraîné aux données de code et a acquis de solides capacités de code, cette étude utilise un langage de description de flux de travail d'agent basé sur du code Description de flux de travail d'agent Langue. Ce langage utilise JSON pour organiser et gérer les données dans le flux de travail, et utilise la syntaxe Python pour implémenter le contrôle logique du flux de travail. Les sauts, boucles, etc. dans le flux de contrôle sont directement représentés via la syntaxe Python, et les outils du flux de travail sont les suivants. L'appel est encapsulé en tant que fonction Python. Ainsi, pour ProAgent, les tâches de création de workflow sont transformées en tâches de génération de code. Lors de la réception d'instructions humaines, ProAgent écrit le langage de description de flux de travail agent correspondant, réalisant ainsi une construction de flux de travail automatisée.
Figure 4 Exemple de langage de description de flux de travail d'agent combinant DataAgent et ControlAgent
Les tâches complexes de la vie réelle impliquent généralement une prise de décision dynamique, des règles de contrôle logiques simples de style Python et une organisation des données de style JSON. la forme est impuissante face à des demandes flexibles, et un agent doit être introduit à ce moment-là. Par conséquent, ce travail de recherche définit plus en détail deux opérations Agent :
1. DataAgent : Pour un besoin de traitement de données complexe, le langage naturel sera utilisé pour décrire les tâches de traitement lorsque le workflow est construit, puis initialisé lors de l'exécution. Un DataAgent qui traitera et terminera de manière autonome la tâche de traitement des données sur la base de la description en langage naturel.
2. ControlAgent : pour les règles de contrôle logiques difficiles à exprimer par des règles, le langage naturel est utilisé pour décrire la logique de contrôle lors de la construction du flux de travail, puis un ControlAgent est initialisé au moment de l'exécution, ce qui est décrit. en fonction du langage naturel, sélectionnez indépendamment les branches qui doivent être exécutées ultérieurement dans le flux de travail.
ProAgent utilise le mode ReACT pour créer un flux de travail étape par étape, qui contient quatre étapes de création de flux de travail :
L'exemple montre la figure 5 du processus de construction du flux de travail ProAgent
De plus, afin d'optimiser l'effet de ProAgent, plusieurs techniques d'optimisation sont introduites :
Le processus d'exécution du workflow est basé sur l'interpréteur Python. Lorsqu'un workflow est donné, la fonction mainWorkflow correspondante est utilisée comme point d'entrée pour l'exécution, démarrant ainsi l'ensemble du processus d'exécution. Le processus d'exécution suit les règles d'exécution du code Python, c'est-à-dire qu'il est exécuté ligne par ligne dans l'ordre. Une fois la fonction mainWorkflow renvoyée, l'exécution du workflow est terminée avec succès
Afin de vérifier la faisabilité de l'automatisation des processus agentiques, cette étude a utilisé OpenAI GPT-4 comme modèle de base et une plate-forme RPA open source n8n comme support pour implémenter le ProAgent mentionné ci-dessus. Dans le même temps, nous avons conçu une tâche qui nécessite à la fois flexibilité et efficacité : il s'agit d'un scénario commercial typique, qui nécessite d'extraire les données de bénéfices de divers secteurs d'activité à partir de Google Sheets et de déterminer les actions ultérieures selon que l'entreprise est 2B ou 2C. Une fois que le secteur d’activité est déterminé comme étant 2C, un message est envoyé au canal Slack. Pour les métiers de 2B, un email est envoyé au responsable concerné, qui comprend une évaluation du métier et un bref aperçu de la rentabilité.
Figure 6 Affichage des instructions de tâche
Le contenu qui doit être réécrit est le suivant : Pour cette tâche, tout d'abord, il s'agit d'une tâche répétitive. Pour plusieurs lignes de produits, le même flux de traitement doit être. adopté. Deuxièmement, il est très difficile de distinguer si un secteur d'activité est 2C ou 2B, et cela nécessite une prise de décision dynamique de la part de l'agent pour déterminer le flux de travail ultérieur. Enfin, la rédaction de l'email d'évaluation du métier demande une certaine intelligence, l'intervention de l'Agent est donc nécessaire
Dans la génération ProAgent, pour cette tâche, un workflow contenant quatre opérations atomiques, un DataAgent et un ControlAgent a été écrit. Le processus global est représenté grossièrement dans la figure ci-dessous :
Figure 7 Affichage du processus de construction du workflow ProAgent
On peut voir que ProAgent termine automatiquement le processus de construction du workflow en écrivant son propre code, sans impliquer de travail manuel. intervention. Lorsqu'il est nécessaire de déterminer si le secteur d'activité est 2B ou 2C, ProAgent introduit ControlAgent pour effectuer le jugement. L'invite de ControlAgent est définie sur « Décider si le secteur d'activité est toC ou toB ». Lorsque le secteur d'activité est 2B, ProAgent introduit également un DataAgent, dont la tâche est de "Rédiger un email du secteur d'activité de profit, accompagné de votre suggestion", utilisant ainsi l'intelligence de l'agent pour écrire en fonction de la situation réelle de différents métiers du courrier.
Une fois le flux de travail écrit et solidifié, le flux de travail se branche automatiquement vers différentes logiques en fonction de différentes données pour un traitement efficace des données.
Figure 8 Affichage du processus d'exécution du flux de travail ProAgent
Lors du traitement des données du secteur d'activité 2C, ControlAgent peut déterminer le type du secteur d'activité actuel en fonction de la description du secteur d'activité et choisir d'utiliser l'outil Slack pour communication. Lors du traitement des données du secteur d'activité 2B, DataAgent peut rédiger un e-mail et l'envoyer à la boîte aux lettres du responsable correspondant
Cette recherche propose un nouveau paradigme d'automatisation - l'automatisation des processus agentiques, adapté à l'ère du modèle à grande échelle. Par rapport à la technologie traditionnelle d'automatisation des processus robotiques, Agentic Process Automation peut automatiser la construction de flux de travail et réaliser l'automatisation des décisions dynamiques pendant l'exécution du flux de travail. La recherche a également permis de développer ProAgent et de démontrer expérimentalement la faisabilité et le potentiel des agents à grande échelle en matière d'automatisation. Je crois qu'à l'avenir, la technologie des agents à grand modèle aidera les humains à atteindre un niveau d'automatisation plus élevé et à se libérer du travail pénible
Actuellement, l'équipe de recherche a mené de nombreuses études dans le domaine direction d'agents de grands modèles. Comprend :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!