Com controlar màquines i robots amb gestos i visió artificial

  • La combinació de visió artificial, sensors avançats i deep learning permet traduir gestos de mans i cos en ordres precises per a màquines i robots.
  • Hi ha solucions que van des de càmeres i HMI industrials fins a wearables d'alta precisió i sensors dedicats com el PAJ7620 per a projectes educatius.
  • El control gestual aporta interacció intuïtiva, millora de seguretat i higiene i treball a distància encara que encara afronta reptes d'il·luminació, variabilitat humana i soroll.
  • La seva integració en automoció, sanitat, robòtica col·laborativa, videojocs i llars intel·ligents apunta a un futur on manejar màquines amb gestos serà una cosa quotidiana.

controlar màquines amb gestos

Controlar màquines amb gestos ha passat de ser un recurs de ciència ficció a una realitat que ja està en cotxes, robots, dispositius mèdics, videojocs o vivendes intel·ligents. Cada cop més sistemes són capaços d'entendre una mà aixecada, un gir de canell o un simple moviment del braç i transformar-lo en una ordre concreta sense que hàgim de tocar una pantalla, un comandament o un teclat.

Aquesta nova forma d‟interacció es recolza en dos grans pilars: la visió artificial i els sensors avançats combinats amb intel·ligència artificial. Gràcies a models de deep learning, càmeres RGB, sensors de profunditat, wearables d'alta precisió i algorismes molt fins per filtrar el soroll, avui és possible pilotar drones, guiar cobots, manejar llums o navegar per un sistema d'infoentreteniment amb un gest natural i còmode fins i tot en entorns plens de vibracions o moviment.

Què és exactament el control gestual i per què està enlairant-se

tecnologies de control per gestos

Quan parlem de reconeixement o control per gestos ens referim a la capacitat d'una màquina per “entendre” moviments humans (de mans, braços o del cos sencer) i traduir-los a accions digitals. En comptes de prémer un botó o tocar una pantalla, n'hi ha prou amb un gest prèviament definit per llançar una ordre.

En molts sistemes moderns, sobretot en els que depenen de càmeres, el focus és a les mans: les mans es detecten a la imatge, es fa seguiment del seu moviment, se n'analitza la forma o la posició dels dits i, a partir d'aquí, es classifica el gest dins un conjunt conegut per activar una acció concreta.

Per aconseguir-ho, s'entrenen models de visió artificial amb grans conjunts de dades d'imatges i vídeos etiquetats amb gestos diferents. Com més variades són les dades d'entrenament (persones diferents, condicions de llum diverses, fons complexos, mans amb guants, etc.), millor generalitza el model i més fiable és el reconeixement en entorns reals.

En paral·lel, han sorgit solucions que opten per sensors portables i wearables —com guants tàctils amb Arduino— col·locats al canell o integrats a la roba, capaços de capturar microvariacions de pressió, acceleració i orientació del braç. En aquests casos, el gest s'interpreta a partir dels senyals dels sensors, sense necessitat de dependre tant de la càmera o de les condicions d'il·luminació.

Tipus de gestos: estàtics, dinàmics i gestos quotidians

tipus de gestos per controlar màquines

En els sistemes d'interacció humà-màquina, els gestos se solen separar a gestos estàtics i gestos dinàmics. Aquesta distinció és clau perquè condiciona la manera com es dissenyen els models d'IA i els sensors necessaris.

Els gestos estàtics són postures fixes de la mà o del cos. Exemples típics: polze cap amunt, mà oberta en senyal d'alt, signe de la pau o un puny tancat. En no implicar moviment, en la majoria dels casos es poden reconèixer a partir d'una sola imatge o d'un instant concret de senyal al wearable.

Els gestos dinàmics, en canvi, depenen de com es mou la mà al llarg del temps: saludar, lliscar el braç cap a un costat, agitar la mà per passar de pantalla o traçar un cercle a l'aire per pujar o baixar volum. Aquí el sistema ha d'analitzar una seqüència de fotogrames o mostres del sensor per comprendre la trajectòria i la velocitat del gest.

Als dispositius més avançats, com alguns wearables de recerca, s'arriba a mesurar microgests molt fins gràcies a sensors flexibles d'alta resolució, amb precisió al voltant de 0,01 graus dorientació. Això permet distingir variacions de canell gairebé imperceptibles i augmentar així el repertori de gestos possibles sense necessitat d'equips voluminosos o laboratoris controlats.

El paper de la visió artificial i les tasques clau de l'IA

Molts dels sistemes que controlen màquines amb gestos es recolzen en algorismes de visió artificial executats en temps real. Des de càmeres RGB estàndard, sensors de profunditat o càmeres de temps de vol, la màquina pot veure el que fa lusuari i reaccionar a linstant sense que aquest hagi de portar equips addicionals.

Models moderns, com les famílies tipus YOLO i altres arquitectures de deep learning, permeten realitzar en paral·lel tasques com la detecció i el seguiment d'objectes, l'estimació de la postura de la mà o la segmentació píxel a píxel. A la pràctica, les tasques de visió més freqüents en control gestual són:

  • Detecció dobjectes: localitzar on són les mans a cada fotograma, normalment dibuixant caixes delimitadores. Així el sistema es concentra a la zona rellevant i redueix el soroll del fons.
  • Seguiment d'objectes: mantenir la identitat de cada mà al llarg del temps. Això és imprescindible per a gestos dinàmics i per evitar confusions si hi ha diverses persones en escena.
  • Estimació de postura: extreure punts clau de la mà (iemes, artells, canell) per construir un “esquelet” simplificat que captura la forma i la curvatura dels dits, ideal per distingir gestos similars però amb posicions de dits diferents.
  • Segmentació d'instàncies: separar les mans del fons a nivell de píxel i diferenciar cada mà (o cada persona) fins i tot quan se solapen o apareixen molt juntes.

En un sistema real aquestes tasques solen combinar-se en un mateix flux. Primer es detecten les mans, després se'n fa seguiment, després s'estima la postura quan cal detall fi i, si l'escenari és complex o hi ha moltes persones, es recorre també a segmentació per millorar-ne la precisió.

A sobre d'aquesta capa de visió artificial se situa el mòdul de classificació de gestos, que pren com a entrada la seqüència de posicions o la forma de la mà i decideix quin gest s'està fent. Finalment, un altre mòdul de programari tradueix aquest gest a una ordre entenedora per a la màquina: pausar un vídeo, moure un robot, acceptar una trucada o encendre una llum.

Wearables d'alt rendiment per controlar robots i màquines

A més de les càmeres, estan guanyant pes els dispositius wearables especialitzats per a control gestual. Un exemple rellevant és el treball d'un equip de la Universitat de Califòrnia a San Diego (UCSD), que ha desenvolupat un wearable capaç de transformar moviments subtils del cos en ordres fiables per a robots i màquines en entorns molt dinàmics.

Aquest dispositiu es col·loca al canell o s'integra a la màniga d'una peça i combina sensors flexibles basats en components químics i nanotecnològics amb algoritmes daprenentatge profund que filtren el soroll en temps real. Així, fins i tot quan lusuari es mou amb brusquedat o està envoltat de vibracions, el sistema és capaç dextraure el gest rellevant i mantenir un control estable.

La clau és que la IA se centra en separar els gestos intencionats del moviment involuntari. Mentre una persona camina, corre o puja escales, el wearable elimina automàticament aquesta “contaminació” del senyal i es queda només amb la informació útil per manejar drones, robots submarins, dispositius domèstics o braços robòtics.

La latència és un altre punt crític en aquest tipus de solucions: l'equip d'UCSD ha aconseguit que el sistema processi les dades sensorials i generi l'ordre a menys de 100 mil·lisegons, una cosa essencial per a aplicacions en temps real com el pilotatge de robots mòbils o l'assistència física a través d'exosquelets.

Gràcies a la gran precisió dels seus sensors (capacitats per detectar variacions d'orientació extremadament petites) i l'enfocament de tolerància al soroll, aquests wearables poden reconèixer fins a unes 20 classes de gestos diferents amb taxes d'encert superiors al 95%, fins i tot sota vibracions i moviments bruscos típics d'entorns industrials o militars.

Control gestual a HMI: pantalles tàctils, indústria i sanitat

En l'àmbit de les interfícies home-màquina (HMI), el control gestual està canviant la manera com operaris i usuaris es comuniquen amb les màquines. En molts casos es combina amb pantalles tàctils, però aportant una capa extra d'interacció sense contacte que fa lexperiència més natural i flexible.

En automoció, per exemple, cada cop més vehicles incorporen gestos per interactuar amb el sistema d'infoentreteniment o certes funcions de l'habitacle. Ajustar el volum, acceptar una trucada, canviar de pista o moure's pels menús es pot fer amb un simple gest de la mà a l'aire, cosa que ajuda que el conductor mantingui més la vista a la carretera i redueixi el temps d'interacció amb la pantalla.

En automatització industrial, les HMI amb suport de gestos permeten que un treballador controleu màquines complexes amb moviments senzills, sense necessitat de prémer botons físics o tocar panells que es puguin contaminar. Això és especialment interessant en sectors com l'alimentari o el farmacèutic, on la higiene és fonamental.

Dins l'entorn sanitari, els gestos es fan servir per permetre interacció mans lliures amb equips mèdics. Un cirurgià pot, per exemple, manipular imatges radiològiques durant una intervenció sense tocar la pantalla i reduir el risc de contaminació creuada. També sorgeixen aplicacions en rehabilitació, on els pacients fan gestos que el sistema avalua per guiar exercicis i monitoritzar la recuperació d'habilitats motores.

Aquesta mateixa lògica s'aplica a l'electrònica de consum: telèfons, tauletes, televisors i altaveus intel·ligents incorporen funcions basades en moviment de mans per complementar el tacte i la veu. Fer lliscar, pessigar, “tocar” a l'aire o fer un gest de stop es converteixen en accions reconeixibles per pausar contingut, avançar, retrocedir o canviar daplicació.

Robòtica col·laborativa i control gestual a la indústria

En entorns de fabricació moderna els robots col·laboratius (cobots) estan dissenyats per compartir espai amb persones sense tanques de seguretat. En aquest escenari, el control per gestos és una eina molt potent perquè els operaris guiïn el robot de manera intuïtiva ia distància, millorant seguretat i ergonomia.

Un exemple pràctic el trobem en solucions on s'entrenen models de visió artificial per reconèixer gestos simples com obrir la mà, tancar el puny, assenyalar o fer un polze cap amunt o avall. Cadascun daquests gestos sassocia a una ordre: iniciar moviment, parar, canviar de direcció, confirmar una acció, etc.

Empreses com Siemens han demostrat aquests sistemes en centres d'innovació com el Digital Experience Center de Barcelona. Si escau, el control gestual del robot s'integra amb controladors industrials avançats (com SIMATIC S7-1500) i plataformes de visualització tipus WinCC Unified, de manera que el mateix concepte es pot adaptar a diferents models de braç robòtic.

L'operari es col·loca davant del robot col·laboratiu i, mitjançant gestos preentrenats, envia ordres que el controlador interpreta com a ordres de moviment. L'ús de machine learning i visió artificial en temps real garanteix que gestos molt comuns (obrir el palmell, tancar el puny, apuntar en una direcció) es llegeixin correctament encara que l'entorn sigui una fira, un taller amb múltiples persones o una línia de producció amb un cert desordre visual.

Aquest tipus de demostradors no només il·lustren els avantatges de seguretat (no cal tocar el robot ni acostar-se a panells de control), sinó que també serveixen per reduir la barrera d'entrada: qualsevol persona, fins i tot sense formació avançada en programació, pot entendre ràpidament com ordenar al robot allò que ha de fer.

Integració de veu, gestos i visió artificial en robots intel·ligents

Més enllà del gest pur, alguns centres tecnològics estan treballant a interfícies multimodals que combinen veu, gestos i visió artificial. Tekniker, per exemple, ha desenvolupat solucions basades en deep learning sobre imatges i processament de llenguatge natural per facilitar encara més la convivència entre persones i robots en entorns industrials.

En un dels demostradors, un robot col·laboratiu de bin picking s'integra amb una capa de programari que permet a l'usuari triar objectes mitjançant ordres de veu o gestos i especificar a quina zona s'han de col·locar. La visió artificial identifica quines peces hi ha al contenidor, quin element s'agafarà a continuació i valida visualment que l'acció s'està executant correctament.

En aquest tipus de solucions, el flux és clar: el treballador indica mitjançant un gest o una frase l'objecte desitjat i la zona de dipòsit, la IA interpreta aquesta ordre, el sistema de bin picking localitza la peça apropiada amb visió 3D i el cobot fa la maniobra mentre la càmera supervisa l'operació.

Darrere d'aquestes interfícies “naturals” hi ha tècniques com ara machine learning, deep learning, models de detecció d'objectes, xarxes neuronals per a reconeixement de gestos i algorismes de raonament sobre dades. Tot això s'integra per a crear entorns col·laboratius i digitalitzats on la interacció amb el sistema automatitzat resulta tan semblant com sigui possible a tractar amb un altre operador humà.

L'avantatge evident és que l'usuari no necessita programar ni conèixer la lògica interna del robot: gestos i paraules es converteixen en ordres d'alt nivell que el sistema tradueix a instruccions tècniques, apropant la robòtica avançada a perfils molt més amplis dins la planta.

Control per gestos amb sensors dedicats: el cas del PAJ7620

No tot passa per complexos models de visió o wearables de recerca. Per a projectes educatius, makers o petits robots hi ha l'opció de sensors específics de reconeixement de gestos com el PAJ7620, que es connecten al microcontrolador mitjançant I2C.

Aquest tipus de sensor sol portar ja un conjunt de gestos bàsics predefinits (moure la mà a l'esquerra, dreta, a dalt, a baix) i lliura al microcontrolador un codi segons el moviment detectat. A partir d'aquí, el programa interpreta aquest codi com a ordre per al robot.

Un exemple típic és controlar un petit braç robòtic o una plataforma educativa: gest cap a l'esquerra, el robot gira en aquesta direcció; gest cap a la dreta, gira cap a l'altra banda; moviment cap amunt, el braç puja; cap avall, baixa. Amb un únic programa es pot reutilitzar la lògica tant en un robot educatiu com en una placa orientada a projectes STEAM (com ara microSTEAMakers).

Tot i que aquesta aproximació és més senzilla que els sistemes basats en visió profunda, resulta perfecta per a introduir el concepte de control de màquines amb gestos, prototipar idees i ensenyar a estudiants com es tradueix la interacció física en ordres digitals de manera pràctica i visual.

A més, aquests sensors dedicats són relativament econòmics i faciliten que més persones puguin experimentar amb interfícies sense contacte, ampliant l'ecosistema de projectes que es beneficien del control gestual més enllà de les grans empreses o centres de recerca.

Avantatges, reptes i futur del control de màquines amb gestos

Entre els principals avantatges del control per gestos destaca la seva enorme capacitat per a fer la interacció més intuïtiva i accessible. Realitzar un gest sol ser tan natural com manipular un objecte físic, cosa que redueix la corba d'aprenentatge i permet que gent amb poca familiaritat tecnològica manegi sistemes complexos amb relativa facilitat.

També aporta beneficis clars a seguretat i higiene. Com que no toquen pantalles, botons ni comandaments, es limita la propagació de gèrmens i s'evita haver d'acostar-se a zones potencialment perilloses d'una màquina. Això cobra sentit a quiròfans, línies de producció d'aliments, laboratoris farmacèutics o plantes on l'accés físic als controls pot ser arriscat.

Un altre aspecte clau és la eficiència operativa i la possibilitat de treballar a distància. Un operador pot supervisar o ajustar màquines des de qualsevol punt duna sala simplement estant dins del camp de visió de la càmera o del sensor. En entorns amb diversos robots, és possible imaginar escenaris en què diversos usuaris utilitzen gestos per dirigir diferents equips de forma simultània sense que hi hagi interferències.

Tot i això, la tecnologia no està exempta de desafiaments. Factors com la il·luminació deficient, ombres fortes, reflexos o càmeres de baixa qualitat poden alterar seriosament el rendiment dels sistemes basats en visió. De la mateixa manera, la variabilitat natural en la manera de fer un gest (mida de mans, angle, velocitat, presència de guants o accessoris) introdueix incertesa.

Alguns models també pateixen quan els moviments són massa ràpids, provocant desenfocament de moviment o pèrdua de fotogrames clau. Per minimitzar aquests problemes, es recorre a sensors de millor qualitat, taxes de refresc més altes, algorismes de compensació de moviment i, en el cas dels wearables avançats, a tècniques de filtratge del soroll basades en deep learning.

Mirant cap endavant, tot apunta que la combinació de millors sensors, models d'IA més robustos i més potència de càlcul a la vora farà que construir interfícies sense contacte sigui cada cop més senzill. Veurem més control gestual integrat a cotxes, llars, fàbriques, hospitals, videojocs i experiències de realitat augmentada i virtual, amb catàlegs de gestos més rics i personalitzables.

L'ecosistema de tecnologies per controlar màquines amb gestos –des de sensors I2C senzills fins a wearables de precisió, passant per càmeres 3D i complexes HMI industrials– està convergint cap a un mateix objectiu: que relacionar-nos amb robots i dispositius sigui tan natural com parlar o moure les mans. A mesura que es polin els reptes de precisió, acceptació d'usuari i integració amb sistemes existents, el control gestual es consolida com una peça central en l'evolució de la interacció home-màquina.

guants tàctils amb Arduino Nano
Article relacionat:
Oblida la pantalla tàctil gràcies a aquests guants tàctils amb Arduino