Tuần này, Microsoft đã tích hợp một tính năng mới mang tên “sử dụng máy tính” vào Copilot Studio. Tính năng này cho phép các tác nhân AI tương tác trực tiếp với các trang web và ứng dụng trên máy tính để bàn. Tương tự như Operator của OpenAI hay “sử dụng máy tính” của Claude (với tên gọi tương đồng), các doanh nghiệp giờ đây có thể tận dụng Copilot Studio để xây dựng các tác nhân AI có khả năng thao tác trên các trang web và ứng dụng như những công cụ thực thụ, giúp tự động hóa nhiều tác vụ.

Microsoft Copilot Studio
Ông Charles Lamanna, Phó Chủ tịch tập đoàn phụ trách mảng Copilot cho doanh nghiệp và các ngành công nghiệp của Microsoft, giải thích: “Tính năng sử dụng máy tính cho phép các tác nhân tương tác với trang web và ứng dụng desktop bằng cách nhấp chuột vào nút, chọn các tùy chọn trong menu và nhập dữ liệu vào các trường trên màn hình. Điều này giúp các tác nhân có thể xử lý công việc ngay cả khi không có API để kết nối trực tiếp với hệ thống. Nếu con người có thể sử dụng ứng dụng đó, thì tác nhân AI cũng có thể.”

Với Copilot Studio, các doanh nghiệp sẽ có thể tạo ra các tác nhân AI có khả năng tự động hóa các công việc như nhập liệu, nghiên cứu thị trường, hay thậm chí là xử lý hóa đơn. Theo Microsoft, công cụ mới này còn có khả năng tự động nhận diện những thay đổi về giao diện nút bấm hay bố cục màn hình của ứng dụng hoặc trang web, từ đó tiếp tục hoạt động một cách trơn tru mà không gặp phải lỗi.
Trước đó, vào đầu tháng này, Microsoft cũng đã giới thiệu một tính năng tương tự mang tên Actions cho Copilot phiên bản người dùng. Actions có thể hoạt động ngầm trong khi người dùng thực hiện các công việc khác. Giờ đây, Copilot có thể giúp người dùng thực hiện các tác vụ như đặt bàn tại nhà hàng, mua vé sự kiện và mua sắm trực tuyến. Tuy nhiên, trải nghiệm Actions hiện tại vẫn còn giới hạn ở một số đối tác nhất định. Ngược lại, Copilot Studio có vẻ sẽ linh hoạt hơn trong việc tương tác với nhiều trang web và ứng dụng khác nhau.
OpenAI Operator
A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
Trước đó, OpenAI cũng đã ra mắt Operator, một trợ lý AI mới có thể “lướt web” và làm mọi việc giúp người dùng. Tác nhân AI này sẽ được cung cấp độc quyền cho người dùng gói ChatGPT Pro tại Mỹ trong giai đoạn đầu.
Điểm đặc biệt của Operator là khả năng “truy cập internet và thực hiện các tác vụ theo yêu cầu của bạn”. OpenAI mô tả rằng, “Sử dụng trình duyệt riêng, Operator có thể xem nội dung trang web và tương tác với nó thông qua các hành động quen thuộc như gõ phím, nhấp chuột và cuộn trang.” Giai đoạn thử nghiệm ban đầu sẽ giới hạn ở thị trường Mỹ và dành cho những người đăng ký gói ChatGPT Pro của OpenAI với mức phí 200 đô la mỗi tháng.
Sức mạnh của Operator đến từ mô hình “Tác nhân Sử dụng Máy tính”, một sự kết hợp độc đáo giữa khả năng thị giác của GPT-4o và “khả năng suy luận tiên tiến thông qua học tăng cường”. Nhờ đó, Operator có thể tương tác với giao diện đồ họa người dùng (GUI) một cách linh hoạt. OpenAI cho biết thêm, “Operator có thể ‘nhìn thấy’ (qua ảnh chụp màn hình) và ‘tương tác’ (bằng tất cả các thao tác mà chuột và bàn phím cho phép) với trình duyệt, cho phép nó thực hiện các hành động trên web mà không cần đến các tích hợp API tùy chỉnh.”

Operator được trang bị khả năng suy luận để “tự điều chỉnh” khi gặp lỗi. Nếu rơi vào tình huống khó xử, nó sẽ chủ động trả quyền điều khiển lại cho người dùng. Bên cạnh đó, Operator cũng sẽ yêu cầu người dùng tiếp quản khi trang web yêu cầu các thông tin nhạy cảm như tên đăng nhập và mật khẩu, đồng thời “nên” hỏi ý kiến người dùng trước khi thực hiện các hành động quan trọng như gửi email. OpenAI cũng nhấn mạnh rằng Operator đã được thiết kế để “từ chối các yêu cầu độc hại và chặn các nội dung không phù hợp”.
Để đảm bảo Operator có thể đáp ứng các nhu cầu thực tế và tuân thủ các quy tắc hiện hành, OpenAI đang hợp tác chặt chẽ với nhiều công ty lớn như DoorDash, Instacart, OpenTable, Priceline, StubHub và Uber. Tuy nhiên, OpenAI cũng lưu ý rằng công cụ này có thể chưa hoạt động hoàn hảo trong mọi tình huống, đặc biệt là với “các giao diện phức tạp như tạo slide trình chiếu hay quản lý lịch”.
Tóm lại, cả Microsoft với Copilot Studio và OpenAI với Operator đều đang có những bước tiến mạnh mẽ trong việc phát triển các tác nhân AI có khả năng tương tác trực tiếp với giao diện người dùng máy tính và web. Trong khi Copilot Studio hướng đến việc cung cấp một nền tảng linh hoạt cho doanh nghiệp tự xây dựng các tác nhân tự động hóa, thì Operator của OpenAI lại tập trung vào việc cung cấp một trợ lý AI thông minh có thể thực hiện các tác vụ phức tạp trên web cho người dùng cá nhân. Cả hai đều hứa hẹn mang đến những phương thức làm việc mới hiệu quả và tiện lợi hơn trong tương lai.
Comments