UI-TARS桌面版:智能GUI自动化与视觉语言模型的终极指南

【免费下载链接】UI-TARS-desktop A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language. 【免费下载链接】UI-TARS-desktop 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

UI-TARS桌面版是一款基于视觉语言模型的GUI智能代理应用,允许用户通过自然语言控制计算机。这款强大的工具将人工智能与图形界面操作完美结合,为用户提供了一种全新的人机交互方式,让复杂的GUI操作变得简单而高效。

快速了解UI-TARS桌面版

UI-TARS桌面版(UI-TARS-desktop)是一款革命性的GUI智能代理应用,它利用先进的视觉语言模型(Vision-Language Model)技术,让用户能够通过自然语言指令来控制计算机的图形界面。无论是日常办公、数据分析还是自动化测试,UI-TARS都能大幅提升工作效率,减少重复操作带来的疲劳。

UI-TARS桌面版主界面

准备工作

在开始使用UI-TARS桌面版之前,请确保您的系统满足以下要求:

  • 浏览器要求:安装Chrome(稳定版/测试版/开发版/金丝雀版)、Edge(稳定版/测试版/开发版/金丝雀版)或Firefox(稳定版/测试版/开发版/夜间版),以支持浏览器操作功能。
  • 显示器要求:目前UI-TARS桌面版仅支持单显示器设置,多显示器配置可能导致某些任务失败。

下载与安装指南

获取UI-TARS桌面版

您可以从我们的发布页面下载UI-TARS桌面版的最新版本。如果您已安装Homebrew,也可以通过以下命令快速安装:

brew install --cask ui-tars

macOS系统安装步骤

  1. 将"UI TARS"应用拖入"应用程序"文件夹 macOS安装步骤

  2. 在macOS中启用"UI TARS"的权限:

    • 系统设置 -> 隐私与安全性 -> 辅助功能
    • 系统设置 -> 隐私与安全性 -> 屏幕录制 macOS权限设置
  3. 打开"UI TARS"应用,您将看到以下界面: UI-TARS桌面版启动界面

Windows系统安装步骤

运行安装程序后,您将看到以下界面: Windows安装界面

配置模型与运行本地操作器

UI-TARS桌面版支持多种视觉语言模型,您可以根据需求选择合适的模型并进行配置。

使用Hugging Face上的UI-TARS-1.5模型

  1. 点击页面右上角的"Deploy from Hugging Face"按钮 Hugging Face部署按钮

  2. 选择模型UI-TARS-1.5-7B 选择UI-TARS-1.5模型

  3. 参考部署说明获取Base URL、API Key和Model Name。

  4. 打开UI-TARS桌面应用的设置界面,进行如下配置:

    Language: en
    VLM Provider: Hugging Face for UI-TARS-1.5
    VLM Base URL: https:xxx
    VLM API KEY: your_api_key
    VLM Model Name: xxx
    

    注意

    1. 对于VLM Provider,请确保选择"Hugging Face for UI-TARS-1.5"以确保正确的VLM Action解析。
    2. 关于VLM Base URL和VLM Model Name,您可以查看Hugging Face端点页面获取详细信息。请确保Base URL以'/v1/'结尾。

    Base URL示例

    Hugging Face设置界面

使用VolcEngine上的Doubao-1.5-UI-TARS模型

  1. 访问VolcEngine Doubao-1.5-UI-TARS页面

  2. 点击页面右上角的"Try (立即体验)"按钮 VolcEngine立即体验按钮

  3. 点击"API inference (API 接入)"链接 API接入链接

  4. 从抽屉面板的STEP 1中获取您的API Key 获取API Key

  5. 在STEP 2中,验证您的用户信息并切换到OpenAI SDK选项卡以获取Base Url和Model name: 获取Base URL和Model Name

  6. 打开UI-TARS桌面应用的设置界面,进行如下配置:

    Language: cn
    VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
    VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
    VLM API KEY: YOUR_API_KEY
    VLM Model Name: doubao-1.5-ui-tars-250328
    

    注意:对于VLM Provider,请确保选择"VolcEngine Ark for Doubao-1.5-UI-TARS"以确保正确的VLM Action解析。

    VolcEngine设置界面

开始使用UI-TARS桌面版

  1. 点击按钮开始新的聊天 开始新聊天

  2. 输入命令开始一轮GUI操作任务! 开始任务

注意:在使用"Browser Operator"模式之前,请确保您的设备上已安装Chrome、Edge或Firefox浏览器。

深入学习与资源

要充分利用UI-TARS并确保稳定使用,建议查阅以下文档:

  • 阅读设置配置指南,了解如何设置VLM/聊天参数。选择合适的VLM Provider可以优化桌面应用在使用模型时的性能。
  • 阅读UI-TARS-1.5部署指南,了解UI-TARS-1.5的最新部署方法。

UI-TARS桌面版为您打开了一扇通往智能GUI自动化的大门,无论是提高工作效率还是探索AI驱动的交互方式,它都能成为您的得力助手。立即下载体验,感受自然语言控制计算机的便捷与强大!

【免费下载链接】UI-TARS-desktop A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language. 【免费下载链接】UI-TARS-desktop 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐