| yuebin's blog

Posted on 2026-04-10

Browser Use 是一个将 AI 大模型与浏览器自动化结合的框架，它颠覆了传统写脚本的思路，能让你直接用自然语言（比如“去XX网站搜一下iPhone最新价格”）来控制浏览器，替你自动完成操作。它的核心架构建立在 Playwright 和 LangChain 之上，靠 AI 来理解和规划任务，因此即便网页结构有变化，它也有很强的自适应性。

为了让你更直观地感受它与 Automa 的区别，我把它们放在一起做了个对比：

🆚 Browser Use vs. Automa 对比

对比维度	Browser Use	Automa
核心交互方式	自然语言驱动，用人类语言描述任务，AI 自主拆解并执行。	可视化拖拽驱动，通过手动拖拽模块、编排流程图来构建工作流。
技术原理	基于 AI大模型 (LLM)，通过 Playwright 操控浏览器，能理解页面语义。	基于预定义的浏览器扩展API，严格按你设定的选择器和步骤执行。
上手门槛	需要基本的 Python 环境和 API 配置知识，门槛稍高。	安装浏览器扩展即可用，图形化界面，几乎没有学习门槛。
智能灵活性	极高。能应对复杂的动态网页，遇到意外（如弹窗）有自我纠错能力。	较低。严格按照预设流程执行，页面结构一变就容易“迷路”。
稳定性与成本	依赖AI模型，每次执行都有 Token 消耗（需付费），执行速度也相对慢一些。	流程确定，执行稳定且完全免费，速度很快。
适用场景	复杂的探索性任务（如竞品调研）、应对反爬强的网站、需要“理解”内容的操作。	固定的、流程明确的重复性任务（如每日签到、批量填表）。

🚀 Browser Use 如何安装与使用

安装 Browser Use 主要分三步：准备 Python 环境、安装核心库和配置 AI 模型。

准备 Python 环境：建议使用 Python 3.11 或更高版本。为了方便管理，可以创建一个独立的虚拟环境。
1
2
3
python -m venv browser_env
source browser_env/bin/activate # macOS/Linux
# 或在 Windows 上: browser_env\Scripts\activate
安装 Browser Use 与浏览器驱动：使用 pip 安装核心包，然后安装 Playwright 的浏览器驱动。
1
2
pip install browser-use
playwright install
获取并配置 API Key：你需要一个 AI 模型的 API Key（如 OpenAI、DeepSeek 等）。从对应平台获取后，可以新建一个 .env 文件写入密钥，或者直接在代码里配置。

✍️ 一个简单的例子

安装配置好后，可以创建一个 Python 脚本来体验一下。比如我们想让它找一下 browser-use 这个 GitHub 项目的 Star 数：

from browser_use import Agent, Browser, ChatOpenAI
import asyncio

async def main():
    browser = Browser()
    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatOpenAI(model='gpt-4o'), # 记得替换成你用的模型
        browser=browser,
    )
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())

另外，Browser Use 也提供了 WebUI 版本，让你可以在图形界面里配置模型、下达任务并观察结果，对新手更友好。

🤔 该选哪一个？

总的来说，选择哪个工具，完全取决于你的任务场景：

追求简单、稳定、免费：如果你的任务是固定且明确的，比如每天自动签到、批量填写表单，Automa 是更省心的选择，它开箱即用，完全免费。
追求智能、灵活、能处理复杂情况：如果你的任务多变且复杂，比如需要爬取不同结构的商品页、在多个网站间做信息调研，那么 Browser Use 的强大 AI 能力能帮你节省大量写复杂脚本的时间。

看完了原理和对比，想不想实际动手，在你的电脑上试着运行一下 Browser Use 的 Demo？我可以帮你梳理一份详细的环境配置和安装步骤。