| yuebin's blog

Posted on 2026-04-10

如果你觉得 WebClaw 的命令行和 MCP 配置还是有些繁琐，更倾向于用熟悉的 PHP 定制代码，或者通过直观的浏览器模拟来抓取数据，那下面这两个方向正好能满足你对”简单且优雅”的追求。

🐘 方案一：用 PHP 优雅地定制采集代码

如果你熟悉 PHP，用原生代码写采集器其实非常直接，也能完全按自己的心意来。除了手动写 cURL 和正则，更”优雅”的方式是使用专门的采集库，它们把复杂的 HTTP 请求、DOM 解析和反爬策略都封装好了。

1. 轻量级瑞士军刀：Advance PHP Scraper
这是一个功能强大且模块化的 PHP 库，对新手友好。它内置了抓取链接、图片、元数据等常用功能，还支持队列系统和速率限制，能有效防止被目标网站封 IP 。

<?php
require 'vendor/autoload.php';
use AdvancePHPSraper\Core\Scraper;

$scraper = new Scraper();
$scraper->go('https://example.com');
echo "页面标题: " . $scraper->title() . "\n";
// 获取所有链接
print_r($scraper->links());

2. 云端API集成：SharpAPI for Laravel
如果你的项目基于 Laravel 框架，可以像调用普通服务一样，通过 WebScrapingApiService 来抓取网页。它最大的优点是能通过云服务自动渲染 JavaScript 和使用代理，让你不必在服务器上费力配置无头浏览器。

use SharpAPI\WebScrapingApi\WebScrapingApiService;

class ScrapingController extends Controller {
    public function scrape(WebScrapingApiService $service) {
        $html = $service->scrapeWebpage('https://example.com');
        // 甚至可以用CSS选择器直接提取结构化数据
        $data = $service->extractStructuredData('https://example.com', ['title' => 'h1']);
    }
}

3. 批量建站工具：manofstrong/sitescrapper
如果你的目标是批量抓取整个网站（例如，为你的 AI 知识库准备数据），这个库非常”聪明”。它通过解析网站的 sitemap.xml 文件来发现所有页面，自动提取核心文本内容并存入数据库，避免了手动分析网址规律的麻烦。

🤖 方案二：通过浏览器”模拟访问”获取数据

你提到的”通过浏览器的工作模拟访问”，现在有更智能的方式来实现——AI 浏览器自动化工具。这类工具不需要你费力地编写点击、填表的脚本，而是直接通过自然语言下达指令，由 AI 来理解并执行操作，应对复杂的动态网页尤其得心应手。

1. 智能代理：Browser Use
这是一个现象级的 Python 开源库，它将 AI 与浏览器自动化深度融合。你只需要用自然语言描述任务，它就能自主规划并执行，还具备自我修正能力。特别适合抓取需要登录、交互、翻页的动态内容。

from browser_use import Agent
agent = Agent()
# 一句话完成复杂任务
agent.run("去亚马逊，搜索'无线耳机'，把前5个结果的标题和价格保存到CSV文件。")

2. AI专用命令行工具：Agent Browser
这是一款专为 AI 智能体设计的无头浏览器命令行工具。你可以通过非常简单的命令，在脚本中快速获取网页的文本、HTML 或截图，输出格式对 AI 和自动化脚本极为友好（如 JSON）。

# 获取网页纯文本
agent-browser visit https://example.com --text
# 抓取指定元素并输出JSON
agent-browser extract https://example.com --selector "h1" --json

💎 总结与建议

最后，我为你梳理了一张表，帮你更直观地做出选择：

你的需求场景	推荐方案	优点
在 PHP 项目中快速集成，抓取简单网页	Advance PHP Scraper	纯 PHP 实现，上手快，功能全面，可控性强。
在 Laravel 项目中，需要处理 JS 渲染或防屏蔽	SharpAPI for Laravel	服务化集成，优雅地解决了复杂的浏览器渲染和代理问题。
批量抓取整个网站的所有文章内容	manofstrong/sitescrapper	基于 sitemap 的智能采集，省时省力，适合大规模数据获取。
抓取需登录、交互的复杂网站，不想写繁琐脚本	Browser Use (Python)	用自然语言替代代码，AI 自主操作，应对动态内容能力极强。
在脚本或 AI 工作流中，快速获取网页核心信息	Agent Browser	命令行操作，输出结构友好，轻量高效，适合自动化链路。

如果你打算尝试 AI 驱动的浏览器自动化方案（如 Browser Use），需要我展开讲讲它的安装和具体配置步骤吗？