如果你觉得 WebClaw 的命令行和 MCP 配置还是有些繁琐,更倾向于用熟悉的 PHP 定制代码,或者通过直观的浏览器模拟来抓取数据,那下面这两个方向正好能满足你对”简单且优雅”的追求。

🐘 方案一:用 PHP 优雅地定制采集代码

如果你熟悉 PHP,用原生代码写采集器其实非常直接,也能完全按自己的心意来。除了手动写 cURL 和正则,更”优雅”的方式是使用专门的采集库,它们把复杂的 HTTP 请求、DOM 解析和反爬策略都封装好了。

1. 轻量级瑞士军刀:Advance PHP Scraper
这是一个功能强大且模块化的 PHP 库,对新手友好。它内置了抓取链接、图片、元数据等常用功能,还支持队列系统速率限制,能有效防止被目标网站封 IP 。

1
2
3
4
5
6
7
8
9
<?php
require 'vendor/autoload.php';
use AdvancePHPSraper\Core\Scraper;

$scraper = new Scraper();
$scraper->go('https://example.com');
echo "页面标题: " . $scraper->title() . "\n";
// 获取所有链接
print_r($scraper->links());

2. 云端API集成:SharpAPI for Laravel
如果你的项目基于 Laravel 框架,可以像调用普通服务一样,通过 WebScrapingApiService 来抓取网页。它最大的优点是能通过云服务自动渲染 JavaScript使用代理,让你不必在服务器上费力配置无头浏览器 。

1
2
3
4
5
6
7
8
9
use SharpAPI\WebScrapingApi\WebScrapingApiService;

class ScrapingController extends Controller {
public function scrape(WebScrapingApiService $service) {
$html = $service->scrapeWebpage('https://example.com');
// 甚至可以用CSS选择器直接提取结构化数据
$data = $service->extractStructuredData('https://example.com', ['title' => 'h1']);
}
}

3. 批量建站工具:manofstrong/sitescrapper
如果你的目标是批量抓取整个网站(例如,为你的 AI 知识库准备数据),这个库非常”聪明”。它通过解析网站的 sitemap.xml 文件来发现所有页面,自动提取核心文本内容并存入数据库,避免了手动分析网址规律的麻烦 。

🤖 方案二:通过浏览器”模拟访问”获取数据

你提到的”通过浏览器的工作模拟访问”,现在有更智能的方式来实现——AI 浏览器自动化工具。这类工具不需要你费力地编写点击、填表的脚本,而是直接通过自然语言下达指令,由 AI 来理解并执行操作,应对复杂的动态网页尤其得心应手。

1. 智能代理:Browser Use
这是一个现象级的 Python 开源库,它将 AI 与浏览器自动化深度融合。你只需要用自然语言描述任务,它就能自主规划并执行,还具备自我修正能力。特别适合抓取需要登录、交互、翻页的动态内容 。

1
2
3
4
from browser_use import Agent
agent = Agent()
# 一句话完成复杂任务
agent.run("去亚马逊,搜索'无线耳机',把前5个结果的标题和价格保存到CSV文件。")

2. AI专用命令行工具:Agent Browser
这是一款专为 AI 智能体设计的无头浏览器命令行工具。你可以通过非常简单的命令,在脚本中快速获取网页的文本、HTML 或截图,输出格式对 AI 和自动化脚本极为友好(如 JSON)。

1
2
3
4
# 获取网页纯文本
agent-browser visit https://example.com --text
# 抓取指定元素并输出JSON
agent-browser extract https://example.com --selector "h1" --json

💎 总结与建议

最后,我为你梳理了一张表,帮你更直观地做出选择:

你的需求场景 推荐方案 优点
在 PHP 项目中快速集成,抓取简单网页 Advance PHP Scraper 纯 PHP 实现,上手快,功能全面,可控性强。
在 Laravel 项目中,需要处理 JS 渲染或防屏蔽 SharpAPI for Laravel 服务化集成,优雅地解决了复杂的浏览器渲染和代理问题。
批量抓取整个网站的所有文章内容 manofstrong/sitescrapper 基于 sitemap 的智能采集,省时省力,适合大规模数据获取。
抓取需登录、交互的复杂网站,不想写繁琐脚本 Browser Use (Python) 用自然语言替代代码,AI 自主操作,应对动态内容能力极强。
在脚本或 AI 工作流中,快速获取网页核心信息 Agent Browser 命令行操作,输出结构友好,轻量高效,适合自动化链路。

如果你打算尝试 AI 驱动的浏览器自动化方案(如 Browser Use),需要我展开讲讲它的安装和具体配置步骤吗?