PHP脚本优化与错误处理改进

Posted on 2025-03-08 Edited on 2025-03-07

以下是对该PHP脚本的逐步分析和改进建议：

步骤 1：检查依赖项

脚本使用extract_chmLib工具来解压CHM文件。确保该工具已安装并在系统路径中。可以在脚本启动时添加检查：

// 添加在服务启动日志之前
exec('which extract_chmLib', $output, $ret);
if ($ret !== 0) {
    log_message("错误：extract_chmLib未安装，请安装libchm-bin或相关包。", $config);
    exit(1);
}

步骤 2：确保输出目录可写

解压后的文件可能没有写权限，导致插入广告失败。在解压后修改目录权限：

exec(sprintf(
    'extract_chmLib %s %s 2>&1',
    escapeshellarg($chm_path),
    escapeshellarg($output_dir)
), $output, $ret);

// 添加权限修改
exec(sprintf('chmod -R 755 %s', escapeshellarg($output_dir)));

步骤 3：使用DOM方法安全插入脚本标签

替换使用appendXML的方式，改用DOM方法创建元素以避免解析问题：

// 替换$fragment->appendXML部分
$script = $dom->createElement('script');
$script->setAttribute('async', 'async');
$script->setAttribute('src', 'https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592');
$script->setAttribute('crossorigin', 'anonymous');
$head->insertBefore($script, $head->firstChild);

步骤 4：增强错误处理

在DOM操作中添加更详细的错误捕获：

try {
    $dom = new DOMDocument();
    libxml_use_internal_errors(true);
    $loaded = $dom->loadHTMLFile(
        $fileinfo->getRealPath(),
        LIBXML_NOERROR | LIBXML_NOWARNING | LIBXML_HTML_NOIMPLIED
    );
    // ... 其余代码 ...
} catch (Exception $e) {
    log_message("DOM操作失败: {$fileinfo->getPathname()} - " . $e->getMessage(), $config);
}

步骤 5：优化内存使用

在处理大文件后释放资源：

foreach ($iterator as $fileinfo) {
    // ... 处理文件 ...
    unset($dom); // 释放内存
}

步骤 6：处理不完整的HTML结构

确保即使没有<html>或<body>标签也能正确处理：

// 创建html和head时的逻辑调整
if (!$html) {
    $html = $dom->createElement('html');
    $dom->appendChild($html);
    // 如果存在原内容（如直接在文档中的元素），移动到html内
    foreach ($dom->childNodes as $node) {
        if ($node !== $html) {
            $html->appendChild($node->cloneNode(true));
            $dom->removeChild($node);
        }
    }
}

完整改进后的代码示例：

<?php
$config = [
    'chm_dir' => '/var/www/html/chm_files',
    'html_dir' => '/var/www/html/html_files',
    'log_file' => '/var/log/chm_converter.log',
    'ad_code' => <<<'ADCODE'
<script async="async" 
        src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592"
        crossorigin="anonymous"></script>
ADCODE
];

@mkdir($config['chm_dir'], 0755, true);
@mkdir($config['html_dir'], 0755, true);

function log_message($message, $config) {
    file_put_contents(
        $config['log_file'], 
        sprintf("[%s] %s\n", date('Y-m-d H:i:s'), $message),
        FILE_APPEND
    );
}

// 检查extract_chmLib是否存在
exec('which extract_chmLib', $output, $ret);
if ($ret !== 0) {
    log_message("错误：extract_chmLib未安装，请安装libchm-bin或相关包。", $config);
    exit(1);
}

log_message("服务启动", $config);

while (true) {
    $files = array_diff(scandir($config['chm_dir']), ['.', '..']);
    
    foreach ($files as $file) {
        if (pathinfo($file, PATHINFO_EXTENSION) !== 'chm') continue;

        $chm_path = $config['chm_dir'] . '/' . $file;
        $output_dir = $config['html_dir'] . '/' . pathinfo($file, PATHINFO_FILENAME);

        try {
            exec(sprintf(
                'extract_chmLib %s %s 2>&1',
                escapeshellarg($chm_path),
                escapeshellarg($output_dir)
            ), $output, $ret);
            
            if ($ret !== 0) {
                throw new Exception("CHM转换失败: " . implode("\n", $output));
            }

            // 修改输出目录权限
            exec(sprintf('chmod -R 755 %s', escapeshellarg($output_dir)));

            $iterator = new RecursiveIteratorIterator(
                new RecursiveDirectoryIterator($output_dir, FilesystemIterator::SKIP_DOTS),
                RecursiveIteratorIterator::SELF_FIRST
            );

            foreach ($iterator as $fileinfo) {
                if (!$fileinfo->isFile() || strtolower($fileinfo->getExtension()) !== 'html') continue;

                $dom = new DOMDocument();
                libxml_use_internal_errors(true);
                $loaded = $dom->loadHTMLFile(
                    $fileinfo->getRealPath(),
                    LIBXML_NOERROR | LIBXML_NOWARNING | LIBXML_HTML_NOIMPLIED
                );

                if (!$loaded) {
                    $errors = libxml_get_errors();
                    foreach ($errors as $error) {
                        log_message("HTML解析错误[{$fileinfo->getPathname()}]: {$error->message}", $config);
                    }
                    libxml_clear_errors();
                    continue;
                }

                $html = $dom->getElementsByTagName('html')->item(0);
                if (!$html) {
                    $html = $dom->createElement('html');
                    $dom->appendChild($html);
                    // 将现有节点移动到html内
                    foreach ($dom->childNodes as $node) {
                        if ($node !== $html) {
                            $html->appendChild($node->cloneNode(true));
                            $dom->removeChild($node);
                        }
                    }
                }

                $head = $dom->getElementsByTagName('head')->item(0);
                if (!$head) {
                    $head = $dom->createElement('head');
                    $body = $dom->getElementsByTagName('body')->item(0);
                    if ($body) {
                        $html->insertBefore($head, $body);
                    } else {
                        $html->appendChild($head);
                    }
                }

                $expectedSrc = 'https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592';
                $scriptExists = false;
                foreach ($head->getElementsByTagName('script') as $script) {
                    if (trim($script->getAttribute('src')) === $expectedSrc) {
                        $scriptExists = true;
                        break;
                    }
                }

                if (!$scriptExists) {
                    $script = $dom->createElement('script');
                    $script->setAttribute('async', 'async');
                    $script->setAttribute('src', $expectedSrc);
                    $script->setAttribute('crossorigin', 'anonymous');
                    $head->insertBefore($script, $head->firstChild);
                }

                if (is_writable($fileinfo->getRealPath())) {
                    $dom->saveHTMLFile($fileinfo->getRealPath());
                } else {
                    // 尝试修改权限
                    @chmod($fileinfo->getRealPath(), 0644);
                    if (is_writable($fileinfo->getRealPath())) {
                        $dom->saveHTMLFile($fileinfo->getRealPath());
                    } else {
                        log_message("文件不可写: {$fileinfo->getRealPath()}", $config);
                    }
                }
                unset($dom); // 释放内存
            }

            unlink($chm_path);
            log_message("转换成功: $file → $output_dir", $config);

        } catch (Exception $e) {
            log_message("处理失败: $file - " . $e->getMessage(), $config);
        }
    }
    
    sleep(10);
}

改进说明：

依赖检查：在服务启动时检查extract_chmLib是否存在，避免运行时失败。
权限管理：解压后修改目录权限，确保后续可写。
安全的DOM操作：使用createElement和setAttribute代替appendXML，提高稳定性。
增强错误处理：在文件不可写时尝试修改权限，避免因权限问题导致失败。
内存优化：在处理每个文件后释放DOM对象，减少内存占用。
结构容错：处理缺少<html>或<head>标签的情况，确保广告代码正确插入。

这些改进提高了脚本的健壮性，确保在各种边缘情况下仍能可靠运行。

时间: 2025-03-08T00:02:29

👤 用户

'/var/www/html/chm_files', 'html_dir' => '/var/www/html/html_files', 'log_file' => '/var/log/chm_converter.log', 'ad_code' => <<<'ADCODE' ADCODE ]; @mkdir($config['chm_dir'], 0755, true); @mkdir($config['html_dir'], 0755, true); function log_message($message, $config) { file_put_contents( $config['log_file'], sprintf("[%s] %s\n", date('Y-m-d H:i:s'), $message), FILE_APPEND ); } log_message("服务启动", $config); while (true) { $files = array_diff(scandir($config['chm_dir']), ['.', '..']); foreach ($files as $file) { if (pathinfo($file, PATHINFO_EXTENSION) !== 'chm') continue; $chm_path = $config['chm_dir'] . '/' . $file; $output_dir = $config['html_dir'] . '/' . pathinfo($file, PATHINFO_FILENAME); try { exec(sprintf( 'extract_chmLib %s %s 2>&1', escapeshellarg($chm_path), escapeshellarg($output_dir) ), $output, $ret); if ($ret !== 0) { throw new Exception("CHM转换失败: " . implode("\n", $output)); } $iterator = new RecursiveIteratorIterator( new RecursiveDirectoryIterator($output_dir, FilesystemIterator::SKIP_DOTS), RecursiveIteratorIterator::SELF_FIRST ); foreach ($iterator as $fileinfo) { if (!$fileinfo->isFile() || strtolower($fileinfo->getExtension()) !== 'html') continue; $dom = new DOMDocument(); libxml_use_internal_errors(true); $loaded = $dom->loadHTMLFile( $fileinfo->getRealPath(), LIBXML_NOERROR | LIBXML_NOWARNING | LIBXML_HTML_NOIMPLIED ); if (!$loaded) { $errors = libxml_get_errors(); foreach ($errors as $error) { log_message("HTML解析错误[{$fileinfo->getPathname()}]: {$error->message}", $config); } libxml_clear_errors(); continue; } $html = $dom->getElementsByTagName('html')->item(0); if (!$html) { $html = $dom->createElement('html'); $dom->appendChild($html); } $head = $dom->getElementsByTagName('head')->item(0); if (!$head) { $head = $dom->createElement('head'); $body = $dom->getElementsByTagName('body')->item(0); if ($body) { $html->insertBefore($head, $body); } else { $html->appendChild($head); } } $expectedSrc = 'https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592'; $scriptExists = false; foreach ($head->getElementsByTagName('script') as $script) { if (trim($script->getAttribute('src')) === $expectedSrc) { $scriptExists = true; break; } } if (!$scriptExists) { $fragment = $dom->createDocumentFragment(); $fragment->appendXML($config['ad_code']); $head->insertBefore($fragment, $head->firstChild); } if (is_writable($fileinfo->getRealPath())) { $dom->saveHTMLFile($fileinfo->getRealPath()); } else { log_message("文件不可写: {$fileinfo->getRealPath()}", $config); } } unlink($chm_path); log_message("转换成功: $file → $output_dir", $config); } catch (Exception $e) { log_message("处理失败: $file - " . $e->getMessage(), $config); } } sleep(10); } **时间**: `2025-03-08T00:02:29` --- ## 💭 **思考过程** 嗯，我需要仔细看看这个PHP脚本是做什么的。看起来这是一个用来将CHM文件转换成HTML文件，并在生成的HTML文件中插入广告代码的服务。让我先通读一下代码，理解各个部分的功能。首先，脚本定义了一个配置数组$config，里面包含了chm_dir、html_dir、log_file和ad_code。chm_dir是存放CHM文件的目录，html_dir是转换后的HTML输出目录，log_file是日志路径，而ad_code是要插入的广告脚本代码。接着，它创建这两个目录，确保它们存在，权限是0755。然后有一个log_message函数，用来记录日志，每次写入日志的时候会带上时间戳。接着服务启动的日志被记录下来。接下来是一个无限循环，每隔10秒扫描一次chm_dir目录，处理其中的CHM文件。对于每个CHM文件，使用extract_chmLib工具来解压到html_dir下的子目录。转换成功后，遍历所有生成的HTML文件，使用DOMDocument来解析每个HTML文件，检查部分是否已经包含指定的广告代码。如果没有，就在的最前面插入广告代码，然后保存文件。处理完后删除原CHM文件，并记录成功日志。如果过程中有任何错误，比如转换失败或者文件不可写，就记录错误日志。现在，我需要考虑这段代码可能存在的问题或潜在的错误。首先，我需要确认代码是否正确处理了所有可能的异常情况，以及是否存在性能或安全方面的问题。首先，检查目录创建部分。使用@mkdir并设置0755权限，第三个参数true表示递归创建。这里没问题，但要注意如果上级目录权限不足，可能导致创建失败，但代码用了错误抑制符@，所以错误会被忽略，可能导致后续操作失败。不过可能已经在运行前确保目录存在，或者在日志中记录错误？然后，log_message函数使用FILE_APPEND，这样可以追加日志，没问题。主循环中的while(true)会一直运行，每隔10秒扫描一次。这可能对资源有一定消耗，但作为后台服务，应该可以接受。不过需要确保处理过程中不会因为某个错误导致整个服务终止，比如try...catch包裹了大部分处理逻辑，这样即使某个文件处理失败，循环仍会继续。在处理每个CHM文件时，首先检查扩展名是否为chm。然后构建输出目录，使用extract_chmLib命令来解压CHM。这里需要注意extract_chmLib是否存在于系统的PATH中，或者是否使用绝对路径。例如，exec调用extract_chmLib时，如果系统没有安装这个工具，或者路径不对，会导致转换失败。这可能是一个潜在的问题，比如在环境配置时可能缺少这个依赖。转换成功后，遍历输出目录中的所有HTML文件。这里用了RecursiveDirectoryIterator来递归处理子目录中的文件，正确过滤了非HTML文件。然后使用DOMDocument来加载HTML文件。这里需要注意的是，CHM解压出来的HTML可能结构不规范，导致DOMDocument解析失败。例如，如果HTML中没有或标签，那么插入广告代码的部分可能会出问题。在代码中，当没有标签时，会创建一个新的html元素并添加到DOM中。同样，如果没有标签，会创建一个head，并尝试插入到body之前，或者直接添加到html中。这部分逻辑是否可靠？比如，如果原来的HTML既没有head也没有body，那么插入的位置可能有问题。例如，假设原来的HTML结构非常混乱，DOMDocument可能会处理不好，导致生成的HTML结构错误。另一个问题是，在插入广告代码之前，会检查是否已经存在相同src的script标签。这里比较的是trim后的src属性是否等于$expectedSrc。这里可能会有问题，比如如果src属性有额外的参数或者路径写法不同，比如使用相对路径或者URL编码不同，导致判断失效。例如，如果广告代码的src带有额外的参数或者顺序不同，可能导致重复插入。不过当前广告代码中的src是固定的，所以只要检查严格的话应该没问题。此外，在插入广告代码时，使用了createDocumentFragment并appendXML。如果广告代码中包含特殊字符或者格式不正确，可能会导致解析失败。当前的广告代码看起来没问题，是标准的script标签。但需要注意，如果广告代码中有某些不符合XML规范的内容，可能会出错。这时候可能需要改用createElement和setAttribute来构建script标签，这样更安全。还有，在保存修改后的HTML时，使用了saveHTMLFile。但DOMDocument在保存时可能会改变原有的HTML结构，比如自动添加缺失的标签，或者重新格式化代码。这可能会导致某些样式或脚本失效，但这是DOMDocument的固有行为，可能无法避免。不过用户可能希望尽量保持原有结构，这里需要注意。文件权限问题：在保存HTML文件时，检查是否可写。如果解压后的文件权限是只读的，可能导致无法保存修改后的内容。这时候需要修改文件权限，或者确保解压后的文件是可写的。例如，使用chmod来设置文件权限，或者在解压时指定权限。另外，当处理完CHM文件后，会删除原CHM文件。这可能需要确认是否用户希望保留原始文件，或者是否需要移动到另一个目录而不是直接删除。不过根据代码逻辑，这里是处理完成后立即删除，所以用户需要明确这一点。还有一个潜在的问题是，如果同时有多个CHM文件被处理，或者处理时间超过10秒，可能会导致重复处理？因为每次循环都会处理所有当前存在的CHM文件。例如，假设在处理一个很大的CHM文件时，下一个循环开始，可能会再次处理同一个文件。但代码中在每次循环开始时获取文件列表，处理完一个文件后会立即删除原CHM文件，所以应该不会重复处理。不过需要考虑如果处理过程中，有新的CHM文件被添加到目录中，是否会被当前循环处理，或者需要等到下一个循环。而循环每次处理完所有文件后，sleep 10秒，所以这是预期的行为。此外，错误处理方面，try...catch块包裹了主要的处理逻辑，任何异常都会被捕获并记录日志。但有些错误可能不会被抛出，比如exec返回非零状态码时的处理，这里会抛出异常，所以这部分没问题。接下来需要检查代码中的潜在问题： 1. extract_chmLib是否存在？是否在PATH中？或者在脚本中应该使用绝对路径？例如，如果系统没有安装extract_chmLib，那么转换会失败。用户需要确保这个工具已经正确安装，并且在PHP的执行路径中可用。例如，在Ubuntu中，可能需要安装libchm-bin包，其中包含extract_chmLib工具。 2. 处理HTML时，如果原文件没有或标签，DOMDocument的行为是否可靠？例如，对于不完整的HTML文件，DOMDocument可能会自动补全标签，或者在解析时出错。这时候，代码中的处理是否能够正确插入广告代码？例如，假设原HTML文件只有内容，没有或，那么代码会创建和，并将插入到之前。这种情况下生成的HTML结构是正确的。 3. 广告代码插入的位置是否正确？广告代码被插入到的最前面。可能有些广告代码需要放在特定位置，比如在的顶部或底部，但当前代码是插入到head的第一个子节点前，也就是head的顶部。这应该符合预期。 4. 日志记录是否全面？在转换失败、HTML解析错误、文件不可写等情况下，都会记录日志，这看起来是足够的。 5. 权限问题：解压后的HTML文件是否可写？例如，extract_chmLib解压出来的文件可能权限是只读的，导致后续无法修改。这时候需要在解压后修改文件权限，或者在保存前检查并修改权限。例如，在解压后，可以遍历所有文件，设置权限为可写： exec(sprintf('chmod -R +w %s', escapeshellarg($output_dir))); 或者在处理每个HTML文件时，使用chmod设置可写权限。当前代码在保存前检查is_writable，如果不可写则记录日志，但没有尝试修改权限，可能导致处理失败。 6. 使用libxml_use_internal_errors(true)来避免解析错误时的警告，但如果有严重的解析错误，可能导致DOMDocument无法正确加载HTML，从而跳过处理。这种情况下，可能需要记录更多的错误信息，或者尝试其他方式处理。 7. 广告代码中的async属性是否会影响页面加载？这属于业务逻辑的问题，代码只是负责插入，所以没有问题。 8. 在处理大量文件时，内存占用是否过高？例如，递归处理大目录，或者HTML文件很大，DOMDocument可能会占用较多内存。如果处理大量大文件，可能导致PHP内存不足，可以尝试增加内存限制或者优化处理方式。可能的改进点： - 在解压CHM文件后，递归修改文件和目录的权限，确保可写。 - 处理HTML文件时，如果原文件没有BOM或者编码不是UTF-8，DOMDocument可能解析错误，需要指定编码。 - 检查extract_chmLib的执行结果，确保解压成功，并且输出目录存在。 - 在处理完所有HTML文件后，可能需要执行一些清理操作，比如删除临时文件。 - 确保广告代码插入的正确性，比如避免重复插入，当前检查是否已经存在相同src的script标签，这应该是足够的。例如，在广告代码的检查部分： $expectedSrc的值是否正确？当前的广告代码中的src是'https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592'，而代码中比较的是trim后的属性是否等于这个值。如果解压后的HTML中的script标签的src属性有其他参数或者顺序不同，比如client参数在前，那么比较就会失败，导致重复插入。例如，如果有一个script的src是'https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592&foo=bar'，那么比较时不会匹配，会重复插入。不过当前广告代码的src是特定的，所以应该不会有其他参数。但用户是否希望避免插入任何adsbygoogle脚本，而不管其他参数？当前逻辑是严格匹配整个src，所以只有在src完全一致的情况下才会跳过插入。这可能符合需求，因为广告代码是特定的发布商ID。另一个问题，如果广告代码已经被插入，但以其他方式存在，比如动态加载，这时候代码无法检测，但这种情况可能较少。此外，广告代码的插入使用的是appendXML，是否有可能因为HTML结构的问题导致插入失败？比如，如果中有某些特殊标签，或者文档片段无法正确解析。改用createElement可能会更可靠。例如，可以创建一个script元素，并设置其属性： $script = $dom->createElement('script'); $script->setAttribute('async', 'async'); $script->setAttribute('src', 'https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-8651564461544592'); $script->setAttribute('crossorigin', 'anonymous'); $head->insertBefore($script, $head->firstChild); 这种方式可能更安全，避免因为XML解析的问题导致错误。当前的广告代码是使用文档片段appendXML，如果原HTML不是良构的XML，可能会导致问题。例如，如果原HTML中有未闭合的标签，或者其他不符合XML规范的内容，这时候用appendXML可能失败。而使用DOM方法逐步构建元素会更可靠。例如，当前的代码： $fragment->appendXML($config['ad_code']); 如果$config['ad_code']中有换行或引号的问题，可能导致appendXML解析失败。例如，广告代码中的换行是否会影响？测试一下，广告代码中的