发表于2025年2月13日2025年2月22日作者 admin

👀宝子们，我和AI死磕网页抓取脚本的全过程！

最近我被一个需求折磨得死去活来，就是要搞一个能抓取网页内容并保存的脚本。你们能想象吗？我本来以为就是写几行代码的事儿，结果折腾了两天，现在还只是个半自动的！今天就来给大家唠唠我和AI死磕这个脚本的全过程。

需求初现：简单任务？大错特错！

一开始，需求看似挺简单，就是在网站上，实现目录页选择保存正文页面为MD格式，还要能下载附件。我心想，这有啥难的，不就是写个Tampermonkey脚本嘛！于是我信心满满地开始动手，结果，现实给了我狠狠一巴掌😫。

艰难探索：一个问题接着一个问题

目录页按钮与链接获取

先是目录页，我得判断当前页面是不是目录页，然后在页面上添加按钮。这一步就不顺利，我得精确找到目录页的特征。好不容易找到了，添加按钮的时候又遇到问题，按钮位置怎么调都不满意，一会儿在中间偏左，一会儿又被其他元素遮挡。获取正文链接列表也不轻松，网页结构稍微复杂点，querySelector就找不到元素，我在那对着代码抓耳挠腮，头发都快薅掉一把了😭。

正文页附件下载难题

正文页的问题更多！保存附件时，获取附件链接就很麻烦。链接有时候是相对的，有时候是绝对的，而且基于目录页生成的绝对链接根本不对。我就和AI一起想办法，尝试了好多方法。用new URL来生成绝对链接，结果还是有偏差。后来又试着直接打开正文页面获取链接，代码写得那叫一个复杂，各种异步操作、事件监听，脑袋都快炸了。

AI助力：希望与挫折并存

在这个过程中，AI真的是我的救星，但也让我又爱又恨。我把问题一股脑地抛给它，它每次都能很快给出代码建议。比如修改获取附件链接的代码，它能给出几种不同的思路，像用正则表达式匹配、XPath查询等。但是有些代码放到我的项目里就报错，还得我自己慢慢调试。有时候它理解错我的意思，给的代码和我的需求完全不沾边，真的让人哭笑不得😅。

成果与展望：继续加油！

经过这两天的努力，虽然还没实现全自动，但也有了一些成果。现在目录页能选择保存正文页面为MD格式了，部分附件也能下载了。看着这些小小的进步，心里还是有点成就感的。不过，距离完全实现全自动还有很长的路要走。我打算继续和AI合作，把剩下的问题解决掉。

代码就懒得展示了

#网页抓取 #Tampermonkey脚本 #AI编程 #代码调试

Post Views: 53

我和AI死磕网页保存脚本的全过程

👀宝子们，我和AI死磕网页抓取脚本的全过程！

需求初现：简单任务？大错特错！

艰难探索：一个问题接着一个问题

目录页按钮与链接获取

正文页附件下载难题

AI助力：希望与挫折并存

成果与展望：继续加油！

发表回复取消回复

👀宝子们，我和AI死磕网页抓取脚本的全过程！

需求初现：简单任务？大错特错！

艰难探索：一个问题接着一个问题

目录页按钮与链接获取

正文页附件下载难题

AI助力：希望与挫折并存

成果与展望：继续加油！

发表回复 取消回复

发表回复取消回复