我和AI死磕网页保存脚本的全过程

👀宝子们,我和AI死磕网页抓取脚本的全过程!

最近我被一个需求折磨得死去活来,就是要搞一个能抓取网页内容并保存的脚本。你们能想象吗?我本来以为就是写几行代码的事儿,结果折腾了两天,现在还只是个半自动的!今天就来给大家唠唠我和AI死磕这个脚本的全过程。

需求初现:简单任务?大错特错!

一开始,需求看似挺简单,就是在网站上,实现目录页选择保存正文页面为MD格式,还要能下载附件。我心想,这有啥难的,不就是写个Tampermonkey脚本嘛!于是我信心满满地开始动手,结果,现实给了我狠狠一巴掌😫。

艰难探索:一个问题接着一个问题

目录页按钮与链接获取

先是目录页,我得判断当前页面是不是目录页,然后在页面上添加按钮。这一步就不顺利,我得精确找到目录页的特征。好不容易找到了,添加按钮的时候又遇到问题,按钮位置怎么调都不满意,一会儿在中间偏左,一会儿又被其他元素遮挡。获取正文链接列表也不轻松,网页结构稍微复杂点,querySelector就找不到元素,我在那对着代码抓耳挠腮,头发都快薅掉一把了😭。

抓狂表情包

正文页附件下载难题

正文页的问题更多!保存附件时,获取附件链接就很麻烦。链接有时候是相对的,有时候是绝对的,而且基于目录页生成的绝对链接根本不对。我就和AI一起想办法,尝试了好多方法。用new URL来生成绝对链接,结果还是有偏差。后来又试着直接打开正文页面获取链接,代码写得那叫一个复杂,各种异步操作、事件监听,脑袋都快炸了。

头晕表情包

AI助力:希望与挫折并存

在这个过程中,AI真的是我的救星,但也让我又爱又恨。我把问题一股脑地抛给它,它每次都能很快给出代码建议。比如修改获取附件链接的代码,它能给出几种不同的思路,像用正则表达式匹配、XPath查询等。但是有些代码放到我的项目里就报错,还得我自己慢慢调试。有时候它理解错我的意思,给的代码和我的需求完全不沾边,真的让人哭笑不得😅。

成果与展望:继续加油!

经过这两天的努力,虽然还没实现全自动,但也有了一些成果。现在目录页能选择保存正文页面为MD格式了,部分附件也能下载了。看着这些小小的进步,心里还是有点成就感的。不过,距离完全实现全自动还有很长的路要走。我打算继续和AI合作,把剩下的问题解决掉。

代码就懒得展示了

#网页抓取 #Tampermonkey脚本 #AI编程 #代码调试

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注