gpt老师的新能力初探:浏览器交互
早上正打算向gpt老师请教一下不懂的知识,突然他告诉我现在可以用代理模式帮我操作浏览器了,抱着想看看他能做到哪一步的心态,我尝试了以下三个案例。
案例
1. 骑行路线规划
这一条来自于他给出的示例:标记某某地附近的餐厅。我稍微修改了一下,给他提出了规划骑行路线的需求。
可以看到,此时他认为信息量还不足,向我进行了追问,于是我给他拟定了一个地点,并告诉他起点终点一致,并且全长要在10-20km左右。在这次回复后,他在聊天界面打开了一个浏览器框并开始操作。
可以看到,gpt老师开始用他的鼠标在浏览器里点点了,并且会把当前思考的内容显示在鼠标旁边,经过一番操作后,最终得到了以下结果:
2. 博客站评论
在初次尝试成功后,我决定来尝试点他示例里没有的,于是我提出了如下需求:帮我在这个网站里留下一个评论,让我体验一下请ai水军的感觉
运行结果:
可以看到gpt老师操作的是相当轻松,无论是刚进入网站时向下滑动网站才能看到文章,还是打开文章后需要滑到底才能看到评论框,这些都没用丝毫的难度。
3.在需要登录的博客站里发表评论
基于上面两个任务gpt老师都轻而易举完成的原因,我决定给他上点强度。在征求了朋友意见后,我请求gpt老师给他的网站也留下一句评论。这个任务与在现在这个网站留言有一个很明显的区别:别人的网站里要留言的话需要经过注册登录的流程才能留言,这无疑增大了gpt老师的操作难度。
一开始,gpt老师和刚才一样,首先通过本网站的友链精确找到了朋友的网站,然后直奔评论区而去,然而,在写了评论点击提交后,网页弹出了请先登录的提示框,此时gpt老师开始懵逼了,开始在各个文章之间反复切换,试图找到一个可以进行留言的页面。这里开始显然就出问题了,因为网站是明确提示了需要登录的,按照我们正常人的思路,应该是去想办法搞到一个账号然后登录注册留言一条龙,因为这个路径的错误,gpt老师在这里反反复复卡了11分钟。
这时我已经看不下去了,给了一个提示,此时的提示是在gpt老师操作的过程中给出的,也就是说在整个过程中,我可以随时向gpt老师补充信息。可以看到,在提示了该网站需要注册后,gpt老师仿佛顿悟了,不一下就顺利找到注册界面,非常流畅的给自己注册了个账号并登录,随后重新前往评论页面留下了自己的评论。
总结
从上面三个任务可以看出来,gpt老师还是具备很强大的浏览器交互能力了,尤其是在相关提示信息到位的情况下,几乎能顺利执行一整个流程,此外,在上面的案例中有一点没有提到,在这个操作流程中,用户是可以去干预gpt老师与浏览器的交互的,也就是说,在不担心信息隐私的情况下,用户甚至可以登录自己的一些账号去网页中执行操作,可以说,如今的ai几乎得到了在互联网中自由行动的能力。
正文以外的内容:
本来还打算写写我对这个能力的一些看法,但是我发现我很难给出一个经得起推敲的观点,因此我暂时放弃了这一段的编写,鉴于如今ai的发展速度,或许在不远的未来,我能从现实中印证或推翻如今的想法。