Puppeteer 处理文件下载

原创 2019年 4月 29日
标签: PUPPETEER
本文发布至今已有5年零267天,可能不再适用,请谨慎对待。

本文要解决的是如何用 Puppeteer 处理下载文件,无论是点击链接产生的文件下载,或者是点击按钮触发的文件下载。以及如何对文件进行后续处理。

使 Chromium 自动下载文件,将会碰到下面几个问题:

  • 指定文件下载路径
  • 下载结束的事件
  • 检查下载文件是否存在

下面逐一解释。

指定路径

Chrome 有自动下载的目录,一般在设置页面里有选项,在下载开始时刻弹出文件选择框,让用户选择下载路径。

在自动化运行时,显然不能在运行中等待用户输入地址,所以需要提前指定下载路径,具体写法是:

await page._client.send('Page.setDownloadBehavior', {
    behavior: 'allow', 
    downloadPath: 'path/to/download'
})

将这条语句放置在下载活动之前,就能指定自动下载路径。截止目前,这是 Puppeteer 的一项试验功能,并没有正式推出。

开始下载文件

触发下载文件,根据具体的应用决定,可能是:

  • 点击一个链接
  • 点击一个按钮
  • 页面自动下载

并没有什么本质区别

下载结束的事件

截止目前,Puppeteer并没有提供下载结束的事件。根据具体的情形,可以等待某个响应的结束(似乎并不很有用):

await page.waitForResponse(res => {
  return res.request().url().includes('some/api') &&
  res.ok()
})

或者在等待一定时间后,直接检查文件系统里是否存在目标文件。

检查下载的文件

虽然没有下载结束的事件,有一个退而求其次的方法,就是等待一段时间后,去检查下载的文件是否存在于指定路径中。但是这种方法必须首先知道下载的文件名称。

function waitForFile(fileName){
  return new Promise(function(resolve, reject){
    let timeout = 10000
    let timer = setTimeout(function() {
      fs.access(fileName, fs.constants.R_OK, (err)=>{
        if(!err){
          resolve(`文件 ${fileName} 已出现.`)
        }else{
          reject(new Error(`文件 ${fileName} 未找到.`))
        }
      })                
    }, timeout)

    fs.access(fileName, fs.constants.R_OK, (err)=>{
      if(!err){
        clearTimeout(timer)
        resolve(`文件 ${fileName} 已存在.`)
      }
    })
  })
}

上面这段代码首先设置了10秒最大等待时间,即在第10秒钟时,尝试访问指定文件,如果存在,则 resolve 一条成功的消息。然后立即尝试访问文件,如果文件已经存在,就直接 resolve,而没有必要傻等。

完整的代码

将上述的几条代码片段结合起来,大概是这样的:

//设置下载路径
await page._client.send('Page.setDownloadBehavior', {
    behavior: 'allow', 
    downloadPath: 'path/to/download'
})

// 点击按钮触发下载
await (await page.waitForSelector('#someButton')).click();

// 等待文件出现
await waitForFile('path/to/download/filename');

更新

上节:检查下载的文件 等待文件出现还有另外一种实现方法:使用 fs.watch(filename, listener) ,自带的 监测文件变动的函数.

这个函数返回一个 watcher 对象,我们可以在监测到文件出现(发生"rename"事件)后,就将 watcher 关闭,避免无休止的等待:

function waitForFile(path){
    return new Promise(function(resolve, reject){
        const watcher = fs.watch(path, function(event, fileName){
            if(event === "rename") {
                watcher.close();
                resolve(`文件 ${fileName} 已出现.`);
            }
        });
    })
}

(完)

如果您对本文有疑问或者寻求合作,欢迎 联系邮箱邮箱已到剪贴板

标签: PUPPETEER
给个免费的赞吧~

精彩评论

本站 是个人网站,采用 署名协议 CC-BY-NC 授权。
欢迎转载,请保留原文链接 https://www.lfhacks.com/tech/puppeteer-file-download/ ,且不得用于商业用途。