从Web到R读取文件名列表

csequi 发布于 2019-03-09 dataframe 最后更新 2019-03-09 14:42 2 浏览

我试图从网站上读取很多csv文件到R中。 Threa是多年的每日(仅限工作日)文件。所有的文件都有相同的数据结构。我可以使用以下逻辑成功读取一个文件:

# enter user credentials
user     <- "JohnDoe"
password <- "SecretPassword"
credentials <- paste(user,":",password,"@",sep="")
web.site <- "downloads.theice.com/Settlement_Reports_CSV/Power/"
# construct path to data
path <- paste("https://", credentials, web.site, sep="")
# read data for 4/10/2013
file  <- "icecleared_power_2013_04_10"
fname <- paste(path,file,".dat",sep="")
df <- read.csv(fname,header=TRUE, sep="|",as.is=TRUE)
但是,我正在寻找关于如何一次读取目录中的所有文件的提示。我想我可以生成一个日期序列,在循环中构造上面的文件名,并使用rbind来追加每个文件,但看起来很麻烦。另外,在尝试阅读没有文件的周末和假期时会出现问题。 下面的内容显示了Web浏览器中的文件列表: file list in browser part 1 ... ... ... file list in browser part 2 有没有一种方法可以扫描路径(从上面)来获取目录中所有符合certin crieteia的文件名的列表(即,以“icecleared_power_”开头,因为该位置的某些文件有不同的文件名起始名称,我不想读)然后通过该列表循环read.csv并使用rbind追加? 任何指导将不胜感激?
已邀请:

iqui

赞同来自:

如果所有报告都以“iceclearedpower”开头,而日期是商业日期,则“timeDate”软件包提供了一种创建业务日期向量的简便方法,如下所示:

require(timeDate)
tSeq <- timeSequence("2012-01-01","2012-12-31") # vector of days
tBiz <- tSeq[isBizday(tSeq)] # vector of business days
paste0("icecleared_power_",as.character.Date(tBiz))
为您提供连接的文件名。 如果网站遵循关于文件命名的不同逻辑,我们需要更多信息,如Ananda Mahto所观察到的那样。 请记住,当您使用timeDate创建日期向量时,您可以比我的简单示例更复杂。您可以考虑假期时间表,证券交易所日期等。

godio

赞同来自:

您可以尝试使用命令“download.file”。

### set up the path and destination
path <- "url where file is located"
dest <- "where on your hard disk you want the file saved"
### Ask R to try really hard to download your ".csv"
try(download.file(path, dest))
解决这个问题的方法是弄清楚文件之间“url”或“path”如何系统地改变。通常,网页的构建使得“网址”是系统的。在这种情况下,您可以创建url的向量或数据框,以在apply函数内部进行迭代。 所有这些都可以夹在“lapply”中。 “数据”对象就是我们迭代的任何东西。它可以是URL的矢量或年和月观察的数据帧,然后可以用于在“lapply”函数内创建URL。
### "dl" will apply a function to every element in our vector "data"
  # It will also help keep track of files which have no download data
dl <- lapply(data, function(x) {
        path <- 'url'
        dest <- './data_intermediate/...'
        try(download.file(path, dest))
      })
### Assign element names to your list "dl"
names(dl) <- unique(data$name)
index     <- sapply(dl, is.null)
### Figure out which downloads returned nothing
no.download <- names(dl)[index]
然后,您可以使用“list.files()”将所有数据合并在一起,假设它们属于一个data.frame
### Create a list of files you want to merge together
files <- list.files()
### Create a list of data.frames by reading each file into memory
data  <- lapply(files, read.csv)
### Stack data together
data <- do.call(rbind, data)
有时,您会注意到文件在下载后已损坏。在这种情况下,请注意download.file()命令中包含的选项“mode”。如果文件以二进制格式存储,则可以设置mode =“w”或mode =“wb”。

quo_et

赞同来自:

我首先尝试抓取相关数据文件的链接,并使用生成的信息构建包含用户登录等的完整下载路径。正如其他人所建议的那样,lapply可以方便批量下载。 这是一种提取URL的简便方法。显然,修改示例以适合您的实际场景。 在这里,我们将使用XML包来识别Amelia包(http://cran.r-project.org/src/contrib/Archive/Amelia/)的CRAN档案中可用的所有链接。

> library(XML)
> url <- "http://cran.r-project.org/src/contrib/Archive/Amelia/"
> doc <- htmlParse(url)
> links <- xpathSApply(doc, "//a/@href")
> free(doc)
> links
                   href                    href                    href 
             "?C=N;O=D"              "?C=M;O=A"              "?C=S;O=A" 
                   href                    href                    href 
             "?C=D;O=A" "/src/contrib/Archive/"  "Amelia_1.1-23.tar.gz" 
                   href                    href                    href 
 "Amelia_1.1-29.tar.gz"  "Amelia_1.1-30.tar.gz"  "Amelia_1.1-32.tar.gz" 
                   href                    href                    href 
 "Amelia_1.1-33.tar.gz"   "Amelia_1.2-0.tar.gz"   "Amelia_1.2-1.tar.gz" 
                   href                    href                    href 
  "Amelia_1.2-2.tar.gz"   "Amelia_1.2-9.tar.gz"  "Amelia_1.2-12.tar.gz" 
                   href                    href                    href 
 "Amelia_1.2-13.tar.gz"  "Amelia_1.2-14.tar.gz"  "Amelia_1.2-15.tar.gz" 
                   href                    href                    href 
 "Amelia_1.2-16.tar.gz"  "Amelia_1.2-17.tar.gz"  "Amelia_1.2-18.tar.gz" 
                   href                    href                    href 
  "Amelia_1.5-4.tar.gz"   "Amelia_1.5-5.tar.gz"   "Amelia_1.6.1.tar.gz" 
                   href                    href                    href 
  "Amelia_1.6.3.tar.gz"   "Amelia_1.6.4.tar.gz"     "Amelia_1.7.tar.gz" 
为了演示,想象一下,最终,我们只需要1.2版本软件包的链接。
> wanted <- links[grepl("Amelia_1\\.2.*", links)]
> wanted
                  href                   href                   href 
 "Amelia_1.2-0.tar.gz"  "Amelia_1.2-1.tar.gz"  "Amelia_1.2-2.tar.gz" 
                  href                   href                   href 
 "Amelia_1.2-9.tar.gz" "Amelia_1.2-12.tar.gz" "Amelia_1.2-13.tar.gz" 
                  href                   href                   href 
"Amelia_1.2-14.tar.gz" "Amelia_1.2-15.tar.gz" "Amelia_1.2-16.tar.gz" 
                  href                   href 
"Amelia_1.2-17.tar.gz" "Amelia_1.2-18.tar.gz" 
您现在可以使用该向量,如下所示:
wanted <- links[grepl("Amelia_1\\.2.*", links)]
GetMe <- paste(url, wanted, sep = "")
lapply(seq_along(GetMe), 
       function(x) download.file(GetMe[x], wanted[x], mode = "wb"))

更新(在评论中澄清您的问题) 上例中的最后一步将指定的文件下载到当前工作目录(使用getwd()来验证它的位置)。相反,如果您确定read.csv可以处理数据,您还可以尝试修改匿名函数以直接读取文件:
lapply(seq_along(GetMe), 
       function(x) read.csv(GetMe[x], header = TRUE, sep = "|", as.is = TRUE))
但是,我认为更安全的方法可能是首先将所有文件下载到单个目录中,然后使用read.delimread.csv或其他任何工作来读取数据,类似于@Andreas所建议的。我说更安全,因为它可以提供更大的灵活性,以防文件没有完全下载等等。在这种情况下,您只需要下载未完全下载的文件,而不必重新下载所有内容。