用户上传Excel文件,要求读取里面数据,其实可以很简单!新版Excel2007以上的xlsx文件,本质上是OpenXml格式,只需要解开压缩包然后读取内部Xml即可得到想要的数据。ExcelReader 用于快速读取单Sheet的Excel数据,早期是收费出售源码的项目,最近一年转为开源。

Nuget包:NewLife.Core

源码:https://github.com/NewLifeX/X/blob/master/NewLife.Core/IO/ExcelReader.cs

视频:https://www.bilibili.com/video/BV1BR4y1R7TJ

如果是csv格式文件,可以选择CsvFile:Csv解析CsvFile


读取XLSX文件

ExcelReader 的设计非常简单,通过文件名或者数据流实例化对象后,直接ReadRows返回枚举数。

var reader = new ExcelReader("data/test.xlsx");
var rows = reader.ReadRows().ToList();
Assert.Equal(927, rows.Count);

var names = "序号,名字,昵称,启用,年龄,生日,时间,余额,比率".Split(",");
var fields = rows[0].Cast<String>().ToArray();
Assert.Equal(names.Length, fields.Length);
for (var i = 0; i < names.Length; i++)
{
    Assert.Equal(names[i], fields[i]);
}

var values = "111,Stone,大石头,1,36.6,1984-07-01,2020-03-04 20:08:45,323.452,0.234".Split(",");
var row1 = rows[1];
Assert.Equal(values.Length, row1.Length);
for (var i = 0; i < values.Length; i++)
{
    Assert.Equal(values[i], row1[i]);
}

ReadRows原型如下:

/// <summary>逐行读取数据,第一行很可能是表头</summary>
/// <param name="sheet">工作表名。一般是sheet1/sheet2/sheet3,默认空,使用第一个数据表</param>
/// <returns></returns>
public IEnumerable<Object[]> ReadRows(String sheet = null);

ExcelReader读取是并不会一次性加载整个文件进入内存,而是通过ReadRows返回一个枚举数,在枚举的过程中逐行读取。因此ExcelReader的内存消耗特别低,读取速度还特别快,并且支持读取超大文件。