时间:2021-01-28 10:23:58 | 栏目:.NET代码 | 点击:次
起因
今天在公司做一个需求的时候,写的是面条代码,一个方法直接从头写到尾,其中用到了GroupBy,且GroupBy的KeySelector是多个属性而不是单个属性。
但是公司最近推行Clean Code,要让代码有可读性。且作为一个有追求的程序员,肯定是不能写面条代码的,要对代码进行拆分。
重构前GroupBy大概是这样子的:
var groups = data.GroupBy(m => new { m.PropertyA, m.PropertyB})
个人对于短的Linq比较习惯于用方法而不是用关键字的那种写法。
一开始这样写是没问题的,但是重构的时候问题就来了:这个groups是什么类型?
重构以后这个groups是要作为参数进入到别的方法中的,方法签名显然是不能用var做类型推导,必须指定确定的类型。
我们知道GroupBy出来的东西是个泛型的东西,签名是IEnumerable<IGrouping<TKey, TSource>>,这个TSource类型是没问题,我没有对Source做修改,就是data本身的类型。
但是这个Key就有问题了。
我没有指定Key的类型,这里应该是匿名类型,于是定义了一个类型承接Key,代码变成了:
class EntityKey { public int PropertyA { get set; } public string PropertyB { get set; } } ...... var groups = data.GroupBy(m => new EntityKey { PropertyA = m.PropertyA, PropertyB = m.PropertyB});
但是后来我发现这样有问题,GroupBy指定的Key失效了。也就是说,groups的分组数量与data的长度一致,每一个group里面只有一个对象。
分析
发现这个问题后,我仔细思考了一下,大致猜到了问题出在哪里。
GroupBy这种东西,判断两个对象是不是一个分组,必然用到了相等判断。
虽然我没有看匿名类型反编译生成后的IL代码,不知道之前用的是怎么做的Key相等判断,但是引用类型的肯定是直接用对象的HashCode做判断。
这样子肯定是不行的,要解决引用类型的相等判断问题。
重现
根据猜测,我写了一个Sample程序最小化的重现了这个问题:
class Program { static void Main(string[] args) { var list = new List<Student>(); list.Add(new Student(1, "Cat", 10, "University1")); list.Add(new Student(2, "Dog", 10, "University1")); list.Add(new Student(3, "Pig", 10, "University2")); list.Add(new Student(4, "Fish", 12, "University1")); var groups = list.GroupBy(m => new {m.Age, m.Class}); foreach (var group in groups) { Console.WriteLine("Age:{0},Class:{1}", group.Key.Age, group.Key.Class); foreach (var student in group) { Console.WriteLine(student); } } } class Student { public int Id { get; set; } public string Name { get; set; } public int Age { get; set; } public string Class { get; set; } public Student(int id, string name, int age, string @class) { Id = id; Name = name; Age = age; Class = @class; } public override string ToString() { return $"Id={Id},Name={Name},Age={Age},Class={Class}"; } } class StudentKey { public int Age { get; set; } public string Class { get; set; } } }
这时候输出结果是
Age:10,Class:University1
Id=1,Name=Cat,Age=10,Class=University1
Id=2,Name=Dog,Age=10,Class=University1
Age:10,Class:University2
Id=3,Name=Pig,Age=10,Class=University2
Age:12,Class:University1
Id=4,Name=Fish,Age=12,Class=University1
将new {m.Age, m.Class}替换为new StudentKey {Age = m.Age, Class = m.Class},结果却变成了
Age:10,Class:University1
Id=1,Name=Cat,Age=10,Class=University1
Age:10,Class:University1
Id=2,Name=Dog,Age=10,Class=University1
Age:10,Class:University2
Id=3,Name=Pig,Age=10,Class=University2
Age:12,Class:University1
Id=4,Name=Fish,Age=12,Class=University1
Id=1和Id=2变成了两组。
解决问题
解决问题方式有几种。
第一种
最简单,就是直接将StudentKey从class变成struct。
但是这样有个问题,class是堆内存,struct是栈内存。
虽然实际情况不一定会出现内存异常什么的,但是总归是改变了一些东西,存在隐患。
第二种
第一种方式被我自己否决后,于是打开了Google搜了一下,在StackOverflow和MSDN以及查看GroupBy源码之后,得到了GroupBy的运行原理。
GroupBy在没有传comparer的时候,会创建一个基于当前TSource类型的默认的comparer。
但不管是默认的comparer还是我们自己传的comparer,都会调用Equals和GetHashCode两个方法,所以我们需要重载这两个方法。
第二种方法就是我们在类型上重载Equals和GetHashCode两个方法。
可以实现IEquatable<TKey>使用下面的代码,也可以不实现接口,使用重载的Equals方法。
但是不论如何,一定要重载GetHashCode。
修改后StudentKey如下
class StudentKey : IEquatable<StudentKey> { public int Age { get; set; } public string Class { get; set; } public override int GetHashCode() { return Age.GetHashCode() ^ Class.GetHashCode(); } // public override bool Equals(object obj) // { // var model = obj as StudentKey; // if (model == null) // { // return false; // } // // return model.Age == Age && model.Class == Class; // } public bool Equals(StudentKey other) { return Age == other.Age && Class == other.Class; } }
第三种
第三种就是传一个comparer给GroupBy参数,实现一个IEqualityComparer<TKey>。
代码如下:
list.GroupBy(m => new StudentKey {Age = m.Age, Class = m.Class}, new StudentKeyComparer()); ...... class StudentKeyComparer: IEqualityComparer<StudentKey> { public bool Equals(StudentKey x, StudentKey y) { return x.Age == y.Age && x.Class == y.Class; } public int GetHashCode(StudentKey obj) { return obj.Age.GetHashCode() ^ obj.Age.GetHashCode(); } }
这种相对于第二种方式,最大的区别在于不用侵入实体类添加代码,但是原理是类似的。
总结
本文是在c#开发过程中碰到的一个GroupBy的分组的Key失效的问题。
了解其分组原理后,通过实现Equals和GetHashCode或者传入自定义的comparer,解决GroupBy的分组Key失效的问题。