代码优化：寻找文件中特定模式的行

在编程过程中，经常会遇到需要优化代码的情况。最近，有人提出了一个作业问题，要求编写一个方法来读取文件，并返回所有后面跟着一个包含三个星号(***)的行的行。然而，提供的代码质量很差，即使是对于初学者来说也是如此糟糕，以至于都不想通过链接来展示它。

代码示例：


        public static string FindLineAboveAsterisks(TextReader reader)
        {
            StringBuilder sbBuilder = new StringBuilder();
            string result = reader.ReadLine();
            string line = String.Empty;
            while (result is object && (line = reader.ReadLine()) is object)
            {
                int startIndex = 21;
                int length = 9;
                if (line.Contains("***"))
                {
                    sbBuilder.AppendLine(result);
                    return result;
                }
                {
                    result = line.Substring(startIndex, length);
                }
            }
            return string.Empty;
        }

看到这段代码，可能会开始怀疑...为什么？这种缩进是为了什么？为什么要这么做？期望它如何工作？当然，它不能工作——原因在于作者根本没有考虑任务就把它拼凑在一起。

回答（稍微扩展了一些）：

看起来这段代码是匆忙拼凑起来的，没有考虑要做什么！知道这听起来很直接。但想要引起他的注意。

扔掉它，思考任务：读取一个文件，找到所有上面有星号的行，并返回它们。

让从头开始：需要返回多行——所以显然应该返回一个字符串集合而不是单个字符串。因为尽管可以将它们作为单个字符串返回，但这会让调用方法的代码更加困难——它必须“再次拆分”才能使用这些信息。

让改变这一点：


        public static List FindLineAboveAsterisks(TextReader reader)

现在，它返回一个字符串集合，这样外部世界就可以使用它了。

思考一下想让这个方法做什么：不要为调用代码增加复杂性——因为可能会调用它一次或多次，而只需要写一次。如果让外部世界工作更辛苦，那么就是在每次使用该方法时增加自己的工作量！

但是...为什么要传递一个TextReader？这意味着每次调用时，外部世界都必须执行创建、打开、传递和关闭读取器的工作——这是愚蠢的。传递路径，让方法决定如何处理它：


        public static List FindLineAboveAsterisks(string filePath)

现在，调用者看起来更容易使用。

再次，让自己的生活更轻松：想读取一个文件？传递路径，让方法决定如何处理它。如果传递一个TextReader，或者一个Stream，那么就是在限制外部世界可以做的事情，并强制代码适应可能不是最简单或最有效的“形状”。

让参数越“通用”，代码就越灵活——这意味着它可以被重用——这可以节省编写另一个类似方法来做几乎相同事情的时间。

让开始填充方法：需要一个List来返回，并处理文件中的每一行。如果想使用每一行，那么让直接获取它们，让系统处理它！这很简单：


        public static List FindLineAboveAsterisks(string filePath)
        {
            List lines = new List();
            foreach (string line in File.ReadLines(filePath))
            {
                // ...
            }
            return lines;
        }

还有什么比这更简单的吗？知道必须做两件事：返回一个行的集合，并处理文件中的每一行。所以在方法的顶部创建集合；在结束时返回它。添加一个简单的循环，每次给一行。结果：代码简单，易于编写。如果它容易编写，它可能会工作...

现在，如何处理这些行？

简单；需要收集所有下一行包含三个星号的行。所以需要知道上一行是什么。

想一下：在循环内部，怎么知道下一行包含什么？实际上，不能（除非使代码复杂化并使用不同的循环结构，但那是混乱的）。但确实知道上一行是什么——因为已经处理过了，可以为下次保留一个副本。

所以把问题反过来，把它看作是“找到所有包含三个星号的行，并返回每个的上一行”。片刻的思考告诉这给出了相同的结果，意味着可以处理已经看过的“历史数据”，而不是还没有看过的“未来数据”。

让添加它：


        public static List FindLineAboveAsterisks(string filePath)
        {
            List lines = new List();
            string lastLine = "";
            foreach (string line in File.ReadLines(filePath))
            {
                // ...
                lastLine = line;
            }
            return lines;
        }

每次，都在添加一点点简单的代码——没有什么复杂的，所以出错的可能性更小。

需要检查当前行是否包含"***"。如果是，将上一个添加到集合中。那也很容易——一个快速的if测试就可以了：


        public static List FindLineAboveAsterisks(string filePath)
        {
            List lines = new List();
            string lastLine = "";
            foreach (string line in File.ReadLines(filePath))
            {
                if (line.Contains("***"))
                {
                    lines.Add(lastLine);
                }
                lastLine = line;
            }
            return lines;
        }

等等...它完成了，不是吗？

所要做的就是调用它并测试它：


        string path = @"D:\Test Data\List of hats.txt";
        foreach (string line in FindLineAboveAsterisks(path))
        {
            Console.WriteLine(line);
        }

本可以向展示原始代码...但可能刚刚吃完饭...

哦，看——它工作了！

做了什么？

基本上，所做的就是把一个完整的任务分解成更小的任务：

任务：“编写一个方法来读取文件并返回所有后面跟着一个包含三个星号的行的行。”

决定它需要返回什么

决定它需要什么参数

创建可返回的值，并设置返回它。

添加一个循环来查看每一行。

在循环结束时保存当前行，以便下次使用。

检查行是否有星号。

如果是，将上次循环保存的行添加到输出集合中。

这些任务都不难：它们是一行或两行代码，而且代码也很简单。

这就是秘密：大任务由更小的任务组成，这些任务又由更小的任务组成。

习惯了：每天都在使用它！

任务：“吃早餐。”

更小的任务：

去厨房。

决定早餐吃什么。

准备它。

吃它。

吃完后自己洗。

这些任务中的每一个可能都很复杂：

子任务：“去厨房”

弄清楚在哪里。

弄清楚如何从这里到厨房。

移动到那里。

这些可能有子子子任务：

子子任务：“弄清楚在哪里”

醒来。

睁开眼睛。

环顾四周：在哪里？认识这个房间吗？昨晚到底做了什么？

...

关键是，每个任务都可以分解成更小的部分，直到达到一个可以做或者知道如何去做的任务。如果在一个陌生的房间里醒来，那么需要检查是否有其他人，并可能问他们厨房在哪里——等等。

软件任务也是一样的；将任务细化成更小的部分，有些——可能全部——可以轻松完成，并构建起更大的、更复杂的任务，这些任务听起来似乎不可能完成。

开始思考而不是急于编码：五分钟的计划可以节省几个小时的工作！

2020年10月6日：原始版本

分布式缓存解决方案：ScaleOut StateServer

了解ScaleOut StateServer如何通过分布式缓存技术，为服务器集群提供高性能、可扩展性和高可用性的解决方案。

使用CodeProject.AI和Blue Iris进行面部识别

本文介绍了如何使用CodeProject.AI Server和Blue Iris软件来检测未知人员并发送邮件通知。

代码优化：寻找文件中特定模式的行

做了什么？

分布式缓存解决方案：ScaleOut StateServer

使用CodeProject.AI和Blue Iris进行面部识别

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

代码优化：寻找文件中特定模式的行

做了什么？

分布式缓存解决方案：ScaleOut StateServer

使用CodeProject.AI和Blue Iris进行面部识别

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379