第一百五十二章 名侦探乔闵
这种从大量信息中挖掘出知识的过程,称作数据挖掘或者知识发现,这在地球上来说,是随着计算机技术与信息技术的成熟而出现的新兴学科,与传统的数学有种千丝万缕的关联,却又超出传统数学的基本框架,算是现代应用数学的范畴。 之前曾经出现的蚁群算法,也是属于现代应用数学的范畴,除此之外,有限元分析、神经网络、小波分析与傅里叶变换、深度学习等学科,都是属于现代应用数学。 对乔闵而言,他并不喜欢现代应用数学,虽然,他不得不承认,与传统的经典数学方法相比,现代应用数学方法有着无可比拟的强大优势。以乔闵自身的角度而言,他认为,现代应用数学方法普遍缺乏数学的美感。然而,解决实际的工程问题,离不开这些现代应用数学方法,这确实是传统数学领域内学者的无奈。 虽然不喜欢现代应用数学方法,但乔闵却还是对几种典型的算法与理论还是有一定程度了解的。毕竟,喜欢与否是一回事,强大与否是另外一回事。虽然丑了点,但是好使,也是好方法。 这次的事情,解决起来,说不难也不难,说不简单也不简单。为啥这么说?从原理上来说,就是一个基于大数据的数据挖掘与知识发现问题,难点在于,知识的模式未知,该如何使用这些大数据呢? 黑衣组织兴起于五十年前,仿佛一夜之间崛起的,在刺杀了妖族超过三位重要人物后,一时之间,名声大振。而后五十年间,有超过四十位妖族重要人物被刺杀,其中包括青丘玉璃的父母在内。 在查阅了妖族的卷宗后,乔闵发现黑衣组织是一个组织非常严密,人员众多的一个大型组织。 微微思索了一下,既然如此,乔闵决定采用数据可视化技术来寻找黑衣组织的蛛丝马迹。而乔闵所依据的主要内容,就是每位妖族修士通过关卡门禁时遗留的记录了。 先以青丘玉璃遇刺事件作为突破口吧。 青丘玉璃是在妖族白云关附近被行刺的,白云关附近还有三个关卡,乔闵于是查询了这四个关卡一天之内所有修士的进出数据,总共十万条记录,还好,数量并不是非常大。 这十万条记录,就是线索。乔闵查询了这五万条记录对应的修士在事件发生前后三天的所有活动链,最终得到三万三千条数据链。 这三万三千条数据链,记录了修士三万三千名修士在青丘玉璃遇刺前后三天时间内的所有移动轨迹。 对于知识发现领域,有一个很重要的概念,相同目标的人,行为模式会具有极大的相似性。还有一个理念,就是数据绝不会说谎。 不过,这种数据链形式,行为模式的相似性被隐藏了,因此,需要对原始数据进行一定的信息处理。这个过程称作数据降维。 对于数据降维,乔闵了解主成分分析、局部线性嵌入等。不过,最适合当前情况的,当属分布邻域嵌入算法了。算法的过程略,反正明白,这种数据降维算法非常强大,可以数据点之间的高维欧几里得距离转换为表示相似性的条件概率,最终表现为,将一条数据链映射为二维平面上的一个点上。 然后,四个时辰后,乔闵通过数据降维算法,三万三千条数据变成了平面内的三万三千个点。乔闵拿着手上的这章耗费了巨大心里的图纸,仔细观察起来。