1. 研究目的与意义
我国既是一个陆地大国同时也是一个海洋大国,海洋资源较为丰富,海洋渔业能够产出巨大的经济效益。2019年,我国渔业总产值为12572.4亿元,海洋渔业总产值约为6023.30亿元,占比为47.91%。随着居民收入的提升,海洋水产也愈来愈多地出现在千家万户的餐桌上。目前我国水产品人均占有量为41.59千克,近年来一直保持着上升的趋势。从供给侧来看,海洋水产品的获取一方面来自于养殖,另一方面则来自于渔船的捕捞作业。
船舶碰避终端(AIS),北斗定位终端等通信导航设备的应用,给船只海上交通和作业带来了极大便利,但同时存在着由于设备信息使用不规范造成的巨大人身和财产损失,这给海上安全治理带来了新的挑战。
提升海上安全治理能力,首要任务便是“看得清”,即看得清“是什么,谁在用,做什么”。因此,通过机器学习的方法建立模型对渔船作业方式进行识别具有很强的现实意义。
2. 研究内容和预期目标
本文以渔船作业方式识别为最终目标,借助统计方法与自然语言处理中的Word2vec模型从渔船航行时序数据中充分挖掘特征,使用机器学习中的LightGBM算法对得到的特征集进行训练从而得出分类结果,并运用Python编写代码实现整个过程。本文主要有以下几点目的与意义。
1. 通过数据分析了解渔船不同作业方式间的特点;
2. 通过多种手段提取渔船航行数据特征;
3. 国内外研究现状
本文所研究的渔船作业方式识别问题,实质上是对渔船航行时序数据的分类问题。而解决时序数据分类问题的方法经过多年发展,现在已经发展得较为成熟。常见的时序数据分类方法主要有基于距离的K最近邻分类方法,基于特征提取的方法,基于集成学习的方法以及基于人工神经网络的方法等。 李文海等人使用了基于DTW距离的K最近邻分类方法对具有周期性时间序列进行遴选,并在一些常用的周期性时间序列上与一些已有算法比较验证了其方法的有效性[1]。舒伟博提出了一种微局部特征二分类算法,即借助时序数据的局部特征对时序数据进行分类。该算法着眼于局部特征本身的性质,对局部特征集进行限制,进而改进现有的基于局部特征的分类算法.并且通过理论分析支撑,将经典算法的局部特征集大幅缩小,进而显著提升了分类算法的时间性能.另一方面通过重定义局部特征的评价标准,该算法选出性质更为优良的局部特征,从而提升了分类精度[2]。张国豪和刘波通过结合卷积神经网络和循环神经网络中的双向门控循环单元提出了一个新的端对端深度学习神经网络模型BiGRU-FCN。该模型通过不同网络的运算来获取多种特征信息,如卷积神经网络提取时序信息上的空间特征以及双向循环神经网络在序列上的双向时序依赖特征,对单维时间序列进行分类[3]。 Lahcen El bouny等人提出了一种单通道心电信号的端到端深度学习方法。该方法结合一维CNN模型和平稳小波变换,从不同小波子带和心电信号中提取特征。然后采用不同的融合策略对ML-WCNN模型提取的特征进行融合,特别是采用拼接和最大化的方法。这大大改善了不同尺度的心电信号的特征学习过程,提供了更好的诊断性能[4]。张可、崔乐将PCA和LSTM综合运用于多元时间序列的分类问题中[5]。Merve Bozo等人提出了一种用于多光谱时间序列分类的端到端深度网络,并将其应用于作物类型制图中[6]。Ye Zhang等人将时间序列编码为递归图(PR)图像,构造的RP图像可以代表非常长的序列(gt;700点)。接下来,将设计的符号掩模相乘得到MS-RP图像,以消除趋势混淆。最后利用MS-RP图像训练FCN进行分类。在45个基准数据集上的实验结果表明,该方法在分类精度和可视化评价方面提高了目前的水平[7]。 Huanhuan Li等人提出了一种自适应约束DTW (ACDTW)算法,通过引入新的自适应惩罚函数来更精确地计算轨迹之间的距离。提出了两种不同的惩罚方法,以有效地自动适应一个时间序列中的多个点对应另一个时间序列中的单个点的情况。该算法能够自适应地调整两轨迹之间的对应关系,从而提高不同轨迹之间的匹配精度。使用UCR时间序列档案和真实船舶轨迹进行了大量的分类和聚类实验。分类结果表明,ACDTW算法在UCR时间序列档案上的分类性能优于4种最新算法。聚类结果表明,ACDTW算法对海上交通船舶轨迹建模的性能在三种现有算法中是最好的[8]。 而在渔船作业方式识别问题的研究上,郑巧玲等人以航速和航向为特征变量,从北斗数据库中选取39艘拖网渔船、15艘流刺网渔船和24艘流动张网渔船共78个样本。在时序上,各随机提取500个航速数据和对应的500个航向数据,分别以航速和航向数据作为BP神经网络的输入训练两个不同的模型[9]。张胜茂等人通过北斗船位的数据挖掘识别渔船作业类型,判断渔船捕捞状态、分析渔船捕捞努力量、追溯渔船、获取渔船行为特点,为精细化的渔船管理提供丰富的参考数据[10]。张荣瀚给出了一种基于收网时的作业参数提取流刺网的方法。根据该种方法仅使用船位数据就能判断出船只的具体捕捞状态,具有精度高、持续时间长、处理速度快、实时程度高等特点[11]。 综上所述,在时间序列分类以及渔船作业方式识别方面的方法较为多样,并且处在一个不断发展的过程,以神经网络为代表的机器学习方法是目前解决这一问题的重要手段。 本文在数据预处理阶段尝试使用Savitzky-Golay滤波拟合法对时间序列数据进行降噪处理。在特征提取阶段利用Geohash算法获得渔船轨迹序列的字符表示。最后使用集成学习中的LightGBM算法构建渔船作业方式识别模型。 Savitzky-Golay滤波拟合法是一种通过最小二乘卷积实现局部区间的多项式拟合的方法,能够有效去除数据的高频噪声。该方法有两个关键参数:滑动窗口N和多项式拟合阶数k。若N太长,会导致有效信号丢失;若N太短则会影响降噪性能。k过高会致使新的噪声出现;k过低会导致信号失真。因此,应当合理选取N和k以实现随机降噪和保持有效信号的平衡[12]。 GeoHash是一种地理编码,它是一种分级的数据结构,把空间划分为网格。采取GeoHash二进制编码的核心思想是,沿着经度和纬度的方向递归交替二分地球表面,通过该种方法将二维的平面点数据转换成一维的唯一数值。该算法支持聚块存储和高效查询、检索,广泛运用于地物周边查询、地理围栏技术[13]。 Word2vec是一种计算工具,主要用于文本单词的向量计算。可以在百万数量级的词典和上亿的数据集上高效地训练,经过训练后所得到的数据集结果称为词向量(word embedding),词向量可以很好地度量词与词之间的相似性。Embedding是数学领域的专有名词,是指把某个对象X嵌入到另外一个对象Y中,映射f:X→Y,例如有理数嵌入到实数中。在文本表示中,Word Embedding实际上把词汇表中的单词或者短语映射成由实数构成的向量上[14]。 LightGBM算法是GBDT(Gradient BoostingDecision Tree)的代表算法之一,该算法由微软开源,支持GPU加速和并行训练。其目的主要是为了解决GBDT在处理海量数据时遇到的问题,从而让GBDT可以更高效地运用于工业实践。 LightGBM算法的主要改进包括直方图算法和带深度限制的Leaf-wise的叶子生长策略等。 直方图算法的基本思想是将连续的浮点特征值离散为k个整数即分箱,同时构造一个宽度为k的直方图。而后通过遍历数据,以离散化后的值为索引在直方图中累积统计量。完成遍历后,直方图便累积了需要的统计量,然后根据直方图的离散值遍历寻找最优分裂点。使用直方图算法具有许多优点,首先可以降低内存的消耗,直方图算法仅需要保存特征离散化后的值。相较于原先的连续浮点数,这个值一般用八位整型存储即可。其次,在计算上的代价也大幅降低。相较于预排序算法每遍历一个特征值就需要计算一次分裂的增益,而直方图算法仅需要计算k次。此外,直方图算法还支持作差加速。即节点分裂时右子节点的直方图等于其父节点的直方图减去左节点的直方图。 传统的叶子生长策略对同一层的叶子可以同时进行分裂,实际上很多叶子的分裂增益比较低,没有必要分裂,这会带来很多不必要的开销。因此,LightGBM使用一种更为高效的叶子生长策略:每次从当前所有叶子中寻找分裂增益最大的一个叶子进行分裂,并通过设置树的最大深度来防止过拟合的发生[15]。
|
4. 计划与进度安排
研究计划:
1、2022.7.28 完成选题工作
2、2022.10.2 完成开题工作
5. 参考文献
[1]李文海,程佳宇,谢晨阳.基于DTW相似判定的周期性时间序列预测方法[J].计算机科学,2019,46(05):157-162. [2]舒伟博.基于微局部特征的时序数据二分类算法[J].计算机系统应用,2019,28(11):138-146. [3]张国豪,刘波.采用CNN和Bidirectional GRU的时间序列分类研究[J].计算机科学与探索,2019,13(06):916-927. [4]LahcenEl bouny, Mohammed Khalil, Abdellah Adib. An End-to-End Multi-Level WaveletConvolutional Neural Networks for heart diseases diagnosis. 2020,417:187-201. [5]张可,崔乐.基于PCA-LSTM模型的多元时间序列分类算法研究[J].统计与决策,2020,36(15):44-49. [6]MerveBozo, Erchan Aptoula, Zehra #199;ataltepe.A Discriminative Long Short Term Memory Network with Metric Learning Appliedto Multispectral Time Series Classification. 2020, 6(7) [7]YeZhang, Yi Hou, Shilin Zhou, et al. Encoding Time Series as Multi-Scale SignedRecurrence Plots for Classification Using Fully Convolutional Networks. 2020,20(14) [8]Huanhuan Li, Jingxian Liu, Zaili Yang, et al. Adaptivelyconstrained dynamic time warping for time series classification andclustering. 2020, 534:97-116. [9]郑巧玲,樊伟,张胜茂,张衡,王晓旋,郭刚刚.基于神经网络和VMS的渔船捕捞类型辨别[J].南方水产科学,2016,12(02):81-87. [10]张胜茂,汤先锋,樊伟,朱文斌. 北斗船位数据挖掘技术在渔船管理中的应用[A]. 中国卫星导航系统管理办公室学术交流中心.第九届中国卫星导航学术年会论文集——S02 导航与位置服务[C].中国卫星导航系统管理办公室学术交流中心:中科北斗汇(北京)科技有限公司,2018:5. [11]张荣瀚,张胜茂,陈雪忠,樊伟,朱文斌.基于北斗船位数据的流刺网网次和方向提取方法研究[J].海洋渔业,2019,41(02):169-178. [12]马良玉,王永军.基于Savitzky-Golay滤波的双向门控循环单元神经网络汽轮机热耗率预测[J].科学技术与工程,2020,20(09):3623-3628. [13]李高云,旷生玉,江果,何欢.基于GeoHash的电磁大数据航迹挖掘[J].电子信息对抗技术,2020,35(04):23-27. [14]段立,徐鸿宇,王懿,赵莉,刘冲,郭娇.基于word2vec和XGBoost相结合的国网95598客服投诉工单分类[J].电力大数据,2019,22(12):50-57. [15]顾桐,许国良,李万林,李家浩,王志愿,雒江涛.基于集成LightGBM和贝叶斯优化策略的房价智能评估模型[J/OL].计算机应用:1-8[2020-08-18].http://kns.cnki.net/kcms/detail/51.1307.TP.20200708.1639.016.html.
|
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。