一、 CV领域

在这里插入图片描述

1.1 图像处理

  • 《神经网络特征匹配入门》GitHub源码:当你使用相机中的全景模式来拍摄一张广角照片时,你可能会好奇这个全景模式背后是如何工作的。再比如,你有一段骑自行车时拍摄的抖动视频,你打开编辑应用程序并选择视频稳定化选项,它能给你提供一个完全稳定的视频版本。这很酷,对吧?但是它是如何做到的呢?让我告诉你一个秘密:所有这些功能都是利用一种称为特征匹配的传统计算机视觉方法来实现的。

  • 使用opencv特征匹配构建 Chrome Dino 游戏机器人GitHub源码

  • 使用OpenCV中的点特征匹配技术实现视频稳定化GitHub源码:视频稳定化是一种技术,用于减少因摄像机抖动或移动而导致的视频质量下降。传统的摄像机在拍摄时常常受到外部因素的影响,导致画面不稳定。稳定化技术通过算法调整视频帧,平滑视觉效果,使观众获得更流畅的观看体验。

  • 《使用U2-Net进行高效背景去除》:U2-Net是一种简单而强大的基于深度学习的语义分割模型,革命性地改善了图像分割中的背景去除。它在前景与背景隔离方面的有效方法在广告、电影制作和医学影像等应用中至关重要。本文还将讨论U2-Net的增强版本IS-Net,并展示其优越的结果,特别是在复杂图像上的表现。
    在这里插入图片描述

  • 《How Computer Vision Techniques Make People Look More Attractive》:探索计算机视觉技术用于面部增强的功能。我们深入研究了去除瑕疵、均匀肤色等的算法。此外,我们还概述了用于面部改善的流行商业解决方案,并附有各种案例研究。
    在这里插入图片描述
    -《将视频转换为幻灯片并保存为PDF》GitHub源码:本文介绍如何利用OpenCV中的帧差分和背景减法技术,构建一个简单的视频转幻灯片应用。该应用特别适用于将带有动画的视频转化为PPT或PDF格式的幻灯片,方便在缺少原始幻灯片文件的情况下(如在YouTube上观看的讲座视频)获取内容。
    在这里插入图片描述

  • 《Create Snapchat/Instagram Filters Using Mediapipe》:Snapchat 和 Instagram 提供了各种各样的滤镜功能,本文我们将了解这些增强现实滤镜的工作原理,以及如何使用 Mediapipe 框架创建自己的滤镜!
    在这里插入图片描述

  • 《A Closer Look at CVAT: Perfecting Your Annotations》YouTube视频如何使用CVAT标注骨架CVAT是OpenCV发布的一个免费的图像和视频标注工具集。CVAT可以使用矩形(边界框)、多边形(遮罩)、关键点、椭圆、折线等来标注图像或视频帧。CVAT还提供了详尽的标注格式列表,以导出目标数据集标签。
    在这里插入图片描述

  • 《CVAT SDK PyTorch adapter: 在您的机器学习流程中使用CVAT数据集》:CVAT是一个视觉数据标注工具,以前在完成标注后,需要将将其转换为适合你的机器学习框架的数据结构。在CVAT SDK 2.3.0中,新引入了cvat_sdk.pytorch模块(PyTorch适配器),使得部分情况下可直接将CVAT项目作为PyTorch兼容的数据集使用,从而简化了数据导入的流程。

  • 《使用 OpenCV 构建自定义图像注释工具》:注释是深度学习项目中最重要的部分。它是模型学习效果的决定性因素。但是,这是非常乏味和耗时的。一种解决方案是使用自动图像注释工具pyOpenAnnotate ,该工具可以大大缩短持续时间。我们还分享了一个 streamlit Web 应用程序,供您试用注释工具
    在这里插入图片描述

1.2 目标检测与识别

1.3 图像分割、目标追踪

1.4 姿态估计

1.5 3D视觉

  • 《立体视觉简介及iphones 中的深度估计技术》

  • 《为什么相机校准在计算机视觉中如此重要》

  • 《Tech track #4. NeRF: Photorealistic Image Synthesis》:3D 视觉领域一项重要任务是 Novel View Synthesis,它旨在使用该场景的稀疏图像集从新颖的角度生成场景的图像。该领域的一个显着突破是 NeRF 模型(神经辐射场),它使用神经网络和体积渲染技术来生成场景的新视图。NeRF 的输入是一组具有相应相机位置(外在矩阵)的图像,该模型本质上是对给定3D场景的一种特殊表示,由一系列连续的点组成,每个点都有预测的密度和颜色。
    在这里插入图片描述

  • 《Depth Anything: Accelerating Monocular Depth Perception》:单眼深度感知是 3D 计算机视觉的一个关键方面,它能够从单个二维图像中估计 3D 结构。与依赖多个视点来推断深度的立体技术不同,单眼深度感知算法必须从各种图像特征(如纹理渐变、对象大小、阴影和透视)中提取深度线索。应用领域包括水下成像、人体动作观察、手势识别、野生动物监测、地形测绘等等。
    在这里插入图片描述

  • 《激光雷达SLAM简介:LOAM和LeGO-LOAM论文及代码解析与ROS 2实现》:在机器人感知研究中,LiDAR SLAM是一个独特的领域,因为它必须处理各种场景,例如室内和室外环境,自我车辆的高速,动态对象,变化的天气条件以及实时处理的需求等。
    在这里插入图片描述

  • 3D激光雷达可视化github源码):3D激光雷达传感器(或)三维光探测与测距是一种先进的光发射仪器,它能够像人类一样在三维空间中感知现实世界。这项技术特别是对地球观测、环境监测、侦察以及现在的自动驾驶领域产生了革命性的影响。它提供准确和详细数据的能力,对于提升我们理解和管理环境及自然资源起到了至关重要的作用。

在这里插入图片描述

  • ADAS简介:随着汽车技术的快速发展,推动更安全、更智能、更高效的驾驶体验一直是汽车创新的前沿。高级驾驶辅助系统(ADAS)是这场技术革命的关键参与者,是指集成到现代车辆中的一系列技术和功能,以增强驾驶员安全性,改善驾驶体验,并协助完成各种驾驶任务。它使用传感器,摄像头,雷达和其他技术来监控车辆的周围环境,收集数据并向驾驶员提供实时反馈。在今天关于ADAS的文章中,我们将讨论不同级别的ADAS(0至5级), ADAS系统如何工作。
    在这里插入图片描述

  • 《 ADAS:立体视觉中超越LiDAR的深度感知先锋》:本文将探讨汽车中的ADAS立体视觉如何改变游戏规则,为深度感知提供一种智能替代方案,而不是传统的基于LiDAR的方法。该综合研究文章包括一个逐步流程,介绍如何设置和微调STereo TRansformer(STTR),以从两个摄像头流中预测视差图,类似于人眼的工作方式。除了纯粹的计算机视觉理论,本文还包含了在微调KITTI立体视觉数据集后的真实实验结果。源码
    在这里插入图片描述

  • 《使用Python和OpenCV从零开始构建SLAM》SLAM是机器人和3D计算机视觉中的一个众所周知的术语。它是机器人感知的一个组成部分,负责使机器人能够在未知的地形中导航。特斯拉的自动驾驶汽车就使用了这种技术。
    在这里插入图片描述

1.6 图像生成

  • 《Introducing the Kopikat》KopiKat是一款无代码的生成式数据增强工具,通过生成多样化的图片,保持原始标注,从而显著提升神经网络在小数据集(少于5000张图像)上的效果。它在以下方面具有重要应用:

    1. 目标检测:提升YOLOX-Nano等模型的准确性,适用于零售流量分析、安全系统、自动驾驶等实时识别场景。
    2. 小数据集训练:多样化小规模数据集,使得工业应用在数据有限的情况下也能得到有效模型。
    3. 迁移学习:使用增强后的数据集进行迁移学习,有助于减少新任务或数据集的训练时间和资源。

KopiKat为有限数据量的项目提供了更高效的数据扩充方式,助力高质量产品的快速开发。在这里插入图片描述

1.7 机器视觉

1.8 其它

二、 nlp

三、语音

四、推荐系统

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部