一篇流水账——那些流经我的回忆-7
十一月的第一周没为十一月的第一周想到合适的标题,暂且敷衍一下。事实上这不能算是完全的十一月——周一和周二还被十月占有着。十月最后一个周末,我“学”会了两项新技能——分别托实验室同门和室友的福,我学会了玩《饥荒》和打网球。说是学会,但还完全没有理解这两项活动,唯一感觉明显的,是我们应该珍惜稳定生活的感慨和手腕的酸楚。
周五,一位远在新加坡上学的室友竟暂时放弃了新爷的身份,回到了就别的学校。一群老朋友去唱了歌,吃了火锅,到了晚上,把又要匆忙离开的新爷送到了地铁站,剩下的人继续步行回学校。想了想,以后的生活大概会有很多这种短暂相聚,然后匆匆又分别的情况。
周六,去吃了广式早茶。店门口是一块醒目的牌子:若遇到困难,可以直接向店员提出要求,免费吃甜点。这样的小店我也仅仅只是在B站的探店视频中见过,感慨一下真的有人愿意借一点光和热给正在遭遇刺骨凉的普通人,也算是给每一位顾客的一点暖意。
我不是南方人,这家店的口味是明显的甜咸口,却很意外地对我的口味。于谦大爷似乎在《人间烟火》里写过广式早茶,让三年前的我提前预知了广式早茶的口味——那是混着悠闲、惬意还有普洱茶特有的清爽的感 ...
一篇流水账——那些流经我的回忆-6
假期之前假期前的一周永远是最难捱的,所有人几乎都是在疲惫和期待两种心情的交替打击之下存在的。中秋之前的节日气氛足够浓厚,老室友拿来了大饼与老朋友们分享、在工位上添了盆栽、拍到了偷懒的猫、吃了烤肉打了台球。
先来体会下8天有多短!前几天的行程过满,路上想的在写这篇日记时也忘记了。遂直接放图吧!
最后几天,迟迟没法解决GPU的问题,索性带着自己的电脑去加班。在宿舍楼前拍到了废土风的气球和鸭子。
再来体会下7天有多长!
很久以前,从别人口中得知了“烂九月”的称呼。据说,整个9月与10月,成都都将处于极度缺少阳光的状态下,所以每个出太阳的日子都值得被铭记,于是在假期后的第一个工作日,pyq就被各种晒蓝天白云的内容霸屏。
我一向讨厌在别人身上找自己的影子,但假期读完了赫尔曼黑塞的《荒原狼》,我不得不承认我在不断地沿着主角哈里的自述带入自己的生活。“荒原狼”身体中不止有自己身为体面人哈里的灵魂,还有一只狼的灵魂,也许还有其他更多的、在同时撕扯同一具肉体的灵魂,这一点我十分认同,有时甚至认为这就是我的一个翻版——一模一样的翻版:当我好不容易终于下定决心要做点什么时,心 ...
【待焚稿】两篇在qq空间发过的癫
题目与林黛玉没有任何关系,纯属本人瞎编。曾经瞎写的东西,在这里做个备份。
蜘蛛
我原本以为它再也不会回来了,但是它还是回来了。
五天前一次不经意的抬头,我发现了这只蜘蛛。它在大寝衣架和窗台间缝隙处织了一张和它体积不成比例的巨大的网,我发现它时它就这样静静地挂在网的正中心,一动也不动。我轻轻地一吹气,它立刻收起八条腿,缩成球;我猛地吹一大口起,它便以极快的速度,极其敏捷的动作撤回阴影里面。后来的一次集体大扫除似乎打扰了它平静的生活,也戳破了它的杰作,它便消失了,只剩下一张支离破碎的网。我以为它一定是去寻找更加适合安家的地方,重新织一张网继续自己无聊枯燥的生活了。
我想起了最近在读的那本书,阎真老师的《沧浪之水》,主人公池大为在官场里面的浮沉是故事的核心。年轻时的池大为就像所有血气方刚的年轻人一样,满腔热血,充满正义感,心向往着像屈原、陶渊明那样历史浪潮中那些代表着清廉正直,不随波逐流的清高形象。但当他有了自己的家庭后,他渐渐发现,他的清高正在将他推向万丈深渊,让他的妻子和孩子跟着他一起受排挤,有什么好处都被别人揽了去…于是,他逐渐放下自己曾经奉为圭臬的人生原则 逐渐成为了自己曾经看不 ...
一篇流水账——那些流经我的回忆-5
“荒原狼”在回学校的火车上,邻座两个四川口音浓重的大叔在彼此诉说要回家的兴奋。火车抵达张掖后,其中一位大叔表示,火车驶出酒泉之后就再也看不见荒漠和尘土了,另一位也赶快附和。作为家乡的代言人,我本想为酒泉辩护两句,可在自己所有认知中搜索了一遍,还真找不出反驳的理由。西北的干旱是有目共睹的,尤其是今年——降水量明显少了,沙尘暴却多了。所有从外地来此的人——无论是工作、旅游甚至是求学都会对此产生极其严重的不适感:打喷嚏、鼻炎、沙眼……
火车上无聊,看起了B站杜素娟教授的推荐书单。一本名为“荒原狼”的书吸引了我。看着窗外的荒滩,我瞬间想起了杨惠显《夹边沟记事》中对70年前夹边沟农场附近荒滩的描写,想到了无人区漫无目的闲逛的狼群。抱着找点认同感的想法,回校第一件事便是借来了赫尔曼黑塞的这本小说,但它给我带来的更多是落差感,然后就是认同感。
开学第一周很忙,收拾了寝室,考了教资,见了同学,然后就这么过去了。
老东西暑假时,看到学校的广播站在发招新宣传,我当即就决定加入。原因有二:第一,我需要时刻提醒自己还有这样一个爱好,以免失去热情;第二,我需要满足一种“猎奇”心——招新组一般会将“23 ...
四十来岁
任何事物被人铭记,都是因为它有对应的价值,就算没有价值,至少也得有点别于常人的特征。他的邻居——同样居住在高楼最上层的左户,很容易被街坊认出来,因为那家伙有着看一眼就难以忘却的高高隆起的额头;他的对门,在很久以前的旧时代经常被人当作是朝圣的地方,因此故人留下的东西让这一户也有了足够支撑生活的基础;他的楼下刚好是采光最好的一户,那儿的住户刚好赶上了选房热潮,又刚好选中了最抢手的位置,占据了天时地利人和。我对他的印象,就是个四十来岁的中年人,可他到底有多老,我到现在也没弄清楚,因为他有二三十多岁年轻人的相貌,但有时候行为却如同60岁的老人一样缓慢老气——索性取个中间值四十来岁吧。总的来说,在整个楼里,他绝对是最不起眼、最不容易被人记住的那种类型。唯一能够拿得出手给大伙看看的,是他家里那些旧壁画,可这些壁画也被他珍藏在了阁楼的角落,客人想要看看,就一定要穿过他家客厅长长的走廊,直到整间房子的尽头。阁楼到处都是尘土,偶尔路过的一阵微风都能让那些灰尘在清澈的阳光下起舞,对此他的解释是:经常打扫,但灰尘太大,刚收拾完,就又恢复原样了。
他是有价值的。除去阁楼上的那些老物件以外 ...
【论文阅读】CLIP4Clip:端到端视频检索的CLIP实证研究
论文信息:Luo H , Ji L , Zhong M ,et al.CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval[J]. 2021.DOI:10.48550/arXiv.2104.08860.
源码: https://github.com/ArrowLuo/CLIP4Clip.
试验方案:https://github.com/towhee-io/examples/blob/main/video/text_video_retrieval/1_text_video_retrieval_engine.ipynb
文章概述
先说下CLIP:CLIP全称Constrastive Language-Image Pre-training,是OPAI推出的采用对比学习的文本-图像预训练模型。预训练方法即如上图,模型由两个编码器组成,即文本+图像,以大量文本-图像对为输入,走各自编码器得到各自的特征,计算两者之间的cos相似度,让配对的相似度越近,不配对的越远。
回归正题,本文提出了CLIP4Clip ...
【论文阅读】Grounding Spatio-Temporal Language with Transformers
文章信息:Karch T , Teodorescu L , Hofmann K ,et al.Grounding Spatio-Temporal Language with Transformers[J]. 2021.DOI:10.48550/arXiv.2106.08858.
文章概述虽然有大量文献研究机器如何学习基础语言,但如何学习时空语言概念的主题在很大程度上仍然是未知的。为了在这一方向上取得进展,我们引入了一种新的时空语言基础任务,目的是学习具身主体行为痕迹的时空描述的意义。这是通过训练一个真值函数来实现的,该函数预测描述是否与给定的观察历史相匹配。这些描述包括过去时和现在时的时间扩展谓词以及对场景中对象的时空引用。为了研究架构偏差在该任务中的作用,我们训练了几个模型,包括多模态Transformer架构;后者在空间和时间上实现了单词和对象之间不同的注意力计算。我们在两类泛化上测试模型:1)对随机伸出句子的泛化;2)归纳到语法原语。我们观察到,在我们的transformer的注意力计算中保持对象身份有助于在总体上实现良好的泛化性能,并且在单个令牌中汇总对象跟踪对性能的影响很小。 ...
【论文阅读】TALL:通过自然语言定位时间活动
论文信息:Gao J , Sun C , Yang Z ,et al.TALL: Temporal Activity Localization via Language Query[J].arXiv e-prints, 2017.DOI:10.1109/iccv.2017.563.
代码:https://github.com/WuJie1010/Awesome-Temporally-Language-Grounding
1实现自然语言定位活动的挑战有以下几个方面:1)符合需求的多模态(语言查询和动作定位)表现;2)根据细度有限的特征准确地完成任务。我们提出了一种跨模态的时间回归定位器来联合两种模型,输出指定视频片段的对齐分数和动作边界回归结果。
传统的定位方法多使用基于光学流或者卷积神经网络训练的分类器,并且以滑动窗口的方式实现。一种支持自然语言查询的直接实现方式是吧查询分为离散的标签集合,然而要设计一种能够照顾大范围活动且不会丢失用户查询中的重要信息的标签集合并不容易。
为了能够解决离散活动标签的问题,一种可能的办法是将可视特征和句意特征都嵌入一个空间(common space),但 ...
【论文阅读】基于深度学习的键盘声学侧信道攻击
论文信息:Harrison, Joshua J. et al. “A Practical Deep Learning-Based Acoustic Side Channel Attack on Keyboards.” 2023 IEEE European Symposium on Security and Privacy Workshops (EuroS&PW) (2023): 270-280.
背景侧信道攻击(SCA,Side Channel Attack)利用了设备所产生的许多信号,其中包含了电磁波、电量消耗、移动传感器以及声音。有研究指出无线键盘产生可检测且可读的电磁波,但敲击键盘所产生的声音(keystroke)更加普遍且更容易被利用,并且也是人们疏于防范的因素之一。
尽管键盘已经越来越不怎么被提及,能够利用其声学特点的技术却在发展。比如带着VoIP协议的带有麦克风的电子设备(如智能手表等)
深度学习(DL)为机器学习(ML)的一个子类,其模型含有互联神经元的多个层。虽然DL在上世纪60年代就已经在计算机领域蓬勃发展,但直到2010年左右,趁着图形处理技术、图像识别技术 ...
【论文阅读】基于对比学习的视频片段检索
论文信息:Zhang, Hao et al. “Video Corpus Moment Retrieval with Contrastive Learning.” Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (2021): n. pag.
摘要+引言部分 视频语料库片段检索(Video Corpus Moment Retrieval,VCMR)的目的是通过给定查询语句的语义查找对应的视频时域片段。由于视频和文本信息来自两个不同的特征空间,如何实现VCMR有两种基本方式:(i)独立加码每个模型的输出,然后将两个模型输出按顺序执行(原文表述为align,在前几篇论文中则表述为前一模型的输出为后一模型的输入)、(ii)使用细粒度跨模态交互。在本文提出的ReLoCLNet(Retrieval and Localization Network with Contrastive Learning)中采取第 ...