最近做差异基因分析,需要将差异基因表达量映射到 KEGG 通路上生成 pathway 图。我用 Bioconductor 的 pathview 包出图后发现节点大得离谱、颜色也不对。在 AI 帮助下解决了问题,还学到一种新的打补丁方式。
SylensHub
吃饭, 睡觉, 打游戏!
最近做差异基因分析,需要将差异基因表达量映射到 KEGG 通路上生成 pathway 图。我用 Bioconductor 的 pathview 包出图后发现节点大得离谱、颜色也不对。在 AI 帮助下解决了问题,还学到一种新的打补丁方式。
之前我写过一篇博客,记录了我用pixi的tasks功能来修复Bioconductor包(如GenomeInfoDbData、BSgenome.Hsapiens.UCSC.hg38等)安装后缺依赖的问题。当时我只知道问题存在,但并不清楚根因,只是提供了一个不太理想的解决方案。
但是最近在AI的回答中,我搞清楚了真正的原因——这一切都源于Conda生态中的 post-link 脚本机制。
在上次尝试了对conda‑forge的包做小贡献之后,我想继续来点更进阶的:尝试将 singler‑py 这个 Python 包发布到 conda 生态中。结果不做不知道,一做…还有点麻烦…
在生物信息学绘图中,我们经常需要处理包含成千上万个数据点的图形,例如单细胞RNA测序的散点图。这类图形在保存为PDF等矢量格式时会面临文件过大、渲染缓慢的问题(除了AI其他软件基本都会直接死机),因为矢量图会记录每个数据点的坐标、颜色、大小等属性,导致PDF文件包含大量对象,进而影响查看和编辑的效率。
从事生物信息分析,研究方向越前沿,就要面临越多来自信息侧的问题。即使是文章发的非常好,原作者共享了代码,甚至写了现成软件工具,也不代表我们能轻松顺利的用这些现成的东西来复现或进行研究,混乱的环境设置只是一方面,更多时候,由于软件作者并不是专业的软件工程师,工具功能大致能用已经谢天谢地了,不能奢望这些软件没有一点毛病,更不能奢望有性能可言(除非开发时性能本来就是开发点)。即使这工具来自于有实力的大实验室,很多时候也不能幸免,比如… Azimuth。
在使用pixi管理生物信息学分析环境时,经常会遇到一些Bioconductor的R包安装后出现依赖缺失的问题。目前暂不清楚这个问题的原因,用了pixi一年了,这个问题到目前为止(2025.10)也木有修复,因此本文介绍如何通过pixi tasks功能来解决这类问题。
在我们现在基于scanp的单细胞流程中,有一步需要将AnnData对象保存为loom格式。但是与保存为h5ad不同,当我们不做任何处理,将AnnData对象写入loom文件后再次读取时,会发现obs和var的索引(index)信息丢失了,这些索引(通常是细胞条形码和基因名)变成了普通的数字编号。
1 / 3