正在分析中的数据我有这样的遗传学数据: MUT1 G_->_A_(het) 44%_(96)___[45%_(49)_/_43%_(47)] rs1799967_(Gene_file;_100 ...2024-05-13 已阅读: n次
从2个文件进行“大”数据csv搜索我有一个计算问题。你知道吗 我正在使用python迭代2个csv文件。你知道吗 csv file1=包含(6-7)列。。重要的一列是dbSNP中的一个“rsid”列。你知道吗 csv file2=3列 ...2024-05-13 已阅读: n次
Python用pandas提取具有重复标题的列我有一个csv文件,有90万行和30列。标题位于第一行: “探针集ID”、“dbSNP RS ID”、“染色体”、“物理位置”等。。。在 我只想用pandas提取某些列。在 现在我的问题是头文件每隔5 ...2024-05-13 已阅读: n次
将文本文件转换为VCF表单时出错我有一个python代码,我试图将一个包含行中变量信息的文本文件转换为一个variant调用格式文件(vcf),以便进行下游分析。在 我得到的一切都是正确的,但当我试图运行代码时,我错过了前两个条目, ...2024-05-13 已阅读: n次
从一个巨大的文本文件中获取数据,高效地替换另一个巨大的文本文件中的数据(Python)我已经编程几个月了,所以我不是专家。我有两个巨大的文本文件(omni,~20gb,~2.5M行;dbSNP,~10gb,~60M行)。它们有前几行,不一定用制表符分隔,以“#”(标题)开头,其余行以制 ...2024-05-13 已阅读: n次
在R(或Python)中编码从核苷酸到0/1/2的基因型 我有一个数据表,dbSNP rs id为行,samples为列,格式如下: dbSNP Sample Sample Sample Sample Sample Sample rs100000 ...2024-05-13 已阅读: n次
Python使用pandas从数据帧中提取列的全部内容我想用pandas从多列数据帧中提取一列的全部内容,但我只得到了该列的一部分。在 我使用的代码是: import pandas import csv data = pandas.read_csv('d ...2024-05-13 已阅读: n次
在pymongo中$and运算符的正确用法是什么?我有这样的结构: >>>test_3.find_one({"humsavar.Disease": {"$exists": True}}, {"humsavar":True, "_i ...2024-05-13 已阅读: n次
在数据框中查找字符串并在新列中存储新值我正在创建一个脚本,该脚本接受一个csv文件,该文件的列组织和列名称未知。但是我知道只有一列包含str'rs'和'del'出现的一些值 我需要创建一个额外的列(称为“Type”)并在找到“rs”的行中 ...2024-05-13 已阅读: n次
如何在另一个更大的数组(6亿个元素)中找到一个大数组(100万个元素)的元素我有一个非常大的文件(包含dbSNP ID),包含100万行,每个行包含一个字符串,另一个更大的文件(.vcf)包含6亿行,每个行包含7-8列。你知道吗 我想在大文件中找到小文件的每一行的第一个匹配项 ...2024-05-13 已阅读: n次
SomVarIUS未配对样本的体细胞变异鉴定 数据格式 映射读取的输入文件必须采用sam或bam格式。 要排除的已知生殖系突变位置必须在词典的pickled字典中: record[(chromosome, posi ...2024-05-13 已阅读: n次
pydbsnpPYDBSNP 与DBSNP VCF数据接口 安装 step 0(可选):如果不想使用环境变量 不要在意pydbsnp在引擎盖下是如何工作的,跳过这一步。 如果愿意,可以确定pydbsnp查找相关内容 ...2024-05-13 已阅读: n次
myvariant 简介 MyVariant.Info提供简单易用的REST web服务来查询/检索genetic 变量注释数据它的设计简单,注重性能。 myvariant是一个易于使用的python包装器,用于 ...2024-05-13 已阅读: n次
pynnotator 使用多种工具(例如vep、snpeff和snpsift)和数据库(例如1000genomes、dbsnp和dbnfsp)的vcf的python注释框架。 此包Pyt ...2024-05-13 已阅读: n次