Information

Brug af rørtegn i VCF infofelt

Brug af rørtegn i VCF infofelt



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mens jeg annoterede min VCF-fil med ClinVar, bemærkede jeg følgende værdi forCLNSIGfelt (dvs. klinisk betydning):

CLNSIG=2|2|2|2|2|2|2

Dette er faktisk rapporteret i dette eksempel, så jeg tror, ​​at brugen af ​​røret er ret almindeligt for genomiske annotationer af denne art.

Hvad er brugen af ​​røret (|) Karakter? Jeg ledte efter det i VCF-filformatspecifikationen; dog kun betydningen af ​​kommaet (,) er specificeret (dvs. tilstedeværelsen af ​​flere alternative værdier for det pågældende felt). Jeg spekulerer i stedet på, hvad røret repræsenterer.

Tak skal du have.


Getfasta¶

bedtools getfasta udtrækker sekvenser fra en FASTA-fil for hvert af de intervaller, der er defineret i en BED/GFF/VCF-fil.

1. Overskrifterne i input-FASTA-filen skal Nemlig matche kromosomkolonnen i BED-filen.

2. Du kan bruge UNIX-foldningskommandoen til at indstille linjebredden på FASTA-outputtet. For eksempel vil fold -w 60 få hver linje i FASTA-filen til at have højst 60 nukleotider for nem visning.

3. BED-filer, der indeholder en enkelt region, kræver et nylinjetegn i slutningen af ​​linjen, ellers produceres en tom outputfil.


KOMMANDOER

Hver kommando har sin egen man-side, som kan ses ved hjælp af f.eks. man samtools-view eller med en nylig GNU-mand, der bruger man samtools udsigt. Nedenfor har vi en kort oversigt over syntaks og underkommandobeskrivelse.

Indstillinger, der er fælles for alle underkommandoer, er dokumenteret nedenfor i sektionen GLOBALE KOMMANDOMULIGHEDER.

Udskriver alle justeringer i den angivne inputjusteringsfil (i SAM-, BAM- eller CRAM-format) til standardoutput i SAM-format (uden overskrift som standard), uden at der er angivet nogen indstillinger eller områder.

Du kan angive en eller flere mellemrumsseparerede regionsspecifikationer efter inputfilnavnet for at begrænse output til kun de justeringer, der overlapper de(n) specificerede region(er). Brug af regionsspecifikationer kræver en koordinatsorteret og indekseret inputfil.

Der findes muligheder for at ændre outputformatet fra SAM til BAM eller CRAM, så denne kommando fungerer også som et filformatkonverteringsværktøj.

samtools tv [-s chr:pos] [-s STR] [-d Skærm] <in.sorted.bam> [ref.fasta]

Tekstjusteringsfremviser (baseret på ncurses-biblioteket). I fremviseren skal du trykke på `?' for at få hjælp, og tryk på `g' for at kontrollere justeringen starter fra et område i formatet som `chr10:10.000.000' eller `=10.000.000', når du ser den samme referencesekvens.

Kontroller hurtigt, at inputfiler ser ud til at være intakte. Kontrollerer, at begyndelsen af ​​filen indeholder en gyldig header (alle formater), der indeholder mindst én målsekvens, og søger derefter til slutningen af ​​filen og kontrollerer, at en ende-på-fil (EOF) er til stede og intakt (kun BAM).

Data i midten af ​​filen læses ikke, da det ville være meget mere tidskrævende, så bemærk, at denne kommando ikke vil opdage intern korruption, men er nyttig til at teste, at filer ikke afkortes, før du udfører mere intensive opgaver på dem.

Denne kommando afsluttes med en udgangskode, der ikke er nul, hvis nogen inputfiler ikke har en gyldig header eller mangler en EOF-blok. Ellers afsluttes den med succes (med en nul udgangskode).

samtools indeks [-bc] [-m INT] aln.sam.gz|aln.bam|aln.cram [ud.indeks]

Indeks en koordinatsorteret SAM-, BAM- eller CRAM-fil for hurtig tilfældig adgang. Bemærk for SAM virker dette kun, hvis filen først er blevet BGZF-komprimeret.

Dette indeks er nødvendigt når område argumenter bruges til at begrænse samtools udsigt og lignende kommandoer til bestemte områder af interesse.

Hvis et output filnavn er givet, vil indeksfilen blive skrevet til ud.indeks. Ellers for en CRAM-fil aln.cram, indeksfil aln.cram.crai oprettes til en BAM- eller SAM-fil aln.bam, enten aln.bam.bai eller aln.bam.csi vil blive oprettet, afhængigt af det valgte indeksformat.

samtools sortere [-l niveau] [-m maxMem] [-o ud.bam] [-O format] [-n] [-t tag] [-T tmppræfiks] [[email protected] tråde] [in.sam|in.bam|in.cram]

Sorter justeringer efter koordinater længst til venstre eller efter læst navn, hvornår -n anvendes. En passende @HD-SO sorteringsrækkefølge header-tag vil blive tilføjet eller en eksisterende opdateret om nødvendigt.

Det sorterede output skrives som standard til standardoutput eller til den angivne fil (ud.bam) hvornår -o anvendes. Denne kommando vil også oprette midlertidige filer tmppræfiks.%d.bam efter behov, når hele justeringsdataene ikke kan passe ind i hukommelsen (som kontrolleret via -m mulighed).

Overvej at bruge samtools collate i stedet, hvis du har brug for navnesamlede data uden en fuld leksikografisk sortering.

Blander og grupper læser sammen efter deres navne. Et hurtigere alternativ til en fuld forespørgselsnavnsortering, samle sikrer, at læsninger af samme navn er grupperet sammen i sammenhængende grupper, men giver ingen garantier for rækkefølgen af ​​læste navne mellem grupper.

Outputtet fra denne kommando bør være egnet til enhver operation, der kræver, at alle læsninger fra den samme skabelon grupperes sammen.

Hent og udskriv statistik i indeksfilen svarende til inputfilen. Før du kalder idxstats, skal input BAM-filen indekseres af samtools index.

Hvis den køres på en SAM- eller CRAM-fil eller en uindekseret BAM-fil, vil denne kommando stadig producere den samme oversigtsstatistik, men gør det ved at læse hele filen igennem. Dette er langt langsommere end at bruge BAM-indeksene.

Outputtet er TAB-separeret med hver linje bestående af referencesekvensnavn, sekvenslængde, # kortlagte læsninger og # ikke-mappede læsninger. Det er skrevet til stdout.

Gennemfører en fuld gennemgang af inputfilen for at beregne og udskrive statistik til stdout.

Giver tællinger for hver af 13 kategorier baseret primært på bitflag i FLAG-feltet. Hver kategori i outputtet er opdelt i QC pass og QC fail, som præsenteres som "#PASS + #FAIL" efterfulgt af en beskrivelse af kategorien.

Konverter mellem tekstlig og numerisk flagrepræsentation.

FLAG:

0x1PARRINGpaired-end (eller multiple-segment) sekventeringsteknologi
0x2PROPER_PAIRhvert segment er korrekt justeret i henhold til aligneren
0x4UNMAPsegment ikke kortlagt
0x8MUNMAPnæste segment i skabelonen ikke kortlagt
0x10BAGLÆNSSEQ er omvendt komplementeret
0x20MREVERSSEQ for det næste segment i skabelonen er omvendt komplementeret
0x40LÆS 1det første segment i skabelonen
0x80LÆS 2det sidste segment i skabelonen
0x100SEKUNDÆRsekundær justering
0x200QCFAILikke bestå kvalitetskontrol
0x400DUPPCR eller optisk duplikat
0x800SUPPLERENDEsupplerende tilpasning

samtools stats indsamler statistik fra BAM-filer og output i et tekstformat. Outputtet kan visualiseres grafisk ved hjælp af plot-bamstats.

Rapporterer det samlede antal læsebaser (dvs. summen af ​​læsedybder pr. base) for hver genomisk region specificeret i den medfølgende BED-fil. Regionerne udskrives, som de vises i BED-filen og er 0-baserede. Optællinger for hver leverede justeringsfil er rapporteret i separate kolonner.

Beregner læsedybden ved hver position eller region.

samtools ampliconstats indsamler statistik fra en eller flere inputjusteringsfiler og producerer tabeller i tekstformat. Outputtet kan visualiseres grafisk ved hjælp af plot-ampliconstats.

Justeringsfilerne skulle tidligere have været klippet af primersekvens, f.eks samtools ampliconclip og stederne for disse primere bør angives som en sengefil i argumenterne.

samtools mpileup [-EB] [-C capQcoef] [-r reg] [-f in.fa] [-l liste] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [. ]]

Generer tekstpileup for en eller flere BAM-filer. Til VCF- og BCF-output skal du bruge bcftools mpileup kommando i stedet. Justeringsposter er grupperet efter prøve (SM) identifikatorer i @RG overskriftslinjer. Hvis prøveidentifikatorer er fraværende, betragtes hver inputfil som én prøve.

Se samtools-mpileup-man-siden for en beskrivelse af pileup-formatet og mulighederne.

Fremstiller et histogram eller dækningstabel pr. kromosom.

samtools flette [-nur1f] [-h inh.sam] [-t tag] [-R reg] [-b liste] ud.bam in1.bam [in2.bam in3.bam . inN.bam]

Flet flere sorterede justeringsfiler, så du producerer en enkelt sorteret outputfil, der indeholder alle inputposter og bevarer den eksisterende sorteringsrækkefølge.

Hvis -h er angivet, vil @SQ-headerne af inputfiler blive flettet ind i den angivne header, ellers vil de blive flettet til en sammensat header oprettet fra input-headerne. Hvis @SQ-overskrifterne er forskellige i rækkefølgen, kan dette kræve, at outputfilen sorteres igen efter fletning.

Rækkefølgen af ​​posterne i inputfilerne skal matche brugen af -n og -t kommandolinjeindstillinger. Hvis de ikke gør det, vil outputrækkefølgen være udefineret. Se sortere for information om journalbestilling.

samtools split [muligheder] sammenlagt.sam|sammenlagt.bam|sammenlagt.cram

Opdeler en fil efter læsegruppe og producerer en eller flere outputfiler, der matcher et fælles præfiks (som standard baseret på inputfilnavnet), som hver indeholder en læsegruppe.

samtools kat [-b liste] [-h header.sam] [-o ud.bam] in1.bam in2.bam [ . ]

Sammenkæd BAM'er eller CRAM'er. Selvom dette virker på enten BAM eller CRAM, skal alle inputfiler have samme format som hinanden. Sekvensordbogen for hver inputfil skal være identisk, selvom denne kommando ikke kontrollerer dette. Denne kommando bruger et lignende trick til reheader som muliggør hurtig BAM-sammenkædning.

samtools fastq [muligheder] in.bam
samtools fasta [muligheder] in.bam

Konverterer en BAM eller CRAM til enten FASTQ eller FASTA format afhængigt af den påkaldte kommando. Filerne bliver automatisk komprimeret, hvis filnavnene har filtypenavnet .gz eller .bgzf.

Input til dette program skal samles efter navn. Brug samtools collate eller samtools sort -n at sikre dette.

samtools faidx <ref.fasta> [region1 [. ]]

Indeksreferencesekvens i FASTA-formatet eller udtræk undersekvens fra indekseret referencesekvens. Hvis der ikke er angivet en region, faidx vil indeksere filen og oprette <ref.fasta>.fai på disken. Hvis regioner er angivet, vil undersekvenserne blive hentet og udskrevet til stdout i FASTA-formatet.

Inputfilen kan komprimeres i BGZF format.

FASTQ-filer kan læses og indekseres med denne kommando. Uden at bruge --fastq enhver ekstraheret undersekvens vil være i FASTA-format.

samtools fqidx <ref.fastq> [region1 [. ]]

Indeksreferencesekvens i FASTQ-formatet eller udtræk undersekvens fra indekseret referencesekvens. Hvis der ikke er angivet en region, fqidx vil indeksere filen og oprette <ref.fastq>.fai på disken. Hvis regioner er angivet, vil undersekvenserne blive hentet og udskrevet til stdout i FASTQ-formatet.

Inputfilen kan komprimeres i BGZF format.

samtools fqidx bør kun bruges på fastq-filer med et lille antal poster. Hvis du prøver at bruge det på en fil, der indeholder millioner af korte sekvenslæsninger, vil det producere et indeks, der er næsten lige så stort som den originale fil, og søgninger ved hjælp af indekset vil være meget langsomme og bruge meget hukommelse.

samtools dict ref.fasta|ref.fasta.gz

Opret en sekvensordbogsfil fra en fasta-fil.

samtools calmd [-Eeubr] [-C capQcoef] aln.bam ref.fasta

Generer MD-tagget. Hvis MD-tagget allerede er til stede, vil denne kommando give en advarsel, hvis det genererede MD-tag er forskelligt fra det eksisterende tag. Output SAM som standard.

Calmd kan også læse og skrive CRAM-filer, selvom det i de fleste tilfælde er meningsløst, da CRAM genberegner MD- og NM-tags på farten. Den eneste undtagelse fra dette tilfælde er, hvor både input- og output-CRAM-filer er blevet / bliver oprettet med no_ref mulighed.

samtools fixmate [-rpcm] [-O format] in.nameSrt.bam out.bam

Udfyld matekoordinater, ISIZE og parringsrelaterede flag fra en navnesorteret justering.

samtools markdup [-l længde] [-r] [-s] [-T] [-S] in.algsort.bam ud.bam

Marker duplikerede justeringer fra en koordinatsorteret fil, der er blevet kørt igennem samtools fixmate med -m mulighed. Dette program er afhængig af de MC- og ms-tags, som fixmate leverer.

samtools rmdup [-sS] <input.srt.bam> <out.bam>

Denne kommando er forældet. Brug markdup i stedet.

samtools addreplacerg [-r rg-linje | -R rg-ID] [-m mode] [-l niveau] [-o ud.bam] in.bam

Tilføjer eller erstatter læsegruppetags i en fil.

samtools reheader [-iP] in.header.sam in.bam

Sæt overskriften i igen in.bam med overskriften ind i.header.sam. Denne kommando er meget hurtigere end at erstatte headeren med en BAM&rarrSAM&rarrBAM-konvertering.

Som standard udsender denne kommando BAM- eller CRAM-filen til standardoutput (stdout), men for CRAM-formatfiler har den mulighed for at udføre en redigering på stedet, både læsning og skrivning til den samme fil. Der udføres ingen validitetskontrol på headeren, ej heller at den er egnet til at bruge sammen med selve sekvensdataene.

samtools targetcut [-Q minBaseQ] [-jeg i Straf] [-0 em0] [-1 em1] [-2 em2] [-f ref] in.bam

Denne kommando identificerer målområder ved at undersøge kontinuiteten af ​​læsedybden, beregner haploide konsensussekvenser af mål og udsender en SAM med hver sekvens svarende til et mål. Når mulighed -f er i brug, vil BAQ blive anvendt. Denne kommando er kun designet til at skære fosmid kloner fra fosmid pool sekventering [Ref. Kitzman et al. (2010)].

samtools fase [-AF] [-k len] [-b præfiks] [-q minLOD] [-Q minBaseQ] in.bam

Kalde og fase heterozygote SNP'er.

samtools depad [-SsCu1] [-T ref.fa] [-o produktion] in.bam

Konverterer en BAM justeret mod en polstret reference til en BAM justeret mod den polstrede reference. Den polstrede reference kan indeholde ordret "*"-baser i den, men "*"-baser tælles også med i referencenummereringen. Dette betyder, at et sekvensbase-call justeret mod en reference "*" anses for at være en cigarmatch ("M" eller "X")-operatør (hvis base-callet er "A", "C", "G" eller "T"). Efter depadding slettes referencen "*"-baser, og sådanne tilpassede sekvensbasekald bliver til insertioner. På samme måde gælder transformationer for sletninger og udfyldningscigaroperationer.

samtools ampliconclip [-o ud.fil] [-f stat.fil] [--blødt klip] [--hårdt klip] [--begge ender] [--strand] [--klippet] [--svigte] [--ingen-PG] -b bed.fil i.fil

Klip indlæser en SAM-kompatibel fil baseret på data fra en BED-fil.


Implementering

Oversigt over vcfanno funktionalitet

Vcfanno annoterer varianter i en VCF-fil ("forespørgselsintervallerne") med information aggregeret fra sættet af krydsende intervaller blandt mange forskellige annotationsfiler ("database-intervallerne") gemt i almindelige genomiske formater såsom BED, GFF, GTF, VCF og BAM. Den bruger en "streaming"-krydsningsalgoritme, der udnytter sorterede inputfiler til i høj grad at reducere hukommelsesforbruget og forbedre hastigheden. Efterhånden som streamingkrydset udføres (detaljer nedenfor), er databaseintervaller knyttet til et forespørgselsinterval, hvis der er et intervalskæringspunkt. Når alle skæringspunkter for et bestemt forespørgselsinterval er kendt, fortsætter annoteringen i overensstemmelse med brugerdefinerede operationer, der anvendes på attributterne (f.eks. "score"-kolonnen i en BED-annotationsfil eller en attribut i INFO-feltet i en VCF-annotation fil) data inden for databaseintervallerne. Som et simpelt eksempel kan du overveje en forespørgsel VCF af enkeltnukleotidvarianter (SNV'er), der blev kommenteret af SNV'er fra en annotationsdatabase, såsom en VCF-fil af dbSNP-ressourcen. I dette tilfælde matches forespørgslen og databasevarianterne på positions-, REF- og ALT-felter, når de er tilgængelige, og en værdi fra det overlappende databaseinterval (f.eks. mindre allelfrekvens) overføres til den annotation, der er gemt i INFO-feltet i forespørgsel VCF. I et mere komplekst scenarie, hvor en forespørgselsstrukturel variant skærer flere annotationsintervaller fra hver database, skal oplysningerne fra disse intervaller aggregeres. Man kan ønske at rapportere hver af attributterne som en kommasepareret liste via "concat"-operationen. Alternativt kunne man vælge den maksimale allelfrekvens via "max"-operationen. I tilfælde, hvor kun et enkelt databaseinterval er knyttet til forespørgslen, vil valget af operation ikke påvirke den opsummerede værdi.

Et eksempel på VCF INFO-felt fra en enkelt variant før og efter annotation med vcfanno er vist i fig. 1. En simpel konfigurationsfil bruges til at specificere både kildefilerne og det sæt af attributter (i tilfælde af VCF) eller kolonner (i tilfælde af BED eller andre tabulator-separerede formater), der skal tilføjes til forespørgselsfilen. Derudover tillader konfigurationsfilen, at annoteringer kan omdøbes i det resulterende VCF INFO-felt. For eksempel kan vi udtrække allele frequency (AF)-attributten fra ExAC VCF-filen [9] og omdøbe den til "exac_aaf" i INFO-feltet i VCF-forespørgselsposterne. Konfigurationsfilen gør det muligt at udtrække så mange attributter som nødvendigt fra et vilkårligt antal annotationsdatasæt.

Oversigt over vcfanno workflow. En uannoteret VCF (-en) sendes til vcfanno (b) sammen med en konfigurationsfil, der angiver stierne til annotationsfilerne, attributterne, der skal udtrækkes fra hver fil, og de metoder, der skal bruges til at beskrive eller opsummere de værdier, der er udtrukket fra disse filer. De nye annoteringer i den resulterende VCF (c) vises i blå tekst med yderligere felter tilføjet til INFO-kolonnen

Oversigt over chrom-sweep-algoritmen

Kromosom-sweep-algoritmen ("chrom-sweep") er en tilpasning af streaming, sort-merge join-algoritmen og er i stand til effektivt at detektere intervalskæringer mellem flere intervalfiler, så længe de er sorteret efter både kromosom- og intervalstartposition . Udnyttet af både BEDTOOLS [10, 11] og BEDOPS [12], finder chrom-sweep skæringspunkter i et enkelt gennemløb ved at fremføre pointere i hver fil, der er synkroniseret efter genomisk position. Ved hvert trin i sweep bibeholder disse pointere det sæt af intervaller, der skærer en bestemt position og igen skærer hinanden. Denne strategi er fordelagtig for store datasæt, fordi den undgår brugen af ​​datastrukturer såsom intervaltræer eller hierarkiske bins (f.eks. UCSC-binning-algoritmen [13]). Selvom disse træ- og binning-teknikker ikke kræver sorteret input, skalerer disse metoders hukommelsesfodaftryk dårligt, især sammenlignet med streamingalgoritmer, som typisk udviser lave, gennemsnitlige hukommelseskrav.

Chrom-sweep-algoritmen implementeret i vcfanno forløber som følger.Først opretter vi en iterator af intervalposter for forespørgslen VCF og for hver databaseannotationsfil. Vi fletter derefter intervaller fra forespørgslen VCF og hver annotation til en enkelt prioritetskø, som sorterer intervallerne fra alle filer efter kromosom og startkoordinat, mens vi også sporer filen, som hvert interval kom fra. Vcfanno skrider frem ved at anmode om et interval fra prioritetskøen og indsætter det i en cache. Hvis det senest observerede interval er fra forespørgslen VCF, tjekker vi for krydsninger med alle databaseintervaller, der i øjeblikket er i cachen. Siden vcfanno kræver, at alle filer sorteres, ved vi, at der kommer intervaller ind i cachen sorteret efter startkoordinat. For at tjekke for overlap behøver vi derfor kun at kontrollere, at starten på det nye interval er mindre end slutningen af ​​et hvilket som helst af intervallerne i cachen (forudsat halvåbne intervaller). Et eksempel på sweepingalgoritmen er vist i fig. 2 for en sag, der involverer to annotationsfiler og tre poster fra en enkelt forespørgsel VCF. Indholdet af cachen vises, når sweep når starten af ​​hvert nyt interval. Når et nyt forespørgselsinterval kommer ind i cachen, skubbes ethvert interval, der ikke skærer det ud fra cachen. Hvis det fjernede interval stammer fra forespørgslen VCF, sendes det, sammen med hvert af de krydsende annotationsintervaller, for at blive behandlet i overensstemmelse med de operationer, der er specificeret i konfigurationsfilen. De resulterende annoteringer gemmes i INFO-feltet i VCF-filen, og den opdaterede VCF-post rapporteres som output.

Oversigt over chrom-sweep interval intersection-algoritmen. Chrom-sweep-algoritmen fejer fra venstre til ret efterhånden som det skrider frem langs hvert kromosom. Grøn intervaller fra forespørgslen VCF i første række er kommenteret af annotationsfiler A (blå) og B (orange) i sekund og tredje række, henholdsvis. Cacherækken angiver, hvilke intervaller der i øjeblikket er i cachen på hvert punkt i forløbet af sweepingalgoritmen. Intervaller kommer ind i cachen i rækkefølge efter deres kromosomale startposition. Først A1 går ind i cachen efterfulgt af Q1. Siden Q1 krydser hinanden A1, de er forbundet, som de er Q1 og B1 hvornår B1 kommer ind i cachen. Hver gang et nyt forespørgselsinterval kommer ind i cachen, skubbes ethvert interval, det ikke krydser ud. Derfor, hvornår Q2 kommer ind i cachen, Q1 og A1 udkastes. Siden Q1 er et forespørgselsinterval, sendes det for at blive rapporteret som output. Fortsæt til højre, A2 og så Q3 indtast cachen, sidstnævnte er et forespørgselsinterval, og så de intervaller, der ikke overlapper det—B1, Q2, og A2— skubbes ud fra cachen med forespørgselsintervallet, Q2, som sendes til den, der ringer op. Til sidst, da vi når slutningen af ​​de indkommende intervaller, rydder vi ud i finalen Q3 interval og færdiggør outputtet for dette kromosom. EOF: End of File

Begrænsninger af chrom-sweep-algoritmen

På grund af det faktum, at annotationssæt ikke indlæses i hukommelsesintensive datastrukturer, skalerer chrom-sweep-algoritmen nemt til store datasæt. Det har dog nogle vigtige begrænsninger. For det første kræver det, at alle intervaller fra alle annotationsfiler overholder den samme kromosomrækkefølge. Selvom det er konceptuelt simpelt, er dette især besværligt, da VCF'er produceret af variantopkaldere som GATK pålægger en anden kromosomrækkefølge (1, 2, …21, X, Y, MT) end de fleste andre numerisk sorterede annotationsfiler, som ville sætte MT før X og Y. Sortering af de numeriske kromosomer som tegn eller heltal resulterer naturligvis også i forskellige sorteringsrækkefølger. Uoverensstemmelser i kromosomrækkefølgen blandt filer opdages ofte ikke, før der allerede er udført væsentlig beregning. Et relateret problem er, at når en fil indeholder intervaller fra et givet kromosom, som den anden ikke gør, er det ikke muligt at skelne, om kromosomrækkefølgen er anderledes, eller om det kromosom simpelthen ikke er til stede i en af ​​filerne, før alle intervaller er analyseret.

For det andet er standard chrom-sweep-implementeringen suboptimal, fordi den ofte er tvunget til at overveje (og parse) mange annotationsintervaller, som aldrig vil skære forespørgselsintervallerne, hvilket resulterer i unødvendigt arbejde [14]. For eksempel, givet en VCF-fil af varianter, der er sparsomt fordelt i hele genomet (f.eks. en VCF fra en enkelt exome-undersøgelse) og tætte datasæt af hele-genom-annoteringer, skal chrom-sweep parse og teste hvert interval af hele-genomet. genom-annoteringer til skæring med et forespørgselsinterval, selvom interesseområderne omfatter mindre end 1 % af regionerne i filen. Med andre ord repræsenterer sparsomme forespørgsler med tætte annotationsfiler et worst-case scenarie for ydeevnen af ​​chrom-sweep, fordi en høj andel af intervallerne i datasættene aldrig vil skære hinanden.

En tredje begrænsning ved chrom-sweep-algoritmen er, at det på grund af algoritmens iboende serielle karakter er vanskeligt at parallelisere detektionen af ​​intervalskæringer, og den enkelte CPU-ydelse er begrænset af den hastighed, hvormed intervaller kan parses. Da intervallerne ankommer i sorteret rækkefølge, er det vanskeligt at springe fremad for at behandle en ny region fra hver fil i en anden behandlingstråd uden et forudberegnet rumligt indeks af intervallerne og rapportering af intervallerne i sorteret rækkefølge efter skæringspunktet yderligere bogføring.

En parallel chrom-sweep-algoritme

For at løse disse mangler udviklede vi en parallel algoritme, der sideløbende chrom-sweeper "bidder" af forespørgsels- og databaseintervaller. I modsætning til tidligere parallelle sweeping-metoder i hukommelsen, der ensartet opdeler inputtet [15], definerer vi (uden behov for forbehandling [16]) bidder ved på hinanden følgende forespørgselsintervaller, der opfylder et af to kriterier: enten når sættet "chunk-størrelsen" tærskel eller den genomiske afstand til det næste interval overstiger tærsklen for "gap size". Begrænsning af chunk-størrelsen skaber rimeligt jævnt arbejde blandt gevindene for at understøtte effektiv belastningsbalancering (dvs. for at undgå opgavedivergens). Afskæringsgrænsen for gap-størrelse er designet til at undgå at behandle et for stort antal ikke-relaterede databaseintervaller, der ligger mellem fjerne forespørgselsintervaller.

Så snart en chunk er defineret, er den planlagt til at blive fejet parallelt med de andre tidligere definerede chunks. Grænserne for forespørgselsintervallerne i klumpen bestemmer rækkevidden af ​​de intervaller, der anmodes om fra hver annotationsfil (fig. 3). I øjeblikket er disse anmodninger til enten en Tabix [17] indekseret fil eller en BAM fil via bíogo-pakken [18], men enhver rumlig forespørgsel kan let understøttes. En vigtig bivirkning ved at indsamle databaseintervaller ved hjælp af disse anmodninger er, at selvom annotationsfilerne skal sorteres, er der ikke behov for, at kromosomrækkefølgen af ​​annoteringerne stemmer overens. Dette, sammen med intern fjernelse af ethvert "chr"-præfiks, lindrer den tilhørende kromosomrækkefølge og repræsentationskompleksitet beskrevet ovenfor. Sættet af intervaller fra disse anmodninger er integreret med forespørgselsintervallerne for at fuldføre chunken, som derefter behandles af standard chrom-sweep-algoritmen. I praksis opnås dette imidlertid af strømme, således at kun forespørgselsintervallerne holdes i hukommelsen, mens anmærkningsintervallerne hentes fra deres iteratorer under chrom-sweep. En præstationsflaskehals i denne strategi er, at outputtet skal sorteres, og da chunks kan afsluttes i en hvilken som helst rækkefølge, skal vi buffere afsluttede chunks for at genoprette sorteret rækkefølge. Dette er sammen med diskhastighedsbegrænsninger den primære kilde til overhead, der forhindrer optimal paralleliseringseffektivitet.

Parallel fejende algoritme. Som i fig. 2, fejer vi hen over kromosomet fra lavere til højere positioner (og venstre til ret på figuren). Det grøn forespørgselsintervaller skal kommenteres med de to anmærkningsfiler afbildet med blå og orange intervaller. Paralleliseringen sker i bidder af forespørgselsintervaller afgrænset af sorte lodrette linjer. Én proces læser forespørgselsintervaller ind i hukommelsen, indtil en maksimal gapstørrelse til det næste interval er nået (f.eks. bidder 2, 4), eller antallet af intervaller overstiger chunkstørrelsestærsklen (f.eks. bidder 1, 3). Mens et nyt sæt forespørgselsintervaller akkumuleres, vil den første del, afgrænset til højre af den første lodret sort streg ovenfor, sendes til fejning, og en pladsholder sættes i en FIFO-kø (først-ind, først-ud), så outputtet forbliver sorteret, selvom andre bidder kan slutte først. Annotationsfilerne forespørges med regioner baseret på grænserne for intervaller i forespørgselsdelen. Forespørgslerne returnerer derefter strømme af intervaller, og til sidst sendes disse strømme til chrom-sweep-algoritmen i en ny proces. Når den er færdig, kan dens pladsholder trækkes fra FIFO-køen, og resultaterne vises til output

Vcfanno implementering

Vcfanno er skrevet i Go (https://golang.org), hvilket giver en række fordele. For det første understøtter Go krydskompilering til 32- og 64-bit-systemer til Mac, Linux og Windows. Gos præstation betyder det vcfanno kan behandle store datasæt relativt hurtigt. Go tilbyder også en simpel samtidighedsmodel, der tillader vcfanno at udføre krydsninger parallelt og samtidig minimere muligheden for løbsforhold og belastningsbalanceringsproblemer, der ofte plager parallelle implementeringer. Desuden, som vi demonstrerer i afsnittet Resultater, vcfanno's parallelle implementering af chrom-sweep-algoritmen giver hastighed og skalerbarhed. Endelig er det et meget fleksibelt værktøj på grund af dets understøttelse af annoteringer i mange almindelige formater såsom BED, VCF, GFF, BAM og GTF.


%>% .$column_name ækvivalent for R basisrør |>

I basisrøret er der ingen pladsholder til de data, der sendes i røret. Dette er en forskel mellem magrittr-rør og base R-rør. Du kan bruge en anonym funktion til at få adgang til objektet.

Den direkte brug af $ i |> er i øjeblikket deaktiveret. Måske en grund kunne være at skrive

Hvis kaldet af $ (eller andre deaktiverede funktioner i |>) stadig er nødvendigt, er en mulighed, udover oprettelsen af ​​en funktion, svarende til løsningen af ​​@jay-sf, at bruge $ via funktionen :: som base: :`Brug af rørkarakter i VCF infofelt - Biologi,[nobr][H1toH2] eller placer den i bremser ( $ ):

En anden mulighed kan være brugen af ​​en bizar rør ->. . Nogle kalder det en joke, andre klog brug af eksisterende syntaks.

Dette opretter eller overskriver. i .GlobalEnv. rm(.) kan bruges til at fjerne det. Alternativt kan det behandles lokalt:

I dette tilfælde producerer den to samme objekter i miljøet iris og . men så længe de er ikke ændret de peger på den samme adresse.


Hvad er nyt?

En hidtil uset hastighed
Takket være stor brug af bitvise operatører, sekventielle hukommelsesadgangsmønstre, multithreading og algoritmiske forbedringer på højere niveau, er PLINK 1.9 meget, meget hurtigere end PLINK 1.07 og anden populær software. Flere af de mest krævende opgaver, herunder matrixberegning af identitet for tilstand, afstandsbaseret klyngedannelse, LD-baseret beskæring, identifikation af haplotypeblok og max(T) permutationstests for associationsanalyse, gennemfører nu hundredvis eller endda tusindvis af gange så hurtigt , og selv de mest trivielle operationer har en tendens til at være 5-10 gange hurtigere på grund af I/O-forbedringer.

Vi skynder os at tilføje, at langt de fleste ideer, der bidrager til PLINK 1.9's ydeevne, blev udviklet andetsteds i flere tilfælde, vi har simpelthen porteret lidt kendte, men fremragende implementeringer uden væsentlig yderligere revision (selv mens vi muligvis har gjort dem til uigenkendelighed, undskyld det, romersk. ). Se kreditsiden for en delvis liste over personer, du skal takke. På en relateret note, hvis du er opmærksom på en implementering af en PLINK-kommando, som er væsentligt bedre, hvad vi gør i øjeblikket, så lad os vide, at vi med glæde skifter til deres algoritme og giver dem kredit i vores dokumentation og papirer.

Næsten ubegrænset omfang
Den genomiske hoveddatamatrix behøver ikke længere at passe i RAM, så blødende datasæt indeholdende millioner af variantopkald fra exome- eller helgenom-sekventering af titusindvis af prøver kan behandles på almindelige desktops (og denne behandling vil normalt fuldføres inden for rimelig tid). Derudover kan flere nøgleeksempler x sample og variant x variant matrixberegninger (inklusive GRM nævnt nedenfor) rent opdeles på tværs af computerklynger (eller serielt håndteres i håndterbare bidder af en enkelt computer).

Forbedringer af kommandolinjegrænsefladen
Vi har standardiseret, hvordan kommandolinjeparseren fungerer, migreret fra det originale "alt er et flag"-design til en mere organiseret tilgang med flag + modifikatorer (samtidig med at vi bibeholder bagudkompatibilitet) og tilføjet en grundig kommandolinjehjælp.

Yderligere funktioner
I 2009 eksisterede GCTA ikke. I dag er der et vigtigt og voksende økosystem af værktøjer, der understøtter brugen af ​​genetiske relationsmatricer i blandede modelassocieringsanalyser og andre beregninger, vores bidrag er en hurtig, flertråds, hukommelseseffektiv --make-grm-gz/--make-grm -bin implementering, som kører på macOS og Windows samt Linux, og en tættere optimal --rel-cutoff pruner.

Der er andre tilføjelser hist og her, såsom klyngebaserede filtre, der kan gøre livet lettere for nogle få populationsgenetikere, og en LASSO med koordinatnedstigning. Nye funktioner er ikke en topprioritet i øjeblikket (at nå 95 %+ bagudkompatibilitet og understøttelse af dosering/fasede/trialleliske data er vigtigere. ), men vi er villige til at tage fri fra kun at arbejde på programkernen, hvis du spørg pænt.


Byg
Operativ systemUdvikling (8. juni)Alpha 2.3-finale (24. januar 2020)
Linux AVX2 Intel 1 HentHent
Linux 64-bit Intel 1 HentHent
Linux 32-bitHentHent
macOS AVX2HentHent
macOS 64-bitHentHent
Windows AVX2HentHent
Windows 64-bitHentHent
Windows 32-bitHentHent

1: Disse builds kan stadig køre på AMD-processorer, men de er statisk forbundet med Intel MKL, så nogle lineære algebra-operationer vil være langsomme. Vi vil forsøge at levere en AMD Zen-optimeret build, så snart understøttende biblioteker er tilgængelige.

Kildekode og byggeinstruktioner er tilgængelige på GitHub. (Her er endnu en kopi af kildekoden.)

Seneste versionshistorik

8. juni 2021: Rettet multiallel-variant-skrivefejl (typisk manifesteret som en segmenteringsfejl eller påstandsfejl), der kunne forekomme med --sort-vars eller under betingelser med lav hukommelse.

25. maj: .fa-loader tåler nu tomme linjer. gzip-filer, der indeholder flere streams eller efterfølgende affald, bør accepteres igen.

23. maj: Fixed FID+IID+SID loading (nylige builds gav en forkert "SID-kolonne følger ikke umiddelbart IID-kolonne"-fejl).

5. maj: Fixed --within bug introduceret den 16. jan.

20. april: --het cols= skulle nu fungere korrekt.

16. april: --data/--gen understøtter nu .gen-filer med 6 indledende kolonner. Dette format kan eksporteres med "--export oxford-v2".

14. apr: --pmerge-list bør ikke længere være begrænset af systemets #-of-open-files cap.

13. april: --glm lokal-kovariat-håndtering fejlrettelse. Rettet --pmerge[-list] fejl, der kunne forårsage, at den genererede .pgen-header var ugyldig, når multialleliske varianter var til stede.

6. april: --data/--sample genkender nu kolonnetype 'C' som et synonym for 'P' (kontinuerlig fænotype). (Denne build har et forkert "6 Mar"-datostempel, beklager det.)

28 Mar: --sample-counts chrX no-known-males bugfix.

25 Mar: --pmerge[-list] .bim-håndtering fejlrettelse.

23 Mar: Unbreak --make-pgen + --sort-vars (dette blev brudt af 28. februar build).

2 Mar: --pmerge[-list] fejlrettelser (segler ikke længere, når alle varianter er på forskellige positioner, hvis output-.pvar-filen allerede eksisterer, den slettes først i stedet for at blive tilføjet, hvis en inputfil dækker flere kromosomer, er der ikke længere en sandsynlig påstandsfejl løste nogle problemer med sammenlægning af varianter med samme id).

1 Mar: --pmerge-list-dir flag implementeret (specificerer et fælles katalogpræfiks for alle --pmerge-list poster).

28. feb: --pmerge[-liste] kan nu bruges til sammenkædningslignende job.
Bemærk at det gør ikke nødvendigvis udføre ren sammenkædning på et kromosomopdelt datasæt: hvis to varianter i en fil har samme position og ID, vil de blive flettet på en måde, der er ikke kompatible med 'split' multiallele varianter, der deler et enkelt ID (de skal flettes med en dedikeret 'join'-operation, såsom "bcftools norm -m +"). Som en konsekvens vil --pmerge[-list] som standard fejlfejle, når den opdager en sådan opdelt variant. En løsning er at bruge --set-all-var-ids til at tildele forskellige id'er til hver del af den opdelte variant.

3. feb: Rettet .pvar-indlæsningsfejl, der udløste, da FILTER-værdier var relevante på samme tid som enten INFO/PR- eller CM-værdier. .ped-afledte filsæt, der indeholder varianter, hvor både REF og ALT mangler, er tilladt igen (sådanne varianter var forbudt i de seneste builds). --vcf-ref-n-missing flag tilføjet for at forenkle genimport af .ped-afledte VCF'er. Fjernede ekstra faner fra --pgen-diff output.

23. jan: --chr-set sætter nu MT til haploid. ##chrSet .pvar overskriftslinje uden det tilsvarende kommandolinjeflag initialiserer nu chrX, chrY og MT ploidy korrekt.

18. jan: ##chrSet .pvar header-linjer er nu i overensstemmelse med VCFv4.3-specifikationen (et ID-felt er inkluderet). VCF/BCF-eksport udfører nu mere header-validering.

16 Jan: --update-parents fungerer nu korrekt med 'maybeparents' outputkolonnesæt i andre kommandoer.

14 Jan: --update-ids fungerer nu korrekt med 'maybefid' output kolonnesæt i andre kommandoer, når den opretter en FID kolonne.

4. jan: --normalize springer nu korrekt over manglende og '*' alleler.

3. jan: Rettet --bcf-fejl, der påvirkede ufasede multialleliske varianter (som regel resulterede i et falsk "GT half-call"-nedbrud, men hvis du undertrykte det med --vcf-half-call, ville dataene ikke blive importeret korrekt). Rettet "--export bcf"-fejl, der opstod på overskrifter med FILTER/INFO/FORMAT-nøgler med identiske navne, og et nedbrud, der opstod på varianter med flere FILTER-fejl. --output-mangler-genotype/--output-mangler-fænotype fejlrettelser/oprydning.

2. jan: --pgen-diff multiallel-variant håndtering af bugfix. --pgen-diff DS-sammenligning implementeret. --adjust cols= parsing bugfix ('cols=+qq' burde virke nu).

1. januar 2021: Adskillige fejlrettelser til SID-håndtering. --sample-diff 'dosage' og 'id-delim=' modifikator kommandolinjeparsing fejlrettelser. --sample-diff udelader ikke længere senere ALT-alleler, når de er fraværende i prøverne, der sammenlignes. --pgen-diff GT-sammenligning implementeret (generalisering af PLINK 1.x --merge-mode 6/7).

12. december 2020: --q-score-range score-average, ALLELE_CT, DENOM og NAMED_ALLELE_DOSAGE_SUM kolonnefejlrettelse.

28. oktober: Multipass "--eksport A" fejlrettelse. Hvis du tidligere har kørt plink2 "--export A" på en fil, der er for stor til at passe i hukommelsen, anbefaler vi, at du kører igen med denne build.

20. okt: --fst Weir-Cockerham metode implementeret. --fst ids= og chrX fejlrettelser. --fst variant-report OBS_CT er nu specifik for populationspar.

19. oktober: Linux-binære filer skulle nu give reproducerbare resultater på tværs af maskiner, medmindre --native er angivet (tidligere kunne Intel MKL vælge processorafhængige kodestier med forskellig flydende afrundingsadfærd). --fst Hudson metode implementeret. Kategorier inden for kategoriske fænotyper rapporteres nu i naturlig sorteret rækkefølge. --variant-score MISSING_CT/OBS_CT fejlrettelse.

23. september: --update-ids no-FID fejlrettelse.

14 sep: --glm + --parametre chrX/chrY fejlrettelse.

31 Aug: --data/--sample understøtter nu QCTOOLv2's .sample dialekt. --export 'sample-v2' eksporterer det.

27 jul: --glm 'cc-residualize' implementeret. Bemærk, at disse tilnærmelser ikke anbefales, hvis du har et betydeligt antal manglende genotyper.

25 jul: --glm 'firth-residualize' modifikator tilføjet. Dette implementerer den hurtige Firth-tilnærmelse introduceret i Mbatchou J et al. (2020) Beregningseffektiv helgenomregression for kvantitative og binære egenskaber.

6 jul: --af-pseudocount flag implementeret dette lader dig specificere et andet pseudocount end 0 eller 1 til allelfrekvensestimering.

1. juli: --make-[b]pgen 'fill-missing-from-dosage'-modifikator implementeret for at understøtte algoritmer, der ikke kræver manglende hardcalls.

27. juni: --hardy/--hwe chrX multiallelic-variant håndtering af fejlrettelser.

25. juni: Erstattet en vildledende "Ingen sådan fil eller mappe"-fillæst fejlmeddelelse.

15. juni: --glm local-covar= fejler ikke længere ude på lange RFMix2-headerlinjer, så længe ID-længderne er rimelige.

31. maj: Tilføjet enkelt-præcision --variant-score-tilstand.

11. maj: Rettet --glm-segfejl, der opstod, da kategoriske kovariater var til stede, men ingen havde mere end 2 kategorier.

9. april: Firth-regressionsimplementering bruger nu den samme maxit=25-værdi som R logistf(). 'UNFINISHED' fejlkode føjet til at markere logistiske/firth regressionsresultater, som ville ændre sig med endnu flere iterationer.

28 Mar: Rettet --glm fejl i 21 Mar build, der forårsagede segfaults, når nul-MAF bialleliske varianter var til stede. --glm fejler nu, når der ikke er angivet nogen kovariatfil, medmindre 'allow-no-covars'-modifikatoren er angivet.

21 Mar: Rettede --glm multiallel-variant håndteringsfejl, der kunne opstå, når 'genotypisk', 'hethom', 'dominant', 'recessiv', 'interaktion' eller --test blev specificeret og rettet 'dominant'/' recessiv' dokumentation. Det er ikke længere nødvendigt at trimme nul- (eller anden-konstant-) dosis alleler fra multiallele varianter for at få --glm resultater for de andre alleler.

14 Mar: --make-pgen/--make-just-pvar 'vcfheader' kolonnesæt tilføjet (dette gør det muligt direkte at generere en gyldig VCF kun for websteder). Bgzipning af .pvar-filen understøttes ikke direkte, men du kan bruge et navngivet rør til at opnå det med lav overhead.

11 Mar: Rettet --glm-segfejl, der kunne forekomme, når der ikke var angivet nogen kovariater. VCF/BCF-importører vil nu som standard komprimere den midlertidige .pvar-fil, så filer med masser af INFO-feltindhold ikke kræver en uforholdsmæssig stor mængde ledig diskplads at arbejde med. --keep-autoconv har nu en 'vzs'-modifikator til at anmode om komprimering af .pvar-filen (og omvendt, når --vcf/--bcf bruges med bare --keep-autoconv, er .pvar ikke komprimeret).

10 Mar: Rettet --make-pgen-segfejl, der opstod, da der var inddelte doser til stede uden nogen fasede hardcalls.

8 Mar: "--eksport bcf" implementeret. VCF-eksporter multiallele HDS-force fejlrettelser. Føjet manglende FILTER/fa-headerlinje til hele genomet 1000 Genomes fase 3 kommenterede .pvar-filer på siden Ressourcer.

25 feb: --ld multiallel-faset datahåndtering bugfix.

22. feb: --bcf n_allele=1 (ALT='.') fejlrettelse.

19. feb: --bcf GQ/DP-filtreringsfejlrettelser. --vcf og --bcf håndhæver nu VCF contig navngivningsbegrænsninger.

11. feb: "--vcf-half-call reference" fungerer korrekt igen (det opførte sig som "--vcf-half-call-fejl" i de seneste builds).

8. feb: BGZF-komprimerede tekstfiler skulle nu fungere korrekt med alle kommandoer, der laver flere gennemløb over filen (tidligere arbejdede de med --vcf, men næsten ingen andre kommandoer af denne type). Navngivne pipe-input til disse kommandoer skulle nu konsekvent resultere i en fejlmeddelelse inden for en rimelig tid, før dette kunne hænge for evigt.

3. feb: --missing-code fungerer nu korrekt med --haps.

24. jan: Rettet --extract/--exclude fejl, der kunne opstå, når et andet variantfilter blev anvendt tidligere i rækkefølgen af ​​operationer (f.eks. --snps-only, --max-alleles, --extract-if-info). Denne fejlrettelse er blevet backporteret til alpha 2.

21. jan: "--extract range" og "--exclude range" fejler ikke længere, når deres inputfiler indeholder en kromosomkode fraværende fra det aktuelle datasæt.

16. jan: --pca allel/variant weight multithreading bugfix.

14 Jan: --make-king-table gen-tjek fejlrettelsen.

3. januar 2020: Rettet --extract-if-info/--exclude-if-info numeric-argument-fejl introduceret i slutningen af ​​oktober.

30. december 2019 (alfa 3): Dette foretager følgende potentielt kompatibilitetsbrud:

    og --indep-pairwise kræver, at alle variant-id'er er unikke. For --write-snplist kan dette tilsidesættes ved at tilføje 'allow-dups'-modifikatoren. kræver, at REF/ALT-tilstanden er eksplicit deklareret. standard til 'firth-fallback'-tilstand for binære fænotyper. Den gamle adfærd kan anmodes om med 'no-firth'-modifikatoren.
  • --glm fejler, i stedet for blot at springe fænotypen over og udskrive en advarsel, når der er en lineær afhængighed mellem fænotypen og kovariaterne. Den gamle adfærd kan anmodes om med "spring"-modifikatoren. 'var-wts' underkommando er blevet erstattet med 'allele-wts', som håndterer multiallelvarianter korrekt. For datasæt, der kun indeholder bialleliske varianter, kan det gamle outputformat stadig anmodes med 'biallelic-var-wts'.
  • PLINK 2 fejler nu, når du anmoder om en LD-beregning på et datasæt med mindre end 50 grundlæggere. Dette kan tilsidesættes med --bad-ld. s gamle NMISS_ALLELE_CT kolonne (ngå glip afing allel count) er blevet omdøbt til ALLELE_CT, og kolonnesættet er omdøbt i overensstemmelse hermed, da 'nmiss' i andre sammenhænge refererer til nantal af gå glip afværdier, hvilket i bund og grund er det modsatte. 's ID <1,2>kolonner er blevet omdøbt til IID<1,2> ​​for at være i overensstemmelse med andre PLINK 2-kommandoer.

Derudover håndterer GRM-beregningen (sammen med "--pca approx" og "--score variance-standardize") nu multiallele varianter korrekt, i stedet for blot at kollapse alle mindre alleler sammen --score tillader hver allel i en multiallel variant at tildeles sin egen score og --glm håndterer kategoriske kovariater på en måde, der er mindre tilbøjelig til at forårsage VIF-overløb.

Den endelige alpha 2 build er blevet tagget i GitHub og vil forblive downloades herfra i de næste mange måneder.

29. december: Rettede en fejl, der påvirkede behandlingen af ​​nogle heterozygote-dobbelt-ALT multialleliske varianter, og en fejl, der forårsagede ALT2/ALT3/etc. allelfrekvenser ikke initialiseres korrekt under nogle omstændigheder.

13. december: Rettet fejl introduceret i 22. november-build, som forårsagede, at nogle rapporterede doser/tællinger (såsom --freq's OBS_CT-kolonne) blev fordoblet. --loop-cats fejlrettelser.

28. nov: Rettede en fejl til håndtering af halvopkald i VCF, der blev introduceret i sidste måned.

26. nov: Rettet den seneste fejl, som forårsagede en segmentfejl, da der blev udført ikke-duplikat-tilladt variant-id-opslag med mere end 16 tråde.

25. nov: Rettet fejl, der fik --sort-vars til at skille fejl, da antallet af contigs var et multiplum af 16. --keep-fcol og --extract-fcol blev vurderet til at være poopy-navne og er blevet omdøbt til -- keep-col-match og --extract-col-cond henholdsvis (de gamle navne vil stadig fungere i denne build).
Onlinedokumentationen er nu næsten færdig. Sidebjælkens søgefelt virker.

22. nov: Firth-regressionshastighedsforbedring. "--freq counts" eksporterer nu doser med tilstrækkelig præcision til at --read-freq perfekt rekonstruerer de originale allelfrekvenser fra .acount-filen, og --read-freq er blevet ændret til at gøre det.

15. nov: Rettet "--glm cols=+err"-fejl, der kunne forårsage affald, når 'hide-covar' ikke var angivet. --covar-number trukket tilbage (tidligere blev det forkert konverteret til --covar-col-nums, som ikke har den samme semantik).

12. nov: All-vs.-all --make-king[-table]-kørsler håndterer nu MAF < 1% varianter meget mere effektivt. --no-input-missing-phenotype mulighed tilføjet. --variant-score understøtter nu binært output.

10. nov: Rettet fejl introduceret i 29. oktober-build, der forårsagede en segmentfejl, da en 'NA'/'nan'-fænotype eller kovariatværdi blev stødt på.

9. nov: --variant-score (transponering af --score) implementeret.

4. nov: Gendannet "--export vcf" advarsel om ugyldig-allelkode.

31. okt: --split-cat-pheno 'udelad-mest'-modifikator implementeret det fungerer bedre med --glms indbyggede varians-inflationsfaktor-tjek end 'udelad-sidste', og --glm vil skifte til håndtering af kategoriske kovariater på denne måde i alfa 3.

30. oktober: Rettet fejl, der fik --covar-col-nums og --covar iid-only til at blive blandet sammen. Strengere blanklinjepolitik for de fleste tekstinputfiler: de er tilladt i slutningen (da dette sker en gang imellem med manuelt redigerede filer), men de er ikke længere tilladt andre steder. Fjernelse af FILTER- og/eller INFO-kolonnerne ved generering af en .pvar-fil (med f.eks. 'pvar-cols=-info') fjerner nu de tilsvarende overskriftslinjer.

29. okt: --q-score-range implementeret. Strenge, der starter med et tal, men indeholder ikke-numerisk indhold (f.eks. "-123.4abc"), udløser nu en fejl, når der forventes et flydende kommatal, eksempelstrengen blev tidligere bare parset som -123.4.

25. okt: --make-king-table 'rel-check' modifier tilføjede, at dette har samme effekt som det gjorde for PLINK 1.9 --genome. --pca 'var-wts' modifikator forældet: skift til 'biallelic-var-wts', når dine data kun indeholder bialleliske varianter, og du vil fortsætte med at generere kun én vægt pr. variant. (Alfa 3 vil introducere en 'allel-wts'-modifikator, som genererer én vægt pr. allel i stedet for dette er nødvendigt for at understøtte multiallelvarianter på en analytisk forsvarlig måde.)

22. okt: --recover-var-ids implementeret. (Dette er designet til at vende --set-all-var-ids.)

20. okt: --sample-counts implementeret dette giver de vigtigste (ikke-indel) sample counts rapporteret af "bcftools stats"'s -s flag, og er >100x så hurtigt for plink2-formaterede store datasæt. --extract-fcol udvidet til at understøtte substring-matches.

15. okt: Rettet fejl i 12. okt. Linux-builds, der fik plink2 til at hænge på --extract/--exclude/--snps og lignende variant-id-filtre. Implementeret --extract-fcol, som filtrerer varianter baseret på en TSV-kolonne (dette er en udvidelse af PLINK 1.x --qual-scores).

12. oktober: "--hwe 0" fjerner ikke længere et lille antal varianter med meget lav HWE-p-værdi.

9. oktober: --pheno/--covar 'iid-only' modifikator tilføjet, der understøtter filer uden overskrift med en enkelt ID-kolonne. Windows BGZF-komprimering er nu multithreaded. Forbedrede læse-fejlmeddelelser.

6. oktober: Windows --tavs fejlrettelse. Kildekoden understøtter nu dynamisk linking med libzstd (selvom ydeevnen kan lide, hvis du ikke bygger den flertrådede version af det bibliotek).

4. okt: --king-table-subset + --parallel fejlrettelse. Automatisk Zstd-tekstfildekomprimering blev brudt for nogle få kommandoer af 28. september-builden, der skulle fungere korrekt nu.

3. okt: Rettede BGZF-dekompressionsfejl i build den 28. september. (Dette påvirkede ikke VCF &rarr .bed/.pgen-konvertering, selvom nogle sjældnere brugstilfælde blev påvirket.) SID-indlæsningsfejlrettelse.

28. sep: Blandede-provisional-reference fejlrettelser. --ref-allel/--alt1-allel/--update-map/--update-name skip-count bugfix. --glm local-covar line-spring bugfix. Automatisk omdøb, når et inputfilnavn matcher et outputfilnavn, skulle fungere korrekt igen i stedet for at fejle (selvom det stadig bør undgås).

10 sep: --glm fælles test p-værdi fejlrettelse. (Denne fejl påvirkede kun kørsler, hvor --tests blev fremkaldt med 4 eller flere forudsigere.)

26. august: --read-freq udskriver nu en advarsel, i stedet for at udskille fejl eller gå ind i en uendelig løkke, når alle varianter allerede er blevet filtreret fra.

21. august: Rettet --ref-from-fa/--ref-allel + VCF eksportinteraktion, der forårsagede, at falske 'PR' INFO-flag blev rapporteret.

10. aug: Åbn-fejl og skrive-fejl-fejlmeddelelser inkluderer nu en mere detaljeret forklaring på, hvad der gik galt. --bgen, --data og --gen har nu en 'ref-unknown' modifikator for eksplicit at specificere, at hverken den første eller sidste allel konsekvent er REF.

31 jul: --score udskriver en fejlmeddelelse i stedet for at udskille fejl, når en input-fil linje er afkortet. Rettet sjælden --glm-fejl, der kunne medføre, at alle resultater blev rapporteret som 'NA', når præcis én kovariat er defineret. .log-filer udskriver '--out' og '--d' korrekt igen (dette blev brudt af 24. juli-builden). --glm har nu en valgfri outputkolonne ('err'), som rapporterer årsagen til hver 'NA'-koefficient.

8 jul: --rm-dup/--sample-diff/--ld multiallel variant bugfix.

5 jul: --læse-frekvens flyttet før sædvanlig allelfrekvens/tælleberegning i rækkefølge efter operationer. Indlæste allelfrekvenser genberegnes ikke længere.

28. juni: --king-table-subset burde fungere korrekt igen.

26. juni: Rettet --glm multiallel-variant fejl, der kunne forårsage, at en allel blev rapporteret to gange, og at en covariat test ikke blev rapporteret, når hverken 'hide-covar' eller 'intercept' var specificeret. Rettet problem, der kunne få --glm genotypic/hethom til at udskille fejl uden kovariater.

17. juni: Rettet sjældent underløb i --glm p-værdiberegning, som kunne forårsage en påstandsfejl.

27. maj: Unbroke --adjust-file. "--eksport ind-major-seng" præstationsforbedring.

12. maj: Rettet --glm lineær regression fænotype-batch-håndteringsfejl, der kunne forårsage et nedbrud (eller, på .bed-formaterede data, generere forkerte resultater) på batches af størrelse > 240.

29. april: BGEN 1.2/1.3-fejlrettelser til import af trinvis dosering. --make-pgen + --dosage-erase-threshold uden --hard-call-threshold går ikke længere ned.

28. april: PLINK 2-specifikke udvidelser til --update-id'er og --update-parents forenklet. --id-delim/--sample-diff 'sid' modifikator til at specificere, at enkelt-delimiter sample ID'er skal fortolkes som IID-SID ændret til --iid-sid flag.

27. apr: --haps fejlrettelse for stikprøveantal kongruent med 17..31 (mod 32). Dette påvirkede kun de sidste par eksempler på filen, men hvis du brugte --haps med en tidligere build, anbefaler vi kraftigt at køre den igen. --glm logistisk regression 'SE' kolonne omdøbt til LOG(OR)_SE ved rapportering af odds ratio, for at gøre det mere indlysende, at den rapporterede standardfejl ikke bruger odds ratio enheder. --update-forældre implementeret.

2. april: Rettet --hwe-fejl, der kunne forårsage, at chrY- og MT-varianter blev filtreret forkert. --glm 'pheno-ids' virker nu for grupper af kvantitative fænotyper.

1. apr: --glm uden --adjust registrerer nu grupper af kvantitative fænotyper med det samme "manglende mønster", og behandler dem sammen (med en stor hastighedsforøgelse, men vær forsigtig med hensyn til diskplads, du vil sandsynligvis bruge 'skjul -covar' modifikator, 'zs' og/eller --pfilter kan også være nyttige). --glm lineær regression local-covar= fejlrettelse.

26 Mar: Minimac3-r2 fejlrettelse til beregning. --glm genererer ikke længere .id-filer, der viser alle eksempler, der bruges til hver fænotype, medmindre 'pheno-ids'-modifikatoren er tilføjet. --update-id'er implementeret.

23 Mar: Rettet multiallelvariant writer-fejl, der kunne påvirke filer, hvor det største antal alleler er 6 eller 18. --minimac3-r2-filter og --freq minimac3r2 kolonne implementeret.

18 Mar: --write-covar kan nu bruges, når ingen kovariater er indlæst, hvis mindst én fænotype er indlæst og fænotypeoutput blev anmodet om.

9 Mar: plink2 --version og --help returnerer ikke længere exit-koder, der ikke er nul.
Et udkast til PGEN-specifikation er nu tilgængeligt.

6. mar: Rettet allelfrekvensberegningsfejl, der kunne forårsage en falsk "Malformed .pgen file"-fejl, når et variantfilter var aktivt.

5 Mar: Multithreaded --extract/--exclude.

4 Mar: --tester lineær regression output bugfix.

3. marts: Ret --glm odds-ratio udskrivningsfejl introduceret den 1. mar.

2 Mar: Mere oprydning af hjælpetekster (nu inklusive online dokumentation).

1 Mar: --recode-allel implementeret (og omdøbt til --export-allel for konsistens). VCF-import fejler nu, når en plads-holdig INFO-værdi importeres. Klammer i kommandolinjehjælpeteksten bruges nu på en måde, der ligner andre værktøjer.

21. feb: --glm ledtest er nu baseret på F-statistik for bedre nøjagtighed i små stikprøver.

20. feb: --import-dosage-certainty producerer nu altid et manglende opkald, i stedet for at falde tilbage på VCF GT-feltet, når dosissikkerheden er utilstrækkelig. --extract-skæringsflag tilføjet.

19. feb: --glm fungerer korrekt igen uden kovariater (den afsluttede med en falsk "manglende hukommelse"-fejl). --import-dosering-sikkerhed har nu den forventede effekt på enkeltværdidoser, i stedet for blot genotype-sandsynligheds-tripletter.

18. feb: Rettede en fejl, der kunne få --missing til at gå ned på dosisdata.

14. feb: Kommandolinje-heltalsparametre kan nu bruge videnskabelig notation.

12. feb: Fejlrettelse til import af trinvis dosering.

2. feb: --tests + --parameters fejlrettelse.

31. jan: --pca ca fejler nu i stedet for at rapportere unøjagtige resultater, når antallet af varianter er for lille i forhold til antallet af pc'er. --pca ca egenværdi bugfix.

30. jan: --glm-kovariatskala-fejl udbredes nu korrekt, i stedet for at producere en mystisk fejlmeddelelse uden for hukommelsen.

22. jan: --glm fejler nu og anbefaler at tilføje --covar-variance-standardize, når kovariater varierer nok i skala til, at numerisk ustabilitet er et stort problem.

2. jan 2019: Fejlrettelse ved trinvis dosisimport.

27. december 2018: --ref-allele/--alt1-allele skipchar var brudt i de sidste par måneder, det skulle fungere korrekt igen. Rettede en fejl, der opstod ved import af en variant med ikke-heltalsdosering.

28. oktober: --keep-fam/--remove-fam bugfix.

2. okt: Rettet fejl, der kunne opstå ved indlæsning af meget lange tekstlinjer (f.eks. VCF-linjer længere end 5 MB).

22. sep: Rettet sjælden fejl, der kunne opstå ved behandling af varianter ude af drift. --sample-diff kommando implementeret.

12 Sep: --normalize 'liste' modifikator tilføjet.

11. september: --rm-dup 'liste'-modifikator tilføjet, for at vise alle duplikerede variant-id'er. (Dette kan køres som en selvstændig kommando.)

9. sep: Rettet sjælden racetilstand i tekstdekomprimering, der kunne forårsage, at inputlinjer blev sprunget over. (Vi mener, at dette var årsagen til VCF-importen "Fillæsningsfejl"-nedbrud rapporteret i løbet af de sidste par måneder.)

8. sep: Rettet VCF-eksportfejl, der kunne opstå, når der var ekstra ##contig header-linjer til stede.--sort-vars fejlrettelse. --normalize registrerer nu, når post-normaliseringsvarianter ikke længere er i sorteret rækkefølge, og udskriver i så fald en advarsel.

7. sep: --ld fejlrettelse for fasede multiallele varianter. --rm-dup flag tilføjet (fjerner duplicate-ID varianter, kan tjekke for genotype/INFO/etc. lighed).

4. sep: Rettet A1_CASE_FREQ og relaterede kolonner i --glm-output brudt af nylig multiallel opdatering. Ryddede op i et par kolonnenavne i --geno-counts og --hardy output.

31. august: Rettet --glm-fejl med håndtering af konstante og alle-konstante-men-1-kovariater.

30. august: AVX2 og 32-bit --eksport bgen-1.2/1.3 fejlrettelser (påvirker hovedsageligt manglende genotyper). "--eksport vcf-4.2"-tilstand tilføjet for kompatibilitet med programmer (f.eks. SNPTEST), som afviser VCF 4.3-filer. Eksporterede VCF'er burde nu have mere passende ##contig headers, når PAR1 og/eller PAR2 er til stede i inputtet. Venstre-normalisering (--normalisere) flag tilføjet.

26. august: Sidste kolonne i --pca .eigenvec overskriftslinje er ikke længere udeladt.

21. aug: Rettede fejl i --mac/--max-mac 'nref' og 'alt1' tilstand i gårsdagens build.

20. august: Rettet "--vcf dosage=GP"-fejl introduceret den 7. maj, hvis du brugte en build fra de sidste tre og en halv måned til at importere VCF FORMAT/GP-data, køres igen med en nyere build. "--vcf dosage=GP" fejler nu med en passende meddelelse, når filen også indeholder et FORMAT/DS-felt, og en 'dosage=GP-force'-indstilling er blevet tilføjet for at dække de sjældne tilfælde, hvor import af GP-feltet evt. stadig være umagen værd. --maf/--max-maf/--mac/--max-mac lader dig nu filtrere på nonmajor (standard), non-reference, alt1 eller mindre allel frekvenser/tællinger, du kan bruge bcftools notation til dette (f.eks. "--min-af 0.01:minor"), men husk den anden standard.

18 aug: plink2-formaterede 1000 Genomes fase 3 filer, med fasede haplotyper og annoteringer inkluderet, og et par rettelser til den officielle stamtavle (bestemt via KING-robust analyse), kan nu downloades fra siden Ressourcer. --king-cutoff kan nu håndtere prøve-ID-filer, der indeholder en overskriftslinje.

16 Aug: --glm logistisk regression understøtter nu multialleliske varianter. Rettet --glm lineær regression dosishåndteringsfejl i gårsdagens build.

15 Aug: --glm lineær regression understøtter nu multialleliske varianter. --ld fejlrettelse. --parameters + "--glm interaktion" fungerer nu korrekt, når en kovariat kun er involveret som en del af en interaktion.

9. aug: --make-king[-table] singleton/monomorf-variant optimering implementeret.

7. august: GRM-konstruktion og --missing bryder ikke længere med multialleliske data.

6. august: VCF multiallel(-faset) import og eksport implementeret. --hwe tester nu hver allel separat for multiallele varianter. --min-alleler/--max-allelfiltreringsflag tilføjet.
(--glm understøtter ikke multialleliske varianter endnu, den opdatering er planlagt til næste uge.)

30 jul: --vcf-max-dp flag tilføjet.

26 jul: --vcf-half-call skulle nu fungere korrekt på ikke-fasede data.

25 jul: Rettet --sort-vars/low-memory-make-pgen dosishåndteringsfejl, der kunne udløse uønsket hardcall-tærskel. Hvis du brugte en build fra 14. apr - 19. juli 2018 til at arbejde med dosisdata, er de hårde opkald muligvis ikke blevet tærsket korrekt. Ufiltrerede dosisdatasæt importeret af en påvirket build kan korrigeres ved at køre --make-pgen + explicit --hard-call-threshold. Hardcall-baserede filtre såsom --geno/--mind bør køres igen (efter at hardcalls er blevet rettet).

19 jul: --update-alleler implementeret.

16 jul: Tilføjet mere multithreaded-VCF-parse debug-logningskode.

13 jul: Rettet chrX/Y/MT autoremoval bug i --make-king/--make-grm/--pca.

12 jul: Ubrudt --mach-r2-filter.

3 jul: .fam/.psam-filer indlæses nu korrekt, når kun IID-kolonnen er anmodet om eller til stede.

29 Jun: .bim/.pvar filer med mere end

134 millioner varianter indlæses korrekt igen (forudsat tilstrækkelig hukommelse).

25. juni: Rettede et par eksportsager med ulige stikprøver, som blev ødelagt omkring 30. maj.

22. juni: Rettede nogle få log-meddelelser, som var brudt i 19-20 juni builds. Tilføjet debug-print kode for at understøtte en igangværende multithread-VCF-dosage-import fejlundersøgelse (hvis du støder på mystiske "File read failure"-fejl under VCF-import eller "Malformed .pgen"-fejl, når du læser resultatet, tilføjer "--threads" 1" til din VCF-import-kommando vil sandsynligvis løse dit umiddelbare problem, men hvis du også kan sende mig en .log-fil fra den mislykkede multithreaded-kørsel (eller endnu bedre, testdata), ville det være meget nyttigt).

20. juni: Fix GRM/PCA/score-computation-fejl introduceret den 30. maj. Hvis du brugte 30. maj eller en tidlig juni-build til GRM/--pca/--score, bør du gentage handlingen/operationerne med denne build undskylder fejlen.

19. juni: Rettet sjældent --ref-allel/--alt1-allel-hjørnetilfælde, som kunne opstå, når en manglende allel blev erstattet med en meget lang allel.

5. juni: VCF importerer uinitialiseret-variabel fejlrettelse. --score 'ignore-dup-ids' modifikator tilføjet.

30. maj: "--export haps[legend]" fejlrettelser og bgzip-understøttelse. "--export vcf vcf-dosage=DS" eksporterer ikke længere udeklarerede HDS-værdier, når faseinformation er til stede. Unbreak --import-dosage + --map, for alvor denne gang.

21. maj: --pgen-info kommando tilføjet (viser grundlæggende information om en .pgen fil, såsom om den har nogen fase- eller dosisdata).

17. maj: --import-dosering og .gen-import var gået i stykker i de sidste par uger, dette skulle være rettet nu. A1-søjle tilføjet til --juster output som forberedelse til multiallele varianter. --glm 'a0-ref' modifikator omdøbt til 'udelad-ref'.

15. maj: Rettet chrX-allelfrekvensberegningsfejl, når doser er til stede. --ld modificeret til at være baseret på major i stedet for reference alleler, for at spille bedre med multialleliske varianter. --Hårdfør overskriftslinje og allelkolonner ændret som forberedelse til multiallel variantunderstøttelse.

8. maj: --vcf dosage=HDS skulle nu håndtere filer uden DS-felt korrekt.

7. maj: Fixed sjælden I/O deadlock. Forbedret VCF-importparallelisme.

4. maj: Rettet --bgen import/eksport, når dosispræcisionsbits ikke er et multiplum af 8 (tidligere misfortolkede specifikationerne for disse tilfælde, undskyld det).

3. maj: --bgen kan nu importere variantposter med op til 28 bits doseringspræcision (dog kun

15 bits vil overleve). "--eksport vcf-dosage=HDS-force" fejlrettelse.

2. maj: --vcf dosering= import kræver ikke længere, at GT-feltet er til stede. Fast potentiale --vcf dosering=HDS bufferoverløb.

28. april: Rettede en --glm-fejl, som opstod, da autosomer og kønskromosomer begge var til stede, eller både chrX og chrY var til stede. Hvis du udførte en hel-genom--glm-kørsel med 9. februar 2018-builden eller senere, bør du køre igen med den seneste build. Dog var enkeltkromosom- og autosom-kun --glm-kørsler upåvirket af fejlen.

24. apr: VCF trinvis dosering import ("--vcf dosering=HDS") og eksport ("--eksport vcf vcf-dosering=HDS"). --pca og GRM-beregning bruger nu korrekt varians for alle-haploide genomer.

22. april: --export bgen-1.2/bgen-1.3 burde nu virke for chrX/chrY/chrM også rettet importfejl for disse kromosomer.

16. april: --ref-from-fa contig linjeparsing bugfix.

14. april: --eksport bgen-1.2/bgen-1.3 implementeret til autosomale diploide data. Operationer som --pca, der kræver anstændige allelfrekvenser, fejler nu, når frekvenser estimeres ud fra mindre end 50 samples, medmindre du tilføjer flaget --bad-freqs. Fasevis doseringsstøtte implementeret. Sample missingness rate i eksporterede .sample-filer er nu baseret på doser snarere end hardcalls. Ikke-AVX2 fase underindstilling fejlrettelse. --vcf + --psam fejlrettelse. --vcf dosage= ignorerer nu hardcallet, når en dosis er til stede i stedet, det er regenereret under --hard-call-threshold 0.1 (medmindre du har angivet en anden tærskel). --bgen 'ref-second' modifikator omdøbt til 'ref-last', for at generalisere korrekt til multialleliske varianter.

31 Mar: --export haps[legend] skulle nu fungere korrekt, når --ref-allele/--ref-from-fa/etc. vender nogle alleler i samme løb.

29 Mar: --set--var-ids ikke-AVX2 fejlrettelse. --pheno/--covar autoname bugfix.

28 Mar: --bgen 1-bit faset haplotype import implementeret.

26 Mar: --red-bed + --individ-sort bugfix.

23. marts: Windows-builds skulle fungere korrekt igen (Windows-builds fra 20.-21. marts var slemt ødelagt). --glm understøtter nu log-pvalue output (tilføj 'log10'-modifikatoren), og disse forbliver nøjagtige under dobbeltpræcisions flydende komma-grænsen på p=5e-324.

21 Mar: Indlæsning af 3-kolonne .sample-fil fungerer korrekt igen. Rettede en fil-læse race tilstand.

20 Mar: Ret mulig dødvande i de seneste builds, når du læser meget lange linjer.

19 Mar: Fix --sample segfault i de seneste builds. .bgen import/eksport hastighed forbedring. --oxford-single-chr blev ikke forlænget korrekt i 4 Mar build dette burde være rettet nu.

11 Mar: Ret --pheno segfault i sidste uges builds, der kunne opstå, når filen ikke havde en overskriftslinje.

9. marts: Ret "Fil skrivefejl"-fejl, der opstod, da en enkelt skriveoperation var større end 2 GB (dette kunne forekomme, når du kører --make-bed med mere end 128.000 samples). Reduceret krav til hukommelseskapacitet.

7. marts: Rettet potentiel dødvande til fillæsning i de seneste builds (23. feb eller senere).

5 Mar: --glm local-covar= burde fungere korrekt igen.

4 Mar: --oxford-single-chr kan nu bruges på .bgen-filer. --make-pgen delvist faset datahåndteringsfejlrettelse.

26. feb: --keep/--remove/etc. skal fungere korrekt nu på IID-only-filer uden overskriftslinje.

23. feb: Rettet alpha 2 --vcf + --id-delim fejl. Forbedret parsinghastighed for komprimerede VCF- og .pvar-filer.

20. feb: "--xchr-model 1" burde fungere korrekt nu.

16. februar 2018 (alfa 2): Dette medfører følgende potentielt kompatibilitetsbrud:

  • FID er nu et valgfrit felt: hvis det ikke er i input-.psam-filen, er det udeladt fra flere outputfiler som standard (disse har nu 'maybefid' og 'fid' kolonnesæt, hvor standardsættet inkluderer 'maybefid') , og behandlet som altid-'0' af enhver operation, der kræver FID-værdier (såsom --make-bed). Ved eksport af genomiske datafiler behandler 'maybefid' også kolonnen som manglende, hvis alle resterende værdier er '0'.
  • Når man importerer prøve-id'er fra en VCF- eller .bgen-fil, er standardtilstanden nu "--const-fid 0", og ingen FID-kolonne vil blive skrevet til disken overhovedet. --keep, --remove og lignende kommandoer har også nu "--const-fid 0" semantik, når en inputlinje kun indeholder et token. Du kan nu agere, som om IID er den eneste prøve-id-komponent, hvis det er det, der giver mest mening for din arbejdsgang. Omvendt er det nu nødvendigt eksplicit at bruge --id-delim, når du vil opdele VCF/.bgen-eksempel-id'erne i flere komponenter.
  • MT behandles igen som et haploid kromosom. I PLINK 1.9 og tidligere plink2-builds blev MT behandlet som diploid-agtigt for at undgå at smide information om heteroplasmatiske mutationer væk som en konsekvens, --glm(/--linear/--logistic) genotypekolonnen og kommandoer som "--freq tæller" brugte en 0..2 skala. Nu hvor plink2 har ordentlig support til doseringer, er denne kludge ikke længere nødvendig.
  • --glms 't' kolonnesæt er blevet omdøbt til 'tz', for at afspejle, at det er en T-statistik for lineær regression, men en Wald Z-score for logistisk/Firth. Den tilsvarende kolonne i .glm.logistic[.hybrid] og .glm.firth filer har nu 'Z_STAT' i overskriftslinjen.

Også --glm indstiller nu som standard til at regressere på mindre i stedet for ALT-alleldoser (dette kan tilsidesættes med 'a0-ref').

Den endelige alpha 1 build er blevet tagget i GitHub og vil forblive downloades herfra i de næste par måneder.

11. feb: .king.cutoff.in/.king.cutoff.out-filer slutter nu på .id, for overensstemmelse med andre outputfiler med prøve-id'er og ingen anden information. På samme måde har --minds outputfil nu filtypenavnet .mindrem.id og har som standard en overskriftslinje. Du kan nu bruge --no-id-header til at undertrykke overskriftslinjen (og tvinge kolonnerne til at være FID/IID) i alle .id-outputfiler.

10 feb: --update-sex 'male0' mulighed tilføjet, og brugerdefineret kolonnevalgsgrænseflade ændret (nu 'col-num='). --glm 'gcountcc' kolonnenavne opdateret (nu 'CASE_NON_A1_CT', 'CASE_HET_A1_CT' osv.) som forberedelse til skift til A1=major allel. --make-just-pvar + --ref-allel/--ref-from-fa behandler ikke længere alle indledende referencealleler som foreløbige, når input .pvar har en overskriftslinje.

9. feb: At tvinge .pvar QUAL/FILTER output, når sådanne værdier ikke er indlæst, forårsager ikke længere en segfault.

5. feb: AVX2 fase-underindstilling fejlrettelse.

3. feb: --score 'dominante' og 'recessive' modifikatorer tilføjet.

30. jan: Rette .pgen skrivefejl, som opstod, da antallet af varianter var et multiplum af 64, og antallet af prøver var stort.

24 Jan: "--export oxford" understøtter nu bgzipped output.

21. jan: --glm rapporterer nu altid en ekstra 'A1'-kolonne, der angiver, hvilke alleler der svarer til positive genotype-kolonneværdier. --glm kolonnesæt er blevet ændret til at dreje sig om A1 i stedet for ALT, så mindre script ændringer kan være nødvendige, når du skifter til denne build.
I denne build er A1 og ALT stadig synonyme. Dette vil ændre sig i alfa 2: A1 vil som standard være de(n) mindre allel(er) for at reducere multikolinearitet (imitere PLINK 1.x's adfærd i fravær af --keep-allel-order), selvom du stadig vil have mulighed for at tvinge A1 =ALT.

12. jan: Rettet "--glm interaction"-fejl, der opstod, da flere på hinanden følgende varianter ikke havde manglende opkald. Vi anbefaler at gentage alle --glm-kørsler med "interaktions"-modifikatoren, som blev udført med en build produceret mellem 27. november 2017 og 10. januar 2018 inklusive.

10. jan: --adjust-fil implementeret (udfører --adjusts multiple-test-korrektion på enhver tilknytningsanalysefil).

9. jan: Tilføjede 'no-idheader'-modifikatorer til et par kommandoer og gjorde det til standard for --make-grm-bin/--make-grm-list for at undgå at bryde interoperabiliteten.

7. jan: --vcf kan nu få en websteds-only VCF, når kørslen ikke kræver genotypedata. Prøve-id-filer, såsom dem, der er produceret af --write-samples, inkluderer nu en header-linje som standard, dette vil være nødvendigt for at skelne mellem FID-IID og IID-SID output i fremtiden. (Med --write-samples kan du undertrykke overskriftslinjen ved at tilføje 'noheader'-modifikatoren.)

5. jan: --pheno-col-nums/--covar-col-nums implementeret.

2. jan 2018: --keep-fcol (svarende til PLINK 1.x --filter) implementeret.

19. dec 2017: --juster implementeret. --zst-niveau implementeret (lader dig kontrollere Zstd-komprimeringsniveau). Ubrudt -- genudløb.

18 Dec: --extract/--exclude kan nu bruges direkte på UCSC interval-BED filer (ok for koordinater skal være 0-baserede eller for ingen 4. kolonne til stede). "--output-chr 26" får nu PAR1/PAR2 til at blive gengivet som '25' (for mennesker), for at genoprette interoperabilitet med programmer som ADMIXTURE, der ikke kan håndtere alfabetiske kromosomkoder. --merge-x implementeret (skal normalt kombineres med --sort-vars nu). --pvar kan normalt håndtere 'kun websteder' VCF-filer (f.eks. dem, der er udgivet af gnomAD-projektet) nu. --thin, --thin-count, --thin-indiv og --thin-indiv-count implementeret.

16. december: Multithreaded zstd-komprimering implementeret (på Linux og macOS). --make-grm-gz omdøbt til --make-grm-list, og gzip-tilstand fjernet.

15. december: Fixed --extract-if-info og --exclude-if-infos adfærd for ikke-numeriske værdier, der starter med et tal. Eksistenskontrolflag omdøbt til --require-info og --require-no-info for navngivningskonsistens.

13. december: --extract-if-info og --exclude-if-info flag tilføjet, for simpel filtrering på INFO nøgle/værdi par eller nøgleeksistens.

11 Dec: --king-table-subset flag tilføjet. Dette gør det ligetil at udføre to-trins relation/duplikatdetektion: start med --make-king-table på et lille antal højere-MAF-varianter spredt ud over genomet, og kør det derefter igen med --king-table-subset på en passende delmængde af kandidatprøvepar fra første fase. --bp-space implementeret (nyttigt til det første trin ovenfor).
To-trins workflowet blev først implementeret af Wei-Min Chen i en nyere version af KING kontakt ham for citatoplysninger.

7. december: Rettet fejl, der kunne opstå ved filtrering af prøver fra et faseopdelt datasæt. Windows AVX2 build nu tilgængelig.

28. nov: --import-dosage 'format=infer' (dette er nu standard) og 'id-delim=' (nødvendig for genimport af "--export A-transpose" data) tilføjet. Rettet --import-dosage fejl, der fik den til at fejle på manglende genotyper under format=1. --no-psam-pheno (eller --no-pheno/--no-fam-pheno) kan nu bruges til at ignorere alle fænotyper i prøvefilen, mens fænotyperne bevares i --pheno-filen, hvis en blev specificeret.

27. nov: Implementeret hurtig vej for --glm no-missing-genotype case (påvirker hovedsageligt lineær regression). --make-king[-table] kan nu automatisk håndtere matricer, der er for store til at passe i hukommelsen uden eksplicit brug af --parallel. AVX2 prøvefiltrering ydeevne forbedring. --valider fejlrettelsen.

19. nov.: Rette VCF FORMAT/GT-header-linjeparsing-fejl introduceret i 14. november-build.

18. nov: --make-king[-table] præstationsforbedringer.

16. nov: Rettet fejl i 14. nov-build, der brød ##chrSet header-linjeparsing.

14. nov: Rettet fejl, der forårsagede --eksport at hænge, ​​når antallet af varianter var mellem 65 og omkring tusind.

4. nov: Linux- og macOS-forudbyggede AVX2-binære filer er nu tilgængelige, disse burde fungere godt på de fleste maskiner bygget inden for de sidste 4 år. Rettede en anden falsk NA-fejl ved Firth-regression. Rettet --score fejl, der opstod, da prøvefiltre blev anvendt samtidigt. Rettede en --ld phased-hardcall håndteringsfejl. Array-popcount-opgradering i gang (takket være nyligt arbejde af Wojciech Muła, Nathan Kurz, Daniel Lemire og Kim Walisch).

3. nov: Fast multipass --eksport insekt. --dummy dosage-freq= udfylder nu hardcalls med standard --hard-call-threshold cutoff på 0,1 når --hard-call-threshold ikke er eksplicit specificeret.

2. nov: --eksport implementeret (med doseringsstøtte). --dummy dosage-freq= modifikator fungerer nu korrekt til doseringsfrekvenser over 0,75.

16. oktober: --ref-from-fa flag implementeret, for at sætte reference alleler fra en FASTA fil. (Bemærk, at dette muligvis ikke er i stand til at bestemme, hvilken allel der er reference, når længdeændringer er involveret, men det bør altid fungere for SNP'er og multinukleotidpolymorfismer.) --update-name implementeret. Rettet kolonne-sæt parsing fejl i 13. oktober build.

13. okt: Rettet --glm logistic/Firth regression bug, som kunne producere falske NA-resultater.

9. okt: Fixed --ld's håndtering af nogle doserings- og haploide tilfælde. Rettet fejl, som kunne få --make-pgen til at kassere fase-/dosisinformation ved udtrækning af et lille variantundersæt. --geno-tæller ikke længere dobbelt-rapporter chrY tæller.

8. okt: --ld implementeret, med understøttet for fasede genotyper og doseringer (prøv "--ld <var1> <var2> dosering"). Rettet lille bgen-1.1-importfejl, der udløste, da antallet af tråde oversteg antallet af varianter.Beregning af allelfrekvenser går ikke længere ned på chrX, når doser er til stede, men der er kun behov for hardcalls.

1. okt: Rettet GRM-beregningsfejl, som nogle gange forårsagede segmentfejl, når både doser og manglende værdier var til stede. --glm er nu en smule hurtigere, når mange kovariater er til stede.

20. sep: Firth-regression Hessisk matrix-inversionstrin hævet til dobbelt-præcision, efter sidste uges builds afslørede, at enkelt-præcision-inversion kunne være upålidelig.

15. sep: --vif/--max-corr per-variant checks virker nu. Disse springes ikke længere over under logistisk regression.

8. sep: Alternative VCF INFO/PR-felter tolereres nu. Fjernede fejlretningskode, der bremsede gårsdagens --make-pgen.

7. sep: --score uinitialiseret hukommelsesfejlrettelse. Delvis faset fejlrettelse til datahåndtering.

6. september: Løs problemet med macOS-stabelstørrelsen (kan få --pca og nogle andre kommandoer til at gå ned i de seneste builds. 1. september build havde en ufuldstændig løsning).

4. sep: --[covar-]varians-standardiser fejlrettelse til håndtering af manglende værdi. --ref-allel/--alt1-allel implementeret (--a2-allel og --a1-allel behandles som aliaser).

1 sep: ---kvantil-normalisere manglende fænotype håndtering fejlrettelse.

29. august: --glm 'gcountcc' kolonnesæt mulighed tilføjet (rapporterer genotype hardcall optællinger, stratificeret efter sag/kontrolstatus). --write-samples kommando tilføjet (analog med --write-snplist).

2. aug: --sort-vars implementeret.

25. jul: --loop-cats fungerer nu korrekt med genotypebaserede variantfiltre.

24 jul: Rettet "--pca approx" allel frekvens håndtering fejl introduceret i 4 juni build, vi anbefaler at gentage alle "--pca approx" kørsler udført med en påvirket build. (Almindelig --pca blev ikke påvirket.) --loop-cats implementeret (svarende til PLINK 1.x --loop-assoc, bortset fra at det ikke er begrænset til associationstest). VCF-eksport understøtter nu 'vcf-dosage=DS-force'-tilstand. --dummy multithread + doseringsfejlrettelse.

17. jul: BGEN v1.2/1.3-importør-hukommelsesallokeringsfejlrettelse. Størrelsen på mislykket tildeling er nu logget på de fleste fejl i hukommelsen.

2 jul: Forbedret multithreading i BGEN v1.2/1.3 importør. Python writer kan nu kaldes med flere varianter ad gangen.

25. juni: Grundlæggende BGEN v1.2/1.3-import (ufasede bialleldoseringer er tilstrækkelige til den primære britiske biobankdataudgivelse). --warning-errcode flag tilføjet (bevirker, at en fejlkode returneres til OS ved afslutning, når mindst én advarsel udskrives).

20. juni: --condition-list + variant filter bugfix.

5. juni: --make-pgen hukommelseskrav kraftigt reduceret. Sluttidspunktet er nu udskrevet til konsol i de fleste situationer.

4. juni: --hwe forårsager ikke længere en segfault, når chrX er til stede, og ingen kønsoplysninger er tilgængelig. Rettet --dummy-fejl.

29. maj: --import-dosering format=1 fejlrettelse.

26. maj: --glm 'standard-beta' modifikator erstattet med --variance-standardize flag. --Quantile-normalize funktion tilføjet. Rettede en fejl med alleltælling af manglende køn.

25. maj: --hardy/--hwe fungerer korrekt igen, når chrX er til stede, men ikke i begyndelsen af ​​datasættet.

22. maj: Rettede større dosisdata + prøvefilterfejl, vi anbefaler at køre alle operationer, der involverer både dosisdata og prøvefiltrering udført med tidligere plink2-builds, igen. --score 'liste-varianter' modifikator tilføjet.

19. maj: Rettede en fejl med allelfrekvensberegning på dosisdata, når prøvefiltre anvendes.

18. maj: Mange kategoriske fænotype-håndteringsflag (--inden for, --hold-katte, --split-kat-fæno, . ) implementeret. Grundlæggende fænotypebaseret filtrering implementeret (f.eks. "--remove-if PHENO1 '>' 2.5" bemærk, at unavngivne fænotyper tildeles navnene 'PHENO1', 'PHENO2' osv., og at tegnene '<' og '>' skal citeres i de fleste skaller). --write-covar implementeret. --mach-r2-filter implementeret, og rå MaCH r 2 værdier kan dumpes med "--freq cols=+machr2".

11. maj: --condition[-liste] + --covar fejlrettelse.

8. maj: Rette kvantitativ fænotype/kovariat indlæsningsfejl introduceret i build den 6. maj.

7. maj: --import-dosering implementeret.

6. maj: Rettet fejl, der gjorde, at '0' blev behandlet som kontrol i stedet for at mangle for binære fænotyper. Mindre ændring af --glms kolonneoverskrifter, som forberedelse til multialleliske data.

2. maj: --score fejlrettelse. --maj-ref fejlrettelse. --vcf-min-dp og "--export A-transpose" implementeret.

1. maj: Import/eksport af VCF-dosis, --vcf-min-gq og --read-freq implementeret. --score kan nu arbejde med standardfejl. --autosome[-par] fungerer nu korrekt. SNPHWE2- og SNPHWEX-funktioner genlicenseret som GPL-2+ for at muliggøre inklusion i HardyWeinberg R-pakken.

20. april: .sample eksport bugfix (virkede ikke, hvis filen var over 256 KB og ingen fænotyper var til stede). --dummy implementeret (kan nu generere doser).

19. april: --hardy/--hwe chrX bugfix (tak til Jan Graffelman for at fange problemet og validere rettelsen). --new-id-max-allele-len har nu tre tilstande ('fejl', 'mangler' og 'truncate'), og standardtilstanden er nu 'fejl' (dvs. --set-missing-var-ids og --set-all-var-ids fejler nu, når der stødes på en allelkode, der er længere end 23 tegn, i stedet for at blive afkortet). --score implementeret og udvidet til at understøtte variansnormalisering og flere scorekolonner (disse to funktioner giver en enkel måde at projicere nye prøver på tidligere beregnede hovedkomponenter).

11. april: --pca var-wts fejlrettelse og --pca egenværdi bestillingsfejlrettelse. --glm lineær regression og --condition[-list] understøttelse tilføjet. --geno/--mind/--missing/--genotyping-rate kan nu referere til manglende doser i stedet for blot manglende hardcalls (bemærk, at når du importerer dosisdata, doser i (0.1, 0.9) og (1.1, 1.9) gemmes, men der vil normalt ikke være tilknyttet hardcalls).


UDTRYK

Disse filtreringsudtryk accepteres af de fleste kommandoer.

Gyldige udtryk kan indeholde:

numeriske konstanter, strengkonstanter, filnavne (dette understøttes i øjeblikket kun for at filtrere efter ID-kolonnen)

". Udtrykkene skelner mellem store og små bogstaver, medmindre "/i" tilføjes.

logiske operatorer. Se også eksemplerne nedenfor og filtreringsvejledningen om skelnen mellem "&&" vs "&" og "||" vs "|".

INFO-tags, FORMAT-tags, kolonnenavne

starter med 1.11, kan FILTER-kolonnen forespørges som følger:

1 (eller 0) for at teste tilstedeværelsen (eller fraværet) af et flag

manglende genotyper kan matches uanset fase og ploiditet (".|.", "./.", ".", "0|.") ved hjælp af disse udtryk

manglende genotyper kan matches, herunder fasen og ploidien (".|.", "./.", ".") ved hjælp af disse udtryk

prøvegenotype: reference (haploid eller diploid), alternativ (hom eller het, haploid eller diploid), manglende genotype, homozygot, heterozygot, haploid, ref-ref hom, alt-alt hom, ref-alt het, alt-alt het, haploid ref, haploid alt (ufølsom mellem store og små bogstaver)

TYPE for varianttype i REF,ALT-kolonner (indel,snp,mnp,ref,bnd,other,overlap). Brug regex-operatoren "

" for at kræve mindst én allel af den givne type eller lighedstegnet " literallayout">TYPE="snp" TYPE

array subscripts (0-baseret), "*" for ethvert element, "-" for at angive et interval. Bemærk, at til forespørgsel efter FORMAT-vektorer kan kolon ":" bruges til at vælge en prøve og et element af vektoren, som vist i eksemplerne nedenfor

med mange eksempler kan det være mere praktisk at give en fil med eksempelnavne, et eksempelnavn pr. linje

funktion på FORMAT-tags (over prøver) og INFO-tags (over vektorfelter): maksimalt minimum aritmetisk middelværdi (AVG er synonymt med MEAN) median standardafvigelse fra middelsum strenglængde absolut værdi antal elementer:

Bemærk, at funktionerne ovenfor evalueres til en enkelt værdi på tværs af alle prøver og er beregnet til at vælge websteder, ikke prøver, selv når de anvendes på FORMAT-tags. Men når de præfikser med SMPL_ (eller "s" for kortheds skyld, f.eks. SMPL_MAX eller sMAX), vil de evaluere til en vektor af værdier pr. prøve, når de anvendes på FORMAT-tags:

to-halede binomiale test. Bemærk, at for N=0 evalueres testen til en manglende værdi, og når FORMAT/GT bruges til at bestemme vektorindeksene, evalueres den til 1 for homozygote genotyper.

variabler beregnet i farten, hvis de ikke er til stede: antal af alternative alleler antal prøver antal af alternative alleler mindre allelantal (ligner AC, men er altid mindre end 0,5) hyppighed af alternative alleler (AF=AC/AN) hyppighed af mindre alleler ( MAF=MAC/AN) antal alleler i kaldede genotyper antal prøver med manglende genotypefraktion af prøver med manglende genotype indel længde (deletioner negative, insertioner positive)

antallet (N_PASS) eller brøkdelen (F_PASS) af prøver, der passerer udtrykket

tilpasset perl-filtrering. Bemærk, at denne kommando ikke er kompileret som standard, se afsnittet Valgfri kompilering med Perl i INSTALL-filen for at få hjælp og misc/demo-flt.pl for et fungerende eksempel. Demoen definerede perl-underrutinen "alvorlighed", som kan påberåbes fra kommandolinjen som følger:

Komma i strenge fortolkes som en separator, og når flere værdier sammenlignes, bruges OR-logikken. Følgelig er de følgende to udtryk ækvivalente, men ikke det tredje:

Når der forespørges på flere værdier, testes alle elementer, og OR-logikken bruges på resultatet. For eksempel, når du forespørger "TAG=1,2,3,4", vil det blive evalueret som følger:

Shell-udvidelse:

Bemærk, at udtryk ofte skal citeres, fordi nogle tegn har en særlig betydning i skallen. Et eksempel på udtryk omsluttet af enkelte anførselstegn, som bevirker, at hele udtrykket overføres til programmet efter hensigten:

Se venligst dokumentationen til din shell for detaljer.


Kode flere poster Efter Du indsamler dataene i en batch

Det NIOSH Industry and Occupation Computerized Coding System (NIOCCS) er en gratis, webbaseret softwareapplikation, der oversætter branche- og erhvervtekst til standardiserede branche- og erhvervkoder. NIOCCS koder store partier af industri- og erhvervdata, du allerede har indsamlet.

1.Gå til NIOCCS side. Hvis du har et stort antal poster at kode, skal du tilmelde dig en SAMS-konto (Secure Access Management Service). For at registrere skal du sende dit for- og efternavn og din e-mail-adresse til [email protected] Hvis du kun har nogle få poster at kode, kan du bruge enkeltpostkoderen, som ikke kræver konto.

Angiv den branche- og erhvervtekst, du har brug for kodet. Hvis du kun har nogle få poster, kan du indtaste disse uden at uploade en fil. Hvis du har mange poster, er det hurtigst at uploade oplysningerne i et filformat. Filer, der uploades til NIOCCS, skal være i et standard .txt-filformat afgrænset af et Tab- eller Pipe-tegn (|) og skal mindst indeholde:

Hver indsendt post skal have en værdi i ID-feltet og skal have mindst én værdi i enten Branchetitel eller Beskæftigelsestitel – et eksempel på hvordan filen kunne se ud er vist her:

2. Kod ved hjælp af NIOCCS. NIOCCS koder automatisk alle de indtastede poster, selvom det er vigtigt, at du indtaster gode oplysninger. Hvis der er problemer med jobbeskrivelser, du indtaster, f.eks. stavefejl eller ufuldstændige beskrivelser, vil dit output ikke være så godt.

3. Download dine resultater. Når kodningsprocessen er færdig, kan du downloade din kodede outputfil, som inkluderer de originale uploadede data eller inputdatafelter plus standardiseret folketælling, NAICS og SOC industri- og besættelseskoder.


Beskrivelse

Måned

Genererer et tilfældigt firmanavn, der består af et lorem ipsum-ord og et passende suffiks, som Dolor Inc. eller Convallis Limited.

Denne datatype genererer et tilfældigt SIRET/SIREN fransk virksomhedsidentifikationsnummer.

SIRET:

SIRENE:

Mere info:

Genererer et personligt nummer, der bruges i nogle lande til socialsikring. På nuværende tidspunkt understøttes kun svenske. De personlige numre genereres i henhold til det format, du angiver:

Personligt nummerUden bindestreg

Personligt nummerMed bindestreg

Genererer organisationsnumre, der bruges i nogle lande til registrering af virksomheder, foreninger osv. På nuværende tidspunkt understøttes kun svenske. Organisationsnumrene genereres i henhold til det format, du angiver:

OrganisationsnummerUden bindestreg

OrganisationsnummerMed bindestreg

Genererer tilfældige canadiske provinser, stater, territorier eller amter baseret på de muligheder, du vælger. Det Fulde navn og Forkortelse underindstillinger bestemmer, om outputtet vil indeholde den fulde streng (f.eks. "British Columbia") eller dens forkortelse (f.eks. "BC"). For britiske amter er forkortelsen standard 3-tegns Chapman-kode.

Denne datatype genererer en tilfældig bredde- og/eller længdegrad. Hvis begge er valgt, vises begge adskilt af et komma.

Denne datatype genererer tilfældige, gyldige kreditkortnumre i henhold til det format, du angiver. Det er i øjeblikket i stand til at generere tal for følgende mærker: Mastercard, Visum, Visa Electron, American Express, Opdage, American Diner's, Carte Blanche, Diner's Club International, , JCB, Maestro, Solo, Kontakt, Laser.

Genererer et tilfældigt kreditkort PIN-nummer fra 1111 til 9999.

Genererer et tilfældigt kreditkort CVV-nummer fra 111 til 999.

Denne mulighed genererer et fast antal tilfældige ord, hentet fra den latinske standard tekst fra lorem ipsum.

Denne mulighed genererer et tilfældigt antal ord - det samlede antal inden for det område, du angiver (inklusive). Som med indstillingen Fixed number, er ordene trukket i standard lorem ipsum latintekst.

Denne datatype lader dig generere tilfældige alfanumeriske strenge. Følgende tabel indeholder tegnforklaringen for dette felt. Alle andre tegn, du indtaster i dette felt, vises uden escape.

Genererer en boolsk værdi i det format, du har brug for. Du kan angive flere formater ved at adskille dem med rørtegnet (|). Følgende strenge vil blive konverteret til deres boolske ækvivalent:

  • Ja eller nej
  • Falsk eller Sand
  • 0 eller 1
  • Y eller N
  • F eller T
  • falsk eller sand

sande og falske værdier er specielle. Afhængigt af eksporttypen kan disse udskrives uden dobbelte anførselstegn.

Genererer en kolonne, der indeholder et unikt tal på hver række, som øges med den værdi, du indtaster. Denne indstilling kan være nyttig til at indsætte dataene i et databasefelt med en primær nøgle med automatisk stigning.

Den valgfri pladsholderstreng lader dig integrere den genererede stigningsværdi i en streng via pladsholder. For eksempel:

Dette genererer tilfældigt et tal mellem de værdier, du angiver. Begge felter giver dig mulighed for at indtaste negative tal.

Denne datatype genererer tilfældige valutaværdier, uanset hvilket format og område du ønsker. Eksempel rullemenuen indeholder flere muligheder, så du kan få en fornemmelse af, hvordan det virker, men her er, hvad hver af mulighederne betyder.

Format

Rækkevidde - Fra

Rækkevidde - Til

Valuta symbol

Præfiks/suffiks

Denne datatype lader dig generere en kolonne med data, der har gentagne værdier fra række til række. Her er et par eksempler for at give dig en idé om, hvordan dette fungerer.

  • Hvis du ønsker at angive værdien "1" for hver række, kan du indtaste "1"e i feltet Værdi(er) og enhver værdi (>0) i feltet Loop Count.
  • Hvis du gerne vil have 100 rækker af strengen "Mand" efterfulgt af 100 rækker af strengen "Female" og gentage, kan du indtaste "100"e i feltet Loop Count og "Mand|Female" i feltet Værdi(er).
  • Hvis du gerne vil have 5 rækker af 1 til 10, skal du indtaste "5"e for feltet Loop Count og "1|2|3|4|5|6|7|8|9|10"e i feltet Værdi(er).

Prøv at pille ved det. Du får ideen.

Den sammensatte datatype lader dig kombinere data fra enhver anden række eller rækker og manipulere dem, ændre dem, kombinere oplysningerne og mere. Indholdet skal indtastes i Smarty-skabelonsproget.

For at udlæse værdien fra en række, skal du blot bruge pladsholderne , osv. Du kan ikke henvise til den aktuelle række - det ville enten smelte serveren og/eller få universet til at implodere.

  • Vis en værdi fra række 6:
  • Hvis vi antager, at række 1 og række 2 indeholder tilfældige tal, er følgende eksempler på simpel matematik:
    • - subtraktion
    • - multiplikation
    • <$ROW2/$ROW1> - division

    Se venligst Smarty-webstedet for mere information om syntaksen.

    Denne datatype lader dig generere trælignende data, hvor hver række er et underordnet af en anden række - undtagen den allerførste række, som er træstammen. Denne datatype skal bruges sammen med datatypen Auto-increment: der sikrer, at hver række har en unik numerisk værdi, som denne datatype bruger til at referere til de overordnede rækker.

    Indstillingerne giver dig mulighed for at angive, hvilke af dine formularfelter, der er det passende felt for automatisk stigning, og det maksimale antal børn, en node må have.

    Indtast en liste over elementer, adskilt af et rør | Karakter. Vælg derefter, om du vil Nemlig X antal varer, eller Højst X elementer fra listen. Flere elementer returneres i en kommasepareret liste i resultaterne. Hvis du ønsker, at dit datasæt skal indeholde tomme værdier, skal du blot tilføje et eller flere rørtegn til sidst - jo flere rør du indtaster, jo større er sandsynligheden for, at en tom værdi genereres.

    Det Beregnet Datatype giver dig adgang til metadata om felter i rækken, så du kan generere det output, du ønsker baseret på disse oplysninger. Hvis du bare skal have adgang til genereret strengværdi fra et andet felt (dvs. hvad du ser i outputtet), se Sammensatte Datatype. Denne felttype giver dig meget mere adgang til hvert felt.

    , osv. indeholder alt tilgængeligt om den pågældende række. Indholdet ændres baseret på rækkens datatype og det, der er blevet genereret, men på højt niveau indeholder det følgende egenskaber:

    • - uanset hvilke muligheder der er indtastet i grænsefladen/API-kaldet for rækken
    • - eventuelle yderligere metadata returneret for datatypen
    • - det faktisk genererede tilfældige indhold for dette felt (altid i en "visnings" egenskab) plus enhver anden information om det genererede indhold
    • - en praktisk JSON-serialisering af alt i rækken, så du kan se, hvad der er tilgængeligt. Bare kør det gennem et JSON-formater.
    • - vil udsende kønnet ("mand", "kvinde" eller "ukendt") for det genererede indhold af en Navne Datatype-feltet (sørg for at erstatte "1" med det rigtige rækkenummer!). Hvis du brugte Kvindenavn som pladsholderstrengen vil denne variabel returnere "female" hver gang. Hvis du indtastede "Navn", vil den returnerede værdi afhænge af den genererede streng. Hvis du indtastede en pladsholderstreng med flere formater, vil den returnere "ukendt", hvis den indeholdt begge køn eller ingen køn (f.eks. et efternavn uden fornavn).

    af-nied. For at dele dette datasæt med andre personer, skal du først gemme det.

    Jeg forstår, at for at dele dette datasæt skal jeg offentliggøre det.

    Send en e-mail til brugeren med deres loginoplysninger

    Er du sikker på, at du vil slette denne brugerkonto?

    Fornavn
    Efternavn
    E-mail

    Du har bundling/minificering aktiveret. Hvis du klikker på knappen Nulstil plugins, skal du køre grynte at genskabe bundterne. For mere information læs denne dokumentationsside. Hvis du har problemer, kan det være en god idé at slå bundling fra.

    Om

    Har du nogensinde haft brug for brugerdefinerede formaterede prøve-/testdata, som dårlige? Nå, det er ideen med dette script. Det er et gratis open source-værktøj skrevet i JavaScript, PHP og MySQL, der lader dig hurtigt generere store mængder tilpassede data i en række forskellige formater til brug i test af software, udfyldning af databaser og. så videre og så videre.

    Dette websted tilbyder en online demo, hvor du er velkommen til at pille rundt for at få en fornemmelse af, hvad scriptet gør, hvilke funktioner det tilbyder, og hvordan det fungerer. Så, når du har vækket din appetit, er der en gratis, fuldt funktionel, GNU-licenseret version tilgængelig til download. Alternativt, hvis du vil undgå besværet med at konfigurere det på din egen server, kan du donere $20 eller mere for at få en konto på denne side, så du kan generere op til 5.000 poster ad gangen (i stedet for de maksimale 100), og lader dig gemme dine datasæt. Klik på fanen Doner for mere information.

    Forlæng den

    Out-the-box-scriptet indeholder den slags funktionalitet, du generelt har brug for. Men intet er nogensinde komplet - måske skal du generere tilfældige esoteriske matematiske ligninger, trække tilfældige tweets eller vise tilfældige billeder fra Flickr med ordet "Red-backed Vole" i titlen. Hvem ved. Alles use-case er forskellig.

    Med dette i tankerne blev den nye version af scriptet (3.0.0+) designet til at være fuldt udbyggelig: udviklere kan skrive deres egne datatyper for at generere nye typer tilfældige data og endda tilpasse eksporttyperne - dvs. formatet i som dataene udlæses. For folk, der er interesserede i at generere mere nøjagtige lokaliserede geografiske data, kan de tilføje nye Country-plugins, der leverer regionsnavne (stater, provinser, territorier osv.), bynavne og post-/postnummerformater for deres valgte land. For mere information om alt dette, besøg udviklerdokumentationen.

    Hent

    Klik på knappen nedenfor for at downloade den seneste version af scriptet fra github. For mere information se brugerdokumentationen.

    Projektnyheder

    Brugerkonti

    Denne sektion lader dig oprette et hvilket som helst antal brugerkonti for at give folk adgang til scriptet. Det er kun dig, der kan oprette eller slette konti.

    Ingen brugerkonti tilføjet endnu.

    Doner nu!

    Hvis dette har hjulpet dig i dit arbejde, er en donation altid værdsat! Hvis en generel følelse af godhed ikke er nok til at overtale dig til at donere, er her nogle flere materielle incitamenter:

    • At støtte projektet fører til fantastiske nye funktioner! Ærlig!
    • Hvis du donerer $20 eller mere, får du en brugerkonto på denne hjemmeside. Med en brugerkonto kan du:
      • Generer op til 10.000 rækker ad gangen i stedet for de maksimale 100.
      • Gem dine formularkonfigurationer, så du ikke behøver at genskabe dine datasæt, hver gang du vender tilbage til webstedet.

      Hver $20 du donerer tilføjer en år til din konto. Du kan vende tilbage på et senere tidspunkt for at tilføje mere tid til din konto - det vil blive tilføjet til slutningen af ​​din nuværende tid. Bare sørg for at donere med den samme e-mailadresse. Hvis du har problemer med at donere eller med din brugerkonto, så send mig en linje.

      Efter at have doneret vil du blive e-mailet med detaljer om, hvordan du afslutter opsætningen af ​​din konto (tjek din spam-mappe!). Hvis du har problemer, bedes du kontakte mig.


      Se videoen: 800 Těsnící závitová PTFE páska - Pórovitost a těsnění (August 2022).