Invalid characters in fasta sequence #209

srilekha1993 · 2024-03-26T10:52:29Z

Hi,
After running esm_embedding_preparation.py getting the following output in fasta file
<80>^C}q^@(X^N^@^@^@4d3i_1_chain_0q^AXk^A^@^@MEEKEILWNEAKAFIAACYQELGKAAEVKDRLADIKSEIDLTGSYVHTKEELEHGAKMAWRNSNRCIGRLFWNSLNVIDRRDVRTKEEVRDALFHHIETATNNGKIRPTITIFPPEEKGEKQVEIWNHQLIRYAGYESDGERIGDPASCSLTAACEELGWRGERTDFDLLPLIFRMKGDEQPVWYELPRSLVIEVPITHPDIEAFSDLELKWYGVPIISDMKLEVGGIHYNAAPFNGWYMGTEIGARNLADEKRYDKLKKVASVIGIAADYNTDLWKDQALVELNKAVLHSYKKQGVSIVDHHTAASQFKRFEEQAEEAGRKLTGDWTWLIPPISPAATHIFHRSYDNSIVKPNYFYQDKPY

Which contains some invalid characters which are not processed by scripts/extract.py for generating the embedding using esm . Can anyone please tell me how to resolve this issue?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Invalid characters in fasta sequence #209

Invalid characters in fasta sequence #209

srilekha1993 commented Mar 26, 2024

Invalid characters in fasta sequence #209

Invalid characters in fasta sequence #209

Comments

srilekha1993 commented Mar 26, 2024