사실 문서의 정의는 수 많은 방식이 있는데 기본적으로 조금 다른 생각을 해봤습니다. 감성을 문서에 도입해보자. 명시적 메타데이터나 지식 레이어를 담은 형식이 아니라 관계를 기반으로 특정한 감정적 그리드를 따로 만드는 것입니다. 책의 난이도, 즐거움, 연령, 가성비, 학습 같은 것 이외에 9블록처럼 다시 나눕니다.
사실 책을 다루려고 했던건 아니고 전화번호에서 사람을 모두 분석해서 이 전에 통화 데이터가 있었는지 찾아내 학습하는 인간관계를 구성하는 것을 만들어 보려다가…그냥 다 치우고 책에 대해서만 오각 데이터 벡터화했습니다. 일단 대충 키워드를 뽑아 놓아서 분류한 것이라서 바꿔야 합니다.
향후 완성되면 서평을 달아 놓은 사람들이 어떻게 생각하는지 알아내고 그걸 기준으로 관계는 수치화 되기 때문에 벡터데이터베이스에 넣어서 키워드와 관련 데이터가 포함되어 재분석을 합니다.
그러면 뭐가 나오겠죠? 뭔가 나오긴 합니다.그래프를 계속 돌리면 재미있는 결과가 나오겠죠?
그나저나 배송이 빠른게 책이랑 뭔 관계냐… 책이 보편타당하니까… 노션이나 옵시디언용으로 플러그인이 되려면 학습 데이터를 더 넣어봐야겠습니다.
문서의 감성적 측면을 분석하여 새로운 차원의 정보 추출
문서 간 관계를 감정적으로 정의하고 9블록 그리드로 표현
난이도, 즐거움 등 5가지 요소를 벡터화하여 문서 특징 수치화
서평 데이터로 문서 간 관계 수치화하여 벡터 DB에 저장
분석 데이터로 키워드와 관련 데이터 재분석하여 인사이트 도출
발전 방향으로는 감성 그리드 구체화, 오각 데이터 벡터 확장, 서평 감성 분석 고도화, 관계 수치화 알고리즘 개발, 벡터 DB 활용한 다양한 분석, 플러그인 개발을 준비할 수 있습니다. 구현을 위해서는 데이터 수집, 알고리즘 개발, 기술적 환경 구축 등 해결해야 할 과제가 있지만, 문서에 대한 새로운 이해와 개인화된 추천, 문서 관계 시각화, 학습 및 창작 지원 등의 효과를 기대할 수 있습니다.
notebookLM 에 영문팟케스트 만들어 주는 것을 음성을 반대로 자동번역 및 자막 생성하고 문서화 하는 것을 만들었습니다.
스크립트로 영상을 만들거나 캔바로 보내 카드뉴스 마케팅하는데 도움은 될 듯 하지만 웹에서는 그런데 현재로서 완성도를 더 높이려면 맥OS에 가지고 있는 기능을 사용해서 만드는 것이 훨씬 나을거 같습니다.
쉽게는 아니지만 컨텐츠 뽑아내는 실험은 그만해야 할거 같아요 문제는 오픈소스로는 한계가 있어보입니다. 단어장을 계속 추가해줘야 해서 어느정도 인간이 교정봐야 할게 있으나 (Deepl 돈안써서 만든거라 딱 그정도) 다시 OpenAI, 클로드 로 번역 및 교정을 하는 것으로 처리하면 잘 나오기는 할텐데
이제 srt를 더 음성부분을 세밀하게 나눠 두사람의 대화를 카톡채팅 비슷하게 애니메이션으로 만드는 것이면 책 안의 캐릭터가 책소개 하려는 부분까지는 어찌 될듯합니다.
기계가 만든 스크립트를 다시 텍스트로 추출 해서 대화 콘텐츠를 영문, 한글로 번역
혼자 프로그램으로 자막 만들고 영상만들고… md + srt + json – animation epub을 아 머리 복잡해 osx m3 에 최적화 코드로 속도 8배 빨라집니다.
노트북LM 을 이용해서 잠깐 만들었지만 테스트해서 비슷하게 나오는 템플릿 만드는데 시간 낭비 다 했지습니다. 전자책으로 이렇게 구성되서 한글 음성도 나올 수 있게 작업중이며 본인 목소리로 학습할 수 있는 오픈소스도 많이 있고 기존에 구축되어 있는 것도 상당히 많이 있습니다. 일단 coqui-ai/TTS 를 학습한 자료중 일부를 써볼 준비중입니다.
돈 없으면 싸구려 지식을 얻게 되는 세상이 되니 돈 내는 컨텐츠를 또 다른 형식으로 제작해볼 생각입니다. 제가 GPT 나 에이전트 관련 책을 출간 안하는 이유가 OS단에서 처리하면 끝나는데 오늘 미국에서는 발표됐네요 앞으로 오리지널을 생각못하면 대부분의 서비스는 곧 사망!
지난 2주간 miniERP를 만들고 기능정의용 작은 프로그램을 하고 있었습니다. 모아시스를 대체해야겠다는 것보다는 그냥 작은 프로그램으로 요즘 출판에 맞는 형태로 전부 바꿔서 작업을 테스트 했습니다.
일단 작은 단위 테스트가 되어야 그 다음에 묶는 일을 할 수 있고 가능하면 저렴하게 운영할 수 있도록 설치형 AI에 연동해서 필요한 정보를 일종의 세트로 만들어 넣으면 동작할 수 있도록 구성했습니다.
예를 들어 ISBN만 넣으면 정보를 모두 수집해서 도서 홍보용 블로그 글, 트위터, SNS에 쓸 글을 자동으로 생성합니다. 요즘 유튜브 보면 그런게 많이 보이죠? 그런데 그걸 제대로 학습해서 다시 결과물을 뽑으려면 프로그램을 따로 해야합니다.
GUI로 자동화 하고 싶죠 안됩니다. ^^
output2.txt 라는 파일은 포맷이 전부 구글 NotebookLM에 맞춘 데이터를 Yes24에서 받아와서 봄봄스쿨의 전체도서를 가지고 대화를 뽑아낼 수 있습니다. 그런데 해당 파일은 md 및 json 구조의 데이터를 가지고 있습니다. 기계가 알아들을 수 있게 거꾸로 인간이 가공해서 넣어줘야합니다. 대부분 이걸 몰라서 텍스트 블록을 넣기만 합니다. 그래서는 온전한 학습을 통해 얻을 수 있는게 별로 없습니다.
AI 데이터 input에 가장 최적화된 문서 포맷은 markdown, json인데 대부분 출판사는 준비가 안되어 있어요. 그래서 제가 아예 다른 전자책 컨버터 및 전자책 제작 툴도 함께 하려는 이유입니다.
간단히 말하면 이런거예요. 책 한 권이 되었건 100권이 되었건 마케팅적인 접근으로 보면 데이터가 유의미한 정보와 연결되어야 그걸 기반으로 경영정보를 한 눈에 볼 수 있고 의사결정을 할 수 있게 됩니다.
마케팅을 해야할지 책정가를 개정하면 판매가 어떻게 될지 창고비용을 줄일 수 있을지 쇼핑몰을 직접 운영했을 때 스마트스토어, 쿠팡, 기타등등 어디서 무엇이 팔리고 있는지 지역별로 어떤 책이 판매되는지 한 눈에 볼 수 있어야 합니다.
그래서 GEO 지역 정보에서 서점 그리고 온라인에서 수 많은 서평, 도서블로그, 유튜브 등의 검색을 통해서 내 책이 어디에 노출되고 있는지 찾아냅니다. 그런데 이건 사람이 할 일은 아니고 일정부분 유료API를 써야되는 일이 생기기도 합니다.
어찌됐건 책에 대한 모든 정보 뿐 아니라 현재 판매지수로 특정도서를 모니터링하는 프로그램을 하고 있습니다. 어떤 도서가 반응이 있다면 그 도서의 예상판매추이나 이벤트 등 함께 분석할 수 있게 합니다.
그동안은 자사책 이외에는 하고있지 않았는데 이 기능에 대해서는 고민중입니다. 왜냐하면 모아서 볼 수 있게 한다고 데이터는 저희게 아니라서 API를 제공하는 업체 또는 공공DB를 활용해볼 계획입니다.
지금 거의 모든 업체들의 DB를 봐야하는데 그것도 저희가 일절 보지 않는 형태로 운영할 준비를 하고 있습니다. 소프트웨어를 제공해도 데이터는 아예 안보는 설치형 DB와 데이터 암호화해서 서버에 백업하는 형식을 취할 예정입니다.
결론은 자동화가 되었건 어떤 일이 되었건 모듈화해서 기능을 어떤업체건 추가로 제공하기 시작하면 함께 프로그램이 운영될 수 있게 할 생각입니다.
최근에 캔바, 어도비익스프레스에 도서정보를 바로 가짜 3차원 이미지로 도서정보 포함해서 넣는 것과 판매데이터를 기준으로 책 순위가 바뀌는 것을 만들고 있는데 매일매일 도서판매에 대한 영상이 자동으로 생성되게 하려고 합니다.